OpenAI Soraを試してみてください
テキスト/画像からビデオを作成し、ループビデオを生成し、ビデオを前後に拡張します
Soraがライブになったときに最初に知る人になりましょう!
オープンエーアイ ソラについて
何がソラ
OpenAIのテキストからビデオへのモデル。ソラは、ビジュアル品質とユーザーのテキスト指示への遵守を維持しながら、最大1分のビデオを生成することができます。
Soraの目標
Soraは、現実世界を理解しシミュレートするモデルの基盤として機能し、現実世界との相互作用を必要とする問題を解決するのに人々を支援します。
進捗
赤チームと招待されたビジュアルアーティスト、デザイナー、映像作家にのみ利用可能です。
特徴
複数のキャラクターや特定のモーションタイプ、被写体、背景の詳細を正確にサポートします。モデルはこれらのものが物理世界に存在する方法を理解し、1つのビデオ内で複数のショットを撮影します。
制限事項
複雑な物理を正確にシミュレートする難しさ、空間の詳細の混乱、物体やキャラクターの突然の出現、正確でない物理モデリングと不自然な物体の変形。
安全
赤チームと協力して敵対的なテストを実施し、モデル内のセキュリティ問題を特定して対処するためのツールを構築し、検出分類器とC2PAメタデータを使用して誤解を招くコンテンツを検出するためのツールを構築します。
ショーケース - 毎日更新
Prompt
-
Prompt
Bubble Dragon
Prompt
Sora generates an imaginary video of the interview.
Prompt
an extreme close up shot of a woman's eye, with her iris appearing as earth
Prompt
fly through tour of a museum with many paintings and sculptures and beautiful works of art in all styles
Prompt
a red panda and a toucan are best friends taking a stroll through santorini during the blue hour
Prompt
a man BASE jumping over tropical hawaii waters. His pet macaw flies alongside him.
Prompt
a dark neon rainforest aglow with fantastical fauna and animals.
Prompt
Close-up of a majestic white dragon with pearlescent, silver-edged scales, icy blue eyes, elegant ivory horns, and misty breath. Focus on detailed facial features and textured scales, set against a softly blurred background.
Prompt
a scuba diver discovers a hidden futuristic shipwreck, with cybernetic marine life and advanced alien technology
Prompt
in a beautifully rendered papercraft world, a steamboat travels across a vast ocean with wispy clouds in the sky. vast grassy hills lie in the distant background, and some sealife is visible near the papercraft ocean's surface
Prompt
cinematic trailer for a group of samoyed puppies learning to become chefs.
Other AI video products
Company | Generation Type | Max Length | Extend? | Camera Controls? (zoom, pan) | Motion Control? (amount) | Other Features | Format |
---|---|---|---|---|---|---|---|
Runway | Text-to-video, image-to-video, video-to-video | 4 sec | Yes | Yes | Yes | Motion brush, upscale | Website |
Pika | Text-to-video, image-to-video | 3 sec | Yes | Yes | Yes | Modify region, expand canvas, upscale | Website |
Genmo | Text-to-video, image-to-video | 6 sec | No | Yes | Yes | FX presets | Website |
Kaiber | Text-to-video, image-to-video, video-to-video | 16 sec | No | No | No | Sync to music | Website |
Stability | Image-to-video | 4 sec | No | No | Yes | WebsiteLocal model, SDK | |
Zeroscope | Text-to-video | 3 sec | No | No | No | Local model | |
ModelScope | Text-to-video | 3 sec | No | No | No | Local model | |
Animate Diff | Text-to-video, image-to-video, video-to-video | 3 sec | No | No | No | Local model | |
Morph | Text-to-video | 3 sec | No | No | No | Discord bot | |
Hotshot | Text-to-video | 2 sec | No | No | No | Website | |
Moonvalley | Text-to-video, image-to-video | 3 sec | No | Yes | No | Discord bot | |
Deforum | Text-to-video | 14 sec | No | Yes | No | FX presets | Discord bot |
Leonardo | Image-to-video | 4 sec | No | No | Yes | Website | |
Assistive | Text-to-video, Image-to-video | 4 sec | No | No | Yes | Website | |
Neural Frames | Text-to-video, image-to-video, video-to-video | Unlimited | No | No | No | Sync to music | Website |
MagicHour | Text-to-video, image-to-video, video-to-video | Unlimited | No | No | No | Face swap, sync to music | Website |
Vispunk | Text-to-video | 3 sec | No | Yes | No | Website | |
Decohere | Text-to-video, Image-to-video | 4 sec | No | No | Yes | Website | |
Domo Al | Image-to-video, video-to-video | 3 sec | No | No | Yes | Discord bot |
人々はxでSoraについて話します
SoraAI by OpenAI is wild.
— Alamin (@iam_chonchol) February 18, 2024
These are 100% generated only from text and take just 1 minute 🤯
10 wild examples ( 2nd is WOW ) pic.twitter.com/NLetbJVa2v
If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
"this close-up shot of a futuristic cybernetic german shepherd showcases its striking brown and black fur..."
— Bill Peebles (@billpeeb) February 18, 2024
Video generated by Sora. pic.twitter.com/Bopbl0yv0Y
Sora and Stable Video, text to video compare. pic.twitter.com/pZzSeSXPtN
— Retropunk (@RetropunkAI) February 17, 2024
OpenAI's Sora is the most advanced text-to-video tool yet. 💡
— Escher (@Escher_AI) February 16, 2024
It can generate compellingly realistic characters, create multiple dynamic shots in a single video, with accurate details of both subjects and background.
Here's the 10 best generations so far
🧵👇 pic.twitter.com/FHp0cxt0Ll
OpenAI's Sora is going to change marketing forever, enabling anyone to unleash his inner creativity.
— William Briot (@WilliamBriot) February 15, 2024
Check this 100% AI-generated video of Mammoth generated with the new "text-to-video" OpenAI model: pic.twitter.com/DcDGPjpBXC
"a photorealistic video of a butterfly that can swim navigating underwater through a beautiful coral reef"
— Tim Brooks (@_tim_brooks) February 17, 2024
Video generated by Sora pic.twitter.com/nebCKLa09U
Another Sora video, Sora can generate multiple videos side-by-side simultaneously.
— 🅱️WhiteAfricanSpaceJesus (@zespacejesus) February 18, 2024
This is a single video sample from Sora. It is not stitched together; Sora decided it wanted to have five different viewpoints all at once! pic.twitter.com/q2rfxh61CQ
Sora can also generate stories involving a sequence of events, although it's far from perfect.
— Bill Peebles (@billpeeb) February 17, 2024
For this video, I asked that a golden retriever and samoyed should walk through NYC, then a taxi should stop to let the dogs pass a crosswalk, then they should walk past a pretzel and… pic.twitter.com/OhqVFqR5vA
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
https://t.co/P26vJHlw06 pic.twitter.com/AW9TfYBu3b
— Sam Altman (@sama) February 15, 2024
https://t.co/rPqToLo6J3 pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024
https://t.co/WJQCMEH9QG pic.twitter.com/Qa51e18Vph
— Sam Altman (@sama) February 15, 2024
a wizard wearing a pointed hat and a blue robe with white stars casting a spell that shoots lightning from his hand and holding an old tome in his other hand
— biden or buster (@willofdoug) February 15, 2024
よくある質問
Soraは、テキスト指示からリアルで想像力豊かなビデオシーンを作成できるOpenAIによって開発されたAIモデルです。物理世界の動きをシミュレートするよう設計されており、ビジュアル品質を維持し、ユーザーのプロンプトに従うことで、最大1分のビデオを生成します。
Soraは、静的ノイズに似たビデオから始まり、多くのステップでノイズを取り除くことによって徐々に変換される拡散モデルです。これは、GPTモデルに類似したトランスフォーマーアーキテクチャを使用し、ビデオや画像をパッチと呼ばれるより小さなデータユニットのコレクションとして表現します。
Soraは、複数のキャラクターが登場する複雑なシーン、特定の動き、被写体や背景の正確なディテールを含む幅広い種類のビデオを生成することができます。また、既存の静止画をアニメーション化したり、欠落しているフレームを補完して既存のビデオを延長することもできます。
Soraは、複雑なシーンの物理を正確にシミュレートしたり、特定の原因と結果のインスタンスを理解したり、時間の経過とともに空間の詳細を維持したりすることに苦労するかもしれません。時には物理的にありえない動きを作り出したり、空間の詳細を混同したりすることがあります。
OpenAIは、赤チームと協力してモデルを敵対的にテストし、誤解を招くコンテンツを検出するツールを開発しています。彼らは将来的にC2PAメタデータを含める予定であり、テキスト分類器や画像分類器など、他の製品からの既存の安全性手法を活用しています。
現在、Soraは赤チームに利用可能で、危害やリスクの重要な領域を評価するために利用され、ビジュアルアーティスト、デザイナー、映画製作者には、クリエイティブプロフェッショナル向けのモデルを進化させるためのフィードバックを提供しています。
クリエイティブなプロフェッショナルであれば、OpenAIを通じてSoraへのアクセスを申請することができます。アクセスが許可されると、テキストプロンプトに基づいてビデオを生成するモデルを使用でき、独自で想像力豊かなシーンで創造的なプロジェクトを強化することができます。
Soraは、OpenAIが人工一般知能(AGI)を達成する重要なマイルストーンと考えている、現実世界を理解しシミュレートできるモデルの基盤として機能します。
Soraは言語に深い理解を持ち、テキストのプロンプトを正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターやシーンを生成することができます。1つのビデオ内で複数のショットを作成しながら、一貫したキャラクターやビジュアルスタイルを維持します。
Soraは、GPTモデルに類似したトランスフォーマーアーキテクチャを使用し、ビデオや画像をパッチと呼ばれるより小さなデータ単位のコレクションとして表現します。このデータ表現の統一により、モデルはより幅広い視覚データで訓練されることが可能になります。
モデルに一度に多くのフレームを予測させることで、Soraは、被写体が一時的に視界から外れても一貫性を保つことができます。
Soraは、DALL·E 3からのリキャプション技術を使用しており、これにより視覚トレーニングデータのために非常に記述的なキャプションを生成します。これにより、生成されたビデオでユーザーのテキスト指示により忠実に従うモデルを支援します。
OpenAIは、Soraを製品に統合する前に、敵対的なテスト、検出分類器の開発、およびDALL·E 3など他の製品からの既存の安全性手法を活用するなど、いくつかの安全対策を講じる予定です。
Soraは映画製作者、アニメーター、ゲーム開発者、その他のクリエイティブプロフェッショナルがビデオコンテンツ、ストーリーボード、さらにはアイデアのプロトタイプを迅速かつ効率的に生成するために使用できます。
OpenAIは積極的に政策立案者、教育者、アーティストと連携し、技術の懸念を理解し、その技術のポジティブな利用例を特定する取り組みを行っています。彼らは、すべての有益な利用法や悪用を予測することはできないと認めていますが、実世界での使用から学ぶことが、時間をかけてより安全なAIシステムを作り上げるために重要であると認識しています。
OpenAIには、使用ポリシーに違反するテキスト入力プロンプトをチェックして拒否するテキスト分類器があります。例えば、極端な暴力、性的コンテンツ、憎悪のイメージ、または知的財産の未承認使用を要求するものなどが該当します。
AIにおける「ワールドモデル」とは、物理世界とそのダイナミクスをシミュレートする計算モデルを指し、AIがその中で物体やエンティティがどのように相互作用するかを理解し予測することができるようになります。Soraの文脈では、このことはモデルがテキストの指示に従うだけでなく、重力、運動、物体の相互作用など、現実世界の物理法則や振る舞いにも従うようにトレーニングされていることを意味します。この能力は、テキストの記述から現実的で一貫したビデオコンテンツを作成するために重要です。