昨日、OpenAIの最新動画生成モデル「Sora 2」の招待コードをいただいたので、実際にSora 2で映像を作ってみました。たった一行のプロンプトから生まれる映像の完成度に驚かされました。
人物の動きや表情、背景との整合性、音楽との相性などすべてが非常に自然で、AI的だなと思わせるところももちろんありましたが、それらがうまく共存していると感じました。
ここでは、Sora 2に関する海外メディア3社(Mashable、CNN、The Guardian、文末にリンクをつけています)の記事をもとに、私自身が実際に使って感じたことを含めて、その可能性と課題を整理します。
Sora 2とは? ― 動く世界を、言葉で描く技術
Sora 2は、OpenAIが開発したAI動画生成モデルの最新版です。テキストで指示を与えるだけで、非常にクオリティの高い短編動画を生成することができます。
Sora 2を利用するには、ChatGPTの有料プランへの加入が必要で、一番安いChatGPT Plus(月額20ドル)のプランでは毎月50本まで動画を生成することができます(2025年10月6日現在)。
現在Sora 2は招待制となっているので、誰かに招待コードを送ってもらうか、Xで「sora 2 招待コード」などで検索するなどし、招待コードを取得する必要があります。
Mashableの記事は「細部の表現力」「動きの滑らかさ」「カメラワークの自然さ」に高い評価を与えていました。単なるAIムービーではなく、映像として見られる作品が生まれ始めているとしています。
私が実際に試した際も、短いプロンプトで自然な映像が生成されました。照明の柔らかさや目線などが自然に再現されており、人間が大事だと感じる「質感」の表現力も高くなっていると感じました。
技術の進化がもたらす新しい創作体験
Sora 2はプロンプト(どのような動画を生成してほしいかという、Sora 2への指示)の理解度が非常に高く、わずかな表現の違いが映像に明確に反映されるようになっています。
次のような1行の簡単なプロンプトを試してみました。
A young Japanese woman walking down a tree-lined street, smiling, gentle sunlight, soft breeze, cinematic tone, side view camera, 10 seconds.
こちらにあるような、柔らかな光と風の動きが調和した10秒ほどの映像が生成されました。背景の木々の雰囲気、被写体の表情に微妙な感情の動きまで感じられるものでした。
このわずか1行のプロンプトで、これだけのクオリティのものが簡単に生成されるということが驚きです。
また、複雑なプロンプトもこちらの方が作成された指示に沿って作成してみました。
- シーン・背景描写の明確化(時間帯・天候・場所など)
- 被写体・キャラクターの詳細(外見・服装・行動など)
- カメラワーク・撮影手法の指示(アングル・視点・動きなど)
- 動作・アクションの具体化
- 映像スタイル・質感の指定
- 照明・色彩の設定
- 音声・効果音の指示
- 時間経過・シーケンス
- 感情・雰囲気の演出
これらの内容を支持し、それを英訳してプロンプトにしてSora 2に渡すというやり方です。日本語よりも英語の方が適切に指示内容を解釈してくれます。
作成した動画は、渋谷の上空で花火が上がっているという、現実では起きえないシチュエーションのものです。Sora 2に指示したプロンプトは以下の通りです。
A hyperreal cinematic video showing a surreal scene of a grand fireworks festival over Shibuya, Tokyo at night.
Massive fireworks, like those from the Oomagari Fireworks Festival, explode above the skyline, their reflections shimmering on glass buildings.
Crowds in the famous Shibuya Crossing stop walking, looking up at the sky in awe.
Some smile, some film with their phones, some simply stand still, mesmerized.
The city’s neon lights blend with the glow of red, gold, and blue fireworks, illuminating the streets and faces of the people.
Camera alternates between aerial wide shots and close-up street-level slow motion, capturing the collective wonder.
Sounds of deep explosions, city echoes, soft cheers, and an emotional orchestral soundtrack with piano and taiko drums.
High contrast lighting with vibrant reflections on wet asphalt.
Atmosphere: dreamlike, emotional, cinematic, evoking the feeling of unity and awe in an impossible moment of stillness in the heart of Tokyo.
こちらのプロンプトによって生成された動画が以下のものになります。テキストで指示を出しただけとは思えないクオリティになっています。
Sora 2が突きつける現実的な課題
もちろん課題もあります。誰もが考えるように、CNNの記事では「ディープフェイク」「偽情報」「著作権」のリスクを強く指摘していました。あまりにリアルな映像を誰でも作れるということは、誤情報を映像の形で簡単に信じさせる・拡散させることもできるということです。
OpenAIが著作権ホルダーに対して「より細かなコントロール」を提供する方針を示していると報じています。たとえば、有名キャラクターや実在人物の生成を制御するシステムや、利用者が著作物をアップロードする際の管理強化など。
「ドラゴンボール」や「ポケモン」など日本のアニメやキャラクターに酷似したキャラクターが作成できるという声も上がっていましたし(一方ディズニーは不可)、権利関係の適切な対処がサービス提供側であるOpenAIに求められています。
ロジャー・フェデラーとアンドレ・アガシという名テニス選手をご存じでしょうか。2005年、二人がドバイのブルジュ・アル・アラブ・ホテルのヘリパッドで、短いエキシビションマッチをしたことがあるのですが、そちらを参考に動画を作ろうとして、
Reference the real-life event where Andre Agassi and Roger Federer played tennis on the Burj Al Arab helipad in Dubai.
というスクリプトを書いたのですが、「違反の恐れがあります」とエラーが表示されました。参考にして、という形でSora 2への指示を記載しているのですが、OpenAI側も調整をしている最中なのではと感じました。
映像制作の民主化と、クリエイターの再定義
Sora 2の登場によって、映像制作のハードルはますます下がったと言えます。これまでは撮影機材・編集スキル・人手が必要だった世界が、テキスト入力だけで高いレベルで成立しています。
この現象は「クリエイションの民主化」と表現されていて、誰もが物語を映像で語れる時代が到来したというわけです。
一方、プロンプトをいろいろ試していくうちに、「AIに意図を適切に伝えるスキル」、すなわち映像を言葉で適切に構成することが必要になってくるなと感じました。
実際の生成結果から見えたこと
今回、いくつかのプロンプトで試した中で、うまくいったケースとそうでないケースがあります。
うまくいった点:
- 背景と人物の距離感が自然で、影の動きが一貫していた。
- 表情が硬くならず、リアルな人間らしさを感じられた。
- 光と風のバランスが映像全体のトーンを支えていた。
- 指定していないにも関わらず、背景の音楽が内容とマッチしていた。
課題として感じた点:
- 遠景の建物や背景オブジェクトがわずかに歪む。
- カメラが動くシーンで、被写体の足元が浮くように見える。
- ショットのつなぎに、まだ人工的な感じがある
AI映像時代をどう受け止めるか
AIが映像を作るようになった時、私たちは「何を作るか」よりも「なぜそれを作るか」を問われていくのだと思います。
どんなに精巧な映像でも、意図や文脈がなければ心に残りません。Sora 2のようなツールは、表現の幅を広げ、映像制作の敷居を大幅に下げると同時に、私たちの「意図」をより問いかけていると感じました。