OpenAIは9月30日、新たな映像生成AIモデル「Sora 2」を正式に発表した。テキストから映像と音声を同時に生成できる点が最大の特徴で、前世代「Sora」で指摘されていた物理再現性や制御性の課題を大幅に改善したという。
映像と音声を統合生成
Sora 2は、人物の動作や環境音を含むシーンを一括して生成可能。ジャンプや落下などの物理挙動を自然に再現できるほか、会話や効果音なども映像と連動して出力される。OpenAIはこれにより「より現実に近い没入感のある体験が可能になる」と説明している。
また、新機能として「キャメオ(cameo)」が追加された。これは利用者が自身を映像内に登場させるもので、SNSやコンテンツ制作での活用が想定される。
提供形態と利用方法
Sora 2はまず、iOS向けアプリとして米国とカナダで招待制により提供を開始する。今後はWeb版やAPIの提供も予定されており、開発者やクリエイターが外部サービスに組み込めるようになる見込みだ。
利用は基本無料だが、計算資源が逼迫する場合には有料ティアを設ける可能性がある。ChatGPT Proユーザー向けには「Sora 2 Pro」モードが提供され、高品質な生成結果が得られるという。
高精度ゆえのリスク
一方で、Sora 2の高い表現力はリスクも伴う。肖像権侵害やディープフェイクの生成、誤情報拡散といった懸念が指摘されている。
OpenAIは段階的な提供や強化されたモデレーション機能を通じて安全性を確保するとしており、内部レッドチームによる評価や安全性テストも進めているという。
今後の展望
Sora 2は、映像生成AIの新たな基準を提示したともいえる存在だ。短尺動画を中心とした表現領域から、今後は長尺映像や高度な編集機能への展開も予想される。
ただし、普及には倫理的な課題や規制の整備が不可欠となる。技術革新と安全性のバランスが、Sora 2の成長を左右する重要な要素となりそうだ。