現時点での生成AIで動画が生成できるという意味
- Tomizo Jinno
- 2024年12月11日
- 読了時間: 7分
更新日:3月28日
このニュースをテレビ局も「驚くほどのクォリティー」「動画づくりもA.I.の時代に」というような表現で伝えていますが、果たして我々映像制作会社にとっての「利用価値」と「脅威になるものなのか」を考えてみたいと思います。
利用環境
上記の「Sora」の場合、月額200ドルの有料会員の最上位資格「Chat GPT Pro」会員にならなければ、ウォーターマーク(透かし)なしのフルハイビジョン(FHD・1,920×1,080pixel)が書き出せないこと。1カット20秒までであること。FHD20秒の動画を5本書き出すと制限が掛かること。サーバーが混み合っていると書き出しに時間が掛かることと、20秒でプロンプトしたものが10秒になっていまうことがあること。などが早速報告されています。
Hyper Useには耐えられない
まず、この報告を読む限り、残念ながら我々のようにビジネス向けの動画を制作する職業映像制作者の利用には向かないようです。なぜなら生成AIに画像を作成させたことがある人ならば、わかっていただけると思います。
生成AIで希望の画像(静止画)を作ろうとする場合、一回のプロンプトでズバリ想定通りの画像が生成されることはまずありません。何度も何度もプロンプトを繰り返し書き直して、司令を与えて書き出すという試行錯誤するのが常なのです。すなわち、動画であれば指令と書き出された映像のイメージが異なる可能性はさらに高まり、プロンプトを書き直して何度も書き出し(書き出してみなければ、出来上がり状態はわかりません。)をさせたら、あっという間に制限が掛かることになります。
時間的一貫性(temporal consistency)が維持できない
この問題は、現在の生成AIの基本的な仕組みに起因します。AIは各シーンを個別に生成するため、前後のシーンとの整合性(連続性)を完全には保つことができないのです。
連続するカット間での不一致
同じキャラクターの服装や髪型が微妙に変化
背景の建物や小物の配置が変わる
空の色や光の当たり方が不自然に変化
一つのシーン内での揺らぎ
テクスチャーの変化
キャラクターの細かい特徴(目の色、肌の質感など)の変化
影の付き方の変化
解決しようとする技術的なアプローチ(未解決)
シーン間の整合性を保つための特別なアルゴリズムの導入
3Dモデルを中間表現として使用する手法
シーン間の変化を制御するための追加的な制約条件の設定
2024年12月13日追記
“Sora“ には “Story Board“ 機能があり、1プロジェクト(FHDで最高20秒)に対して、動画編集ソフトのタイムライン状に置かれたコマのいくつかを指定して、それぞれにプロンプトを記入して実行すると、指定したコマとコマの画像間を補完して、一連のシーンとして動画を生成してくれます。この機能を使えば、少なくとも20秒間は背景や登場人物の変化に違和感がないシーンが作成できそうです。
問題は新たなプロジェクトで、前の1シーンと同様の背景や登場人物設定で書き出しをしてくれるかどうかですが、いずれにしても試行錯誤は必至ですので、月額200$のサブスク料金での使用制限範囲内では実用的ではなさそうです。
生成AIが際立たせる映像制作技術の専門性・特殊性
つまり、Story Board機能を使って1シーンを数カットで表現できたとしても、次のシーンとつながらない可能性が高いため、ストーリーのある演出ができません。この「つながらない」という問題は、生成AIによる動画制作の大きな限界の一つであり、従来の映像制作の専門性や技術の価値を、逆説的に際立たせている要素とも言えます。
注:Midjourneyという生成AIサービスに「キャラクター・リファレンス(Character Reference)」という機能があり、複数カットである程度の一貫性が維持された作画が可能だそうです。あくまで静止画でのことです。
「画がつながらない」は致命的な問題
例えば、こんな状況を想像してみてください。
人物が通勤して、仕事を終えて、帰るという、3シーンの短いストーリーを作ろうとします。あるOLの1日です。AIに「赤いセーターを着た、肩まで届く真っ直ぐな黒髪の20代の女性が住宅街を歩いています」「紺のスーツを着た20代の女性が肩まで届く黒髪を束ね、オフィスでPC作業をしています」「赤いセーターを着た、肩まで届く真っ直ぐな黒髪の20代の女性が、夕方のオフィス街を同僚男性たちと歩いています」と、順番に指示を出していきます。
すると、最初のシーンの女性が次のシーンでは女性の顔が違っていたり、最後のシーンでは髪型が変わっていたり...。
これは静止画像生成での例ですが、現在提供されている生成AIによる動画作成サービスでも、異なるプロジェクト間で「つながり」を意識した映像を作ることは困難を極めます。AIは与えられた指示通りの絵は上手に作れますが、別のプロジェクトで描いた絵との関係性までは理解していません。まるで、違う画家が同じ話を聞いて別々に絵を描いているような状態なのです。

実際の映像制作では、この「つながり」がとても大切です。登場人物の服装や髪型はもちろん、光の当たり方や影の付き方、小物の配置まで、すべてが自然につながっていないと、見ている人は確実に違和感を覚えます。
こうした「つながり」を丁寧に作り込んでいくことは、実は映像制作の大切な専門的技術の一つです。人間の感覚や判断がなくては「意図がある映像」はつくれないのです。
2024年12月13日追記
これを解決するためには、登場人物の一貫性を保つために人物の写真などからアバターを生成して、プロンプトやモーションキャプチャー技術を使って演技をさせ、背景については360度、どの角度からでも見られる3Dモデルを作成する必要があります。
現時点で登場人物の動きが小さいもの(口の動きや身振り手振り)や、少々不自然な動きであれば、サービスを提供しているものがあるようですが、プロスペックの動画で求められる動画品質は、いわば3DCGのリアルタイムレンダリングに近いものになり、現時点でのWEBサービスではリソースもスペックも不足しています、
動画生成AIが、複数のカットで構成される一連のシーケンスを一度に生成することはできない理由
コンピューテーショナルリソースの制約
複数のカットを同時に生成しようとすると、必要な計算リソースが膨大になります。現状の技術では、それぞれのカットを個別に生成し、人間が編集で組み合わせる必要があります。
そのため、例えば「会社の外観→オフィス内→社長インタビュー」といった一連の流れを持つ映像を作りたい場合、それぞれのカットを別々に生成し、人間が編集で組み合わせる必要があります。しかし、これが先ほど話題に上がった「つながらない」問題のために、編集しても映像として成立しないのです。
現時点での生成AI動画のビジネスユースの可能性
生成AIによる動画の現時点での特性「画がつながらない」「カット割りができない」を踏まえると、以下のような活用が考えられます。
SNSなどで使用する「ループする短尺アニメーション」
商品が回転するアニメーション
ロゴが動くアニメーション
装飾的な背景アニメーション
これらは単一カットで完結し、ループすることで違和感なく使用できます。
実写映像と組み合わせて使用するケース
インフォグラフィックの背景映像
プレゼンテーション資料の動く背景
タイトルやトランジションの装飾的な映像
実写本編とは別の文脈で使用するため、「つながり」の問題を回避できます。
テレビCM・WEB_CM
低予算で制作するCM
奇想天外な世界観で描くCM
話題性を呼ぶCM
結論
生成AIはあくまでも「素材を作る道具」として捉えるべきでしょう。
AI生成映像を編集でアレンジして使用
実写と組み合わせて新しい表現を作る
企画段階でのイメージ共有ツールとして使用
生成AIの特性を理解した上で、従来の映像制作のワークフローに組み込んでいく形が現実的だと考えられます。
一方で、以下のような本格的な映像制作での活用は、現時点では難しいでしょう。
複数カットで構成される物語性のある映像
キャラクターの動きや表情の変化が重要な映像
正確な商品表現が求められる映像
これらは従来通り、実写撮影や従来型のCG制作が適していると考えられます。
【当サイト関連記事】
©copyright2025
Comentarios