現時点での生成AIで動画が生成できるという意味 | 名古屋映像制作研究室

このニュースをテレビ局も「驚くほどのクォリティー」「動画づくりもA.I.の時代に」というような表現で伝えていますが、果たして我々映像制作会社にとっての「利用価値」と「脅威になるものなのか」を考えてみたいと思います。

利用環境

上記の「Sora」の場合、月額200ドルの有料会員の最上位資格「Chat GPT Pro」会員にならなければ、ウォーターマーク（透かし）なしのフルハイビジョン(FHD・1,920×1,080pixel）が書き出せないこと。１カット20秒までであること。FHD20秒の動画を5本書き出すと制限が掛かること。サーバーが混み合っていると書き出しに時間が掛かることと、20秒でプロンプトしたものが10秒になっていまうことがあること。などが早速報告されています。

Hyper Useには耐えられない

まず、この報告を読む限り、残念ながら我々のようにビジネス向けの動画を制作する職業映像制作者の利用には向かないようです。なぜなら生成AIに画像を作成させたことがある人ならば、わかっていただけると思います。

生成AIで希望の画像（静止画）を作ろうとする場合、一回のプロンプトでズバリ想定通りの画像が生成されることはまずありません。何度も何度もプロンプトを繰り返し書き直して、司令を与えて書き出すという試行錯誤するのが常なのです。すなわち、動画であれば指令と書き出された映像のイメージが異なる可能性はさらに高まり、プロンプトを書き直して何度も書き出し（書き出してみなければ、出来上がり状態はわかりません。）をさせたら、あっという間に制限が掛かることになります。

時間的一貫性（temporal consistency）が維持できない

この問題は、現在の生成AIの基本的な仕組みに起因します。AIは各シーンを個別に生成するため、前後のシーンとの整合性（連続性）を完全には保つことができないのです。

連続するカット間での不一致

同じキャラクターの服装や髪型が微妙に変化
背景の建物や小物の配置が変わる
空の色や光の当たり方が不自然に変化

一つのシーン内での揺らぎ

テクスチャーの変化
キャラクターの細かい特徴（目の色、肌の質感など）の変化
影の付き方の変化

解決しようとする技術的なアプローチ（未解決）

シーン間の整合性を保つための特別なアルゴリズムの導入
3Dモデルを中間表現として使用する手法
シーン間の変化を制御するための追加的な制約条件の設定

2024年12月13日追記

“Sora“ には “Story Board“ 機能があり、1プロジェクト（FHDで最高20秒）に対して、動画編集ソフトのタイムライン状に置かれたコマのいくつかを指定して、それぞれにプロンプトを記入して実行すると、指定したコマとコマの画像間を補完して、一連のシーンとして動画を生成してくれます。この機能を使えば、少なくとも20秒間は背景や登場人物の変化に違和感がないシーンが作成できそうです。

問題は新たなプロジェクトで、前の1シーンと同様の背景や登場人物設定で書き出しをしてくれるかどうかですが、いずれにしても試行錯誤は必至ですので、月額200$のサブスク料金での使用制限範囲内では実用的ではなさそうです。

生成AIが際立たせる映像制作技術の専門性・特殊性

つまり、Story Board機能を使って１シーンを数カットで表現できたとしても、次のシーンとつながらない可能性が高いため、ストーリーのある演出ができません。この「つながらない」という問題は、生成AIによる動画制作の大きな限界の一つであり、従来の映像制作の専門性や技術の価値を、逆説的に際立たせている要素とも言えます。

注：Midjourneyという生成AIサービスに「キャラクター・リファレンス（Character Reference）」という機能があり、複数カットである程度の一貫性が維持された作画が可能だそうです。あくまで静止画でのことです。

「画がつながらない」は致命的な問題

例えば、こんな状況を想像してみてください。

人物が通勤して、仕事を終えて、帰るという、3シーンの短いストーリーを作ろうとします。あるOLの1日です。AIに「赤いセーターを着た、肩まで届く真っ直ぐな黒髪の20代の女性が住宅街を歩いています」「紺のスーツを着た20代の女性が肩まで届く黒髪を束ね、オフィスでPC作業をしています」「赤いセーターを着た、肩まで届く真っ直ぐな黒髪の20代の女性が、夕方のオフィス街を同僚男性たちと歩いています」と、順番に指示を出していきます。

すると、最初のシーンの女性が次のシーンでは女性の顔が違っていたり、最後のシーンでは髪型が変わっていたり...。

これは静止画像生成での例ですが、現在提供されている生成AIによる動画作成サービスでも、異なるプロジェクト間で「つながり」を意識した映像を作ることは困難を極めます。AIは与えられた指示通りの絵は上手に作れますが、別のプロジェクトで描いた絵との関係性までは理解していません。まるで、違う画家が同じ話を聞いて別々に絵を描いているような状態なのです。