皆さんこんにちは、ニューステラの井上です。
少し前の話になりますが、Runway AI, Inc. が主催するハッカソンイベントGen:48 Third Editionに参加しました。
動画生成AI「Runway」を活用し、制作要件が発表されて48時間以内に短編映画を制作する短期集中型コンペティションです。日本時間2024年9月14日の22時に制作物のテーマや要件が発表され、9月16日の22時までに応募を完了させなければならない、というものでした。30時間を過ぎたあたりから、DiscordやX上では、制作が間に合わないと判断してドロップアウトしていく方が続出しましたが、それでも最終的には世界中から3,500人の応募があったようで、動画生成AI界隈の盛り上がりを感じました。日本人は少なそうでしたが、私が確認した限りで5チームほどは日本人の方を見かけました。
今回私が使用したAIツールは下記のとおり。
- 脚本:ChatGPT-4o + Claude 3.5
- 画像生成:Midjourney V6.1
- 動画生成:Runway Gen-3 Alpha (Image to Video)
- 音声生成:ElevenLabs
応募した作品はこちら。
日本語字幕版はこちら。
まずChatGPTでストーリーの草案を作成し、ChatGPTとClaudeで推敲しながら、最終的に自分で少し手を加えました。
生成AIで思い通りの画が出力できるかどうかといった問題もあったため、実際には、生成が難しそうor時間がかかりそうな部分は脚本過程でちょこちょこ画像生成を行い、難しそうな箇所は脚本側に微修正を加えたりといった調整をしています。
その後Midjourneyを用いて画像生成を行い、その画像を元にして、RunwayのImage to Videoにて動画を生成するという手順で映像素材を作成していきました。Stable DiffusionではなくMidjourneyを選んだ理由としては、単純にスピードです。同じキャラクターが終始出てくるような映画系の場合、Stable Diffusionのほうがベターですが、Midjourneyにも顔固定で生成する機能が一応あるため、今回はスピード重視でそちらを採用しました。昔に比べて顔固定の精度も少し高まっているような気がします。
英語の音声に関してはElevenLabsのText to SpeechおよびSpeech to Speechで生成しています。感情のこもっていないAI的な声はText to Speechで簡単に生成できましたが、感情を込めるのは限界があったため、アレックス博士の音声に関してはSpeech to Speechで私の声を元に生成しました。私の発音がベースになっているため、発音は良くないです。このあたりは今後使いやすくなってくれたらいいなと感じました。
またRunwayでの動画生成時には、リップシンクという機能を使ってみたりもしましたが、精度が非常に甘かったため、現状ではまだ使いにくいなと感じました。ここはリップシンクではなく、普通に喋っているようなシーンを生成後、アフレコで音声を入れ込むという方針に途中で変更しました。
動画生成と音声生成に関してはまだまだ業務で利用するには課題が多いものの、1-2年後にはすごいことになっているかもしれません。
日々の業務で忙しく中々Runwayをガッツリ触ることができてませんでしたが、2日間ほぼ付きっきりで生成しまくったこともあり、知見が色々たまりました。商業目的での映像制作で動画生成AIが当たり前に活用される時代も近いと思いますので、引き続き情報のキャッチアップに取り組んでまいります!
コメントを書き込む