軸屋敬介 | Keisuke Jikuya
Home
Blog
Note
Post
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework
https://arxiv.org/abs/2403.13248v2
Mar 28, 2024
Vision and Language,
arXiv (2024)
概要
OpenAIによるSoraの影響を受け、新しいマルチエージェントフレームワークであるMoraを提案
テキストからビデオへの生成、画像からビデオへの編集、ビデオの接続など、複数のビデオ関連タスクに対応
広範な実験を通じて、MoraがSoraに近い性能を示すものの、全体的な性能ギャップが存在することを確認
新規性・差分
さまざまなビデオ生成タスクに対応する最初のオープンソースマルチエージェントフレームワーク
アイデア
GPT-4などの大規模生成モデルを使用して、高品質なプロンプトを生成
大規模テキストから事前学習された画像モデル(例:Stable Diffusion XL)を使用して、最初の画像を生成
InstructPix2Pixのようなモデルを使用して、特定のテキスト指示に基づいてソース画像を編集または改善
Stable Video Diffusionなどのビデオ生成モデルを使用して、初期画像から動画シーケンスを生成
SEINEなどのビデオトランジションエージェントを使用して、2つの入力ビデオを滑らかにつなぎ合わせ
これらの組み合わせによってタスクを実行(例:Text-to-Video 1→2→4または1→2→3→4)
結果
Text-to-Video
Performance
Sample
Text-condtional Image-to-Video Generation
Performance
Sample
Extend Generated Videos
Performance
Sample
Video-to-Video Editing
Performance
Sample
Connect Videos
Performance
Sample
一覧へ戻る