軸屋敬介 | Keisuke Jikuya

Home Note Blog Post

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

https://arxiv.org/abs/2403.13248v2

Mar 28, 2024

Vision and Language,

arXiv (2024)

概要

OpenAIによるSoraの影響を受け、新しいマルチエージェントフレームワークであるMoraを提案
テキストからビデオへの生成、画像からビデオへの編集、ビデオの接続など、複数のビデオ関連タスクに対応
広範な実験を通じて、MoraがSoraに近い性能を示すものの、全体的な性能ギャップが存在することを確認

新規性・差分

さまざまなビデオ生成タスクに対応する最初のオープンソースマルチエージェントフレームワーク

アイデア

GPT-4などの大規模生成モデルを使用して、高品質なプロンプトを生成
大規模テキストから事前学習された画像モデル（例：Stable Diffusion XL）を使用して、最初の画像を生成
InstructPix2Pixのようなモデルを使用して、特定のテキスト指示に基づいてソース画像を編集または改善
Stable Video Diffusionなどのビデオ生成モデルを使用して、初期画像から動画シーケンスを生成
SEINEなどのビデオトランジションエージェントを使用して、2つの入力ビデオを滑らかにつなぎ合わせ
- これらの組み合わせによってタスクを実行（例：Text-to-Video 1→2→4または1→2→3→4）

結果

Text-to-Video
- Performance
- Sample
Text-condtional Image-to-Video Generation
- Performance
- Sample
Extend Generated Videos
- Performance
- Sample
Video-to-Video Editing
- Performance
- Sample
Connect Videos
- Performance
- Sample

一覧へ戻る