Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

https://arxiv.org/abs/2403.13248v2

Mar 28, 2024

Vision and Language,

arXiv (2024)

概要

新規性・差分

アイデア

  1. GPT-4などの大規模生成モデルを使用して、高品質なプロンプトを生成
  2. 大規模テキストから事前学習された画像モデル(例:Stable Diffusion XL)を使用して、最初の画像を生成
  3. InstructPix2Pixのようなモデルを使用して、特定のテキスト指示に基づいてソース画像を編集または改善
  4. Stable Video Diffusionなどのビデオ生成モデルを使用して、初期画像から動画シーケンスを生成
  5. SEINEなどのビデオトランジションエージェントを使用して、2つの入力ビデオを滑らかにつなぎ合わせ

結果

一覧へ戻る