Posts

読んだ論文をまとめておく場所です

Posts

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

  • OpenAIによるSoraの影響を受け、新しいマルチエージェントフレームワークであるMoraを提案
  • テキストからビデオへの生成、画像からビデオへの編集、ビデオの接続など、複数のビデオ関連タスクに対応
  • 広範な実験を通じて、MoraがSoraに近い性能を示すものの、全体的な性能ギャップが存在することを確認

Mar 28, 2024 Transformer arXiv (2024)

ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection

  • 既存手法では、自然画像データセットから事前に学習した視覚表現を活用しているため、産業データセットへの適用にはギャップが存在
  • 事前学習モデルからのパッチ特徴の線形変調を訓練し、コントラスト表現学習を用いて異常検出のための識別的特徴を構築
  • MVTec ADデータセットおよびBTADデータセットにおける最先端の異常検出性能

Mar 28, 2024 Transformer WACV (2024)

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

  • マルチモーダルモデルUNIFIED-IO 2を提案
  • 異なるモダリティを統合するために、入出力をトークン化し、単一のEncoder Decoder Transformerモデルで意味空間を共有
  • モデルトレーニングの安定化のためにさまざまなアーキテクチャ改善
  • GRITベンチマークで最先端の性能を達成し、画像生成と理解、自然言語理解、ビデオとオーディオの理解、ロボット操作を含む35以上のベンチマークで強力な結果を達成

Feb 15, 2024 Transformer arXiv (2023)

Video Swin Transformer

  • 既存のビデオモデルは、空間的・時間的次元にわたってパッチをグローバルに接続するTransformer Layerを使用
  • 提案ビデオアーキテクチャは局所性の帰納バイアスを持ち、従来のアプローチに比べて速度と精度のトレードオフを改善
  • 小さな事前学習データセットとモデルサイズを使用しながらも、Kinetics-400とKinetics-600とSomething-Something v2でSoTA

Feb 15, 2024 Dataset CVPR (2022)

Music Transformer: Generating music with long-term structure

  • 音楽の長期構造を生成するためのMusic Transformerを提案
  • Music Transformerは既存のTransformerモデルの相対位置情報の表現を改善し、音楽の相対的なタイミングとピッチを捉えることができる
  • データセット「JSB Chorales」と「Piano-e-Competition」で評価され、後者で最先端の結果を達成

Oct 23, 2023 Transformer ICLR (2019)

Places: An Image Database for Deep Scene Understanding

  • シーンの意味論的なカテゴリと属性がラベル付けされた 1,000 万枚のシーン写真のリポジトリである Places Databaseについて説明
  • 最先端のCNNを使用して分類時に優れたベースラインパフォーマンス

Oct 23, 2023 Dataset IEEE (2018)

Sun database: Large-scale scene recognition from abbey to zoo

  • 899のカテゴリと130,519の画像を含む広範なScene UNderstanding (SUN) データベースを提案
  • さまざまな最先端のアルゴリズムを使用してシーン認識の新しいパフォーマンスの境界を設定

Oct 22, 2023 Dataset CVPR (2010)

BEIT: BERT Pre-Training of Image Transformers

  • Vision Transformer事前学習する自己教師ありタスクを提案
  • BERTのようなマスク画像モデリングを行う
  • 画像分類とセマンティックセグメンテーションで競争力のある結果を達成し、事前トレーニング方法を改善

Oct 16, 2023 Transformer ICLR (2022)