軸屋敬介 | Keisuke Jikuya

Home Blog Note Post

Posts

読んだ論文をまとめておく場所です

Posts

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

OpenAIによるSoraの影響を受け、新しいマルチエージェントフレームワークであるMoraを提案
テキストからビデオへの生成、画像からビデオへの編集、ビデオの接続など、複数のビデオ関連タスクに対応
広範な実験を通じて、MoraがSoraに近い性能を示すものの、全体的な性能ギャップが存在することを確認

Mar 28, 2024 Transformer arXiv (2024)

ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection

既存手法では、自然画像データセットから事前に学習した視覚表現を活用しているため、産業データセットへの適用にはギャップが存在
事前学習モデルからのパッチ特徴の線形変調を訓練し、コントラスト表現学習を用いて異常検出のための識別的特徴を構築
MVTec ADデータセットおよびBTADデータセットにおける最先端の異常検出性能

Mar 28, 2024 Transformer WACV (2024)

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

マルチモーダルモデルUNIFIED-IO 2を提案
異なるモダリティを統合するために、入出力をトークン化し、単一のEncoder Decoder Transformerモデルで意味空間を共有
モデルトレーニングの安定化のためにさまざまなアーキテクチャ改善
GRITベンチマークで最先端の性能を達成し、画像生成と理解、自然言語理解、ビデオとオーディオの理解、ロボット操作を含む35以上のベンチマークで強力な結果を達成

Feb 15, 2024 Transformer arXiv (2023)

Video Swin Transformer

既存のビデオモデルは、空間的・時間的次元にわたってパッチをグローバルに接続するTransformer Layerを使用
提案ビデオアーキテクチャは局所性の帰納バイアスを持ち、従来のアプローチに比べて速度と精度のトレードオフを改善
小さな事前学習データセットとモデルサイズを使用しながらも、Kinetics-400とKinetics-600とSomething-Something v2でSoTA

Feb 15, 2024 Dataset CVPR (2022)

Music Transformer: Generating music with long-term structure

音楽の長期構造を生成するためのMusic Transformerを提案
Music Transformerは既存のTransformerモデルの相対位置情報の表現を改善し、音楽の相対的なタイミングとピッチを捉えることができる
データセット「JSB Chorales」と「Piano-e-Competition」で評価され、後者で最先端の結果を達成

Oct 23, 2023 Transformer ICLR (2019)

Places: An Image Database for Deep Scene Understanding

シーンの意味論的なカテゴリと属性がラベル付けされた 1,000 万枚のシーン写真のリポジトリである Places Databaseについて説明
最先端のCNNを使用して分類時に優れたベースラインパフォーマンス

Oct 23, 2023 Dataset IEEE (2018)

Sun database: Large-scale scene recognition from abbey to zoo

899のカテゴリと130,519の画像を含む広範なScene UNderstanding (SUN) データベースを提案
さまざまな最先端のアルゴリズムを使用してシーン認識の新しいパフォーマンスの境界を設定

Oct 22, 2023 Dataset CVPR (2010)

BEIT: BERT Pre-Training of Image Transformers

Vision Transformer事前学習する自己教師ありタスクを提案
BERTのようなマスク画像モデリングを行う
画像分類とセマンティックセグメンテーションで競争力のある結果を達成し、事前トレーニング方法を改善

Oct 16, 2023 Transformer ICLR (2022)

> >>>