Posts

読んだ論文をまとめておく場所です

Posts

Video Swin Transformer

  • 既存のビデオモデルは、空間的・時間的次元にわたってパッチをグローバルに接続するTransformer Layerを使用
  • 提案ビデオアーキテクチャは局所性の帰納バイアスを持ち、従来のアプローチに比べて速度と精度のトレードオフを改善
  • 小さな事前学習データセットとモデルサイズを使用しながらも、Kinetics-400とKinetics-600とSomething-Something v2でSoTA

Feb 15, 2024 Dataset CVPR (2022)

Music Transformer: Generating music with long-term structure

  • 音楽の長期構造を生成するためのMusic Transformerを提案
  • Music Transformerは既存のTransformerモデルの相対位置情報の表現を改善し、音楽の相対的なタイミングとピッチを捉えることができる
  • データセット「JSB Chorales」と「Piano-e-Competition」で評価され、後者で最先端の結果を達成

Oct 23, 2023 Transformer ICLR (2019)

Places: An Image Database for Deep Scene Understanding

  • シーンの意味論的なカテゴリと属性がラベル付けされた 1,000 万枚のシーン写真のリポジトリである Places Databaseについて説明
  • 最先端のCNNを使用して分類時に優れたベースラインパフォーマンス

Oct 23, 2023 Dataset IEEE (2018)

Sun database: Large-scale scene recognition from abbey to zoo

  • 899のカテゴリと130,519の画像を含む広範なScene UNderstanding (SUN) データベースを提案
  • さまざまな最先端のアルゴリズムを使用してシーン認識の新しいパフォーマンスの境界を設定

Oct 22, 2023 Dataset CVPR (2010)

BEIT: BERT Pre-Training of Image Transformers

  • Vision Transformer事前学習する自己教師ありタスクを提案
  • BERTのようなマスク画像モデリングを行う
  • 画像分類とセマンティックセグメンテーションで競争力のある結果を達成し、事前トレーニング方法を改善

Oct 16, 2023 Transformer ICLR (2022)

RedCaps: Web-curated image-text data created by the people, for the people

  • ビジョンと言語のタスクのための大規模データセットは、検索エンジンをクエリにしたりHTMLのaltテキストを収集することで構築されているが、ウェブデータはノイズが多いため、品質を維持するために複雑なフィルタリングパイプラインが必要
  • 最小限のフィルタリングで高品質なデータを収集するための代替データソースを探索
  • Redditから収集された1200万の画像とキャプションのペアのRedCapsという大規模なデータセットを紹介

Jul 3, 2023 Caption NeurIPS (2021)

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

  • マルチモーダルの汎用モデル学習システムOFASysを提案
    • 7つ(TEXT、IMAGE、AUDIO、VIDEO、STRUCT、MOTION)のモダリティの23のタスク
  • 複数モダリティのタスクを1行のコードで宣言することで、学習・推論用のタスクプランを自動生成する
  • テキスト、画像、音声、動画、モーションデータを扱うことができる世界初の単一モデルOFA+も開発し、15個のタスクに調整されたモデルのわずか16%のパラメータで平均95%の性能を達成

May 15, 2023 Vision and Language arXiv (2022)

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

  • 最小限のVision-Language PretrainingフレームワークであるSimple Visual Language Model (SimVLM)を提案
  • Prefix Language Modelingによって余分なデータやタスク固有のカスタマイズが必要ない
  • 従来の事前学習方法を大幅に上回り、VQA、NLVR2、SNLI-VEなどの幅広いVLタスクでSOTA

May 10, 2023 Vision and Language ICLR (2022)