Posts | 2

読んだ論文をまとめておく場所です

Posts | 2

RedCaps: Web-curated image-text data created by the people, for the people

  • ビジョンと言語のタスクのための大規模データセットは、検索エンジンをクエリにしたりHTMLのaltテキストを収集することで構築されているが、ウェブデータはノイズが多いため、品質を維持するために複雑なフィルタリングパイプラインが必要
  • 最小限のフィルタリングで高品質なデータを収集するための代替データソースを探索
  • Redditから収集された1200万の画像とキャプションのペアのRedCapsという大規模なデータセットを紹介

Jul 3, 2023 Caption NeurIPS (2021)

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

  • マルチモーダルの汎用モデル学習システムOFASysを提案
    • 7つ(TEXT、IMAGE、AUDIO、VIDEO、STRUCT、MOTION)のモダリティの23のタスク
  • 複数モダリティのタスクを1行のコードで宣言することで、学習・推論用のタスクプランを自動生成する
  • テキスト、画像、音声、動画、モーションデータを扱うことができる世界初の単一モデルOFA+も開発し、15個のタスクに調整されたモデルのわずか16%のパラメータで平均95%の性能を達成

May 15, 2023 Vision and Language arXiv (2022)

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

  • 最小限のVision-Language PretrainingフレームワークであるSimple Visual Language Model (SimVLM)を提案
  • Prefix Language Modelingによって余分なデータやタスク固有のカスタマイズが必要ない
  • 従来の事前学習方法を大幅に上回り、VQA、NLVR2、SNLI-VEなどの幅広いVLタスクでSOTA

May 10, 2023 Vision and Language ICLR (2022)

ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection

  • MOAモジュールと姿勢条件付きグラフの2段階のHOI検出器ViPROを提案
  • MOAモジュールにより量子化問題に対処し、ViTを特徴抽出器として利用
  • 人間のプロセスに触発された姿勢条件付きグラフにより、人間の姿勢から豊富な情報を利用
  • 1段階法と比べて、低複雑性と実世界シナリオへの適用性の利点がある

May 9, 2023 HOI CVPR (2023)

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

  • 統一された入力と出力を使用して、姿勢推定、物体検出、深度推定、画像生成などのCVタスク、領域キャプションや参照表現などのVLタスク、質問応答やテキスト要約などのNLタスクを実行する統合モデルUNIFIED-IOを提案
  • UNIFIED-IOは、単一のtransformerベースのアーキテクチャを使用して、CVとNLの90を超える多様なデータセットを共同でトレーニングできる
  • GRITベンチマークで7つのタスクすべてを実行できる最初のモデルであり、NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ、およびSciTailなどの16の多様なベンチマークでタスク固有のFinetuningなしで優れた結果

May 8, 2023 Vision and Language ICLR (2023)

Neural Machine Translation of Rare Words with Subword Units

  • 実際の翻訳はopen-vocabularyであるのに対し、ニューラル機械翻訳(NMT)は固定の語彙で動作し、語彙にない単語は辞書で対処してきた(翻訳は1対1とは限らないので不適切)
  • そこでBPEを単語分割のタスクに対応させ、希少や未知の単語をサブワード単位で符号化することで、open-vocabularyに対応した
  • これにより、WMT15の翻訳課題において英→独で最大1.1BLEU、英→露で1.3BLEU向上

May 4, 2023 Language ACM (2016)

Visual Programming: Compositional visual reasoning without training

  • 1枚または複数枚の画像と自然言語の命令を与え、GPT-3を利用して命令プログラムを作成し、そのプログラムを実行することで目的の出力を得るシステムVISPROGを提案
  • 命令プログラムの各行では、CVモデル・言語モデル・OpenCVの画像処理・演算子のいずれかのモジュールを実行し、後続で使用できる中間出力を生成している
  • 事実知識オブジェクトタグ付け・言語ガイド付き画像編集などの4つのタスクで柔軟性を実証

May 1, 2023 Vision and Language CVPR (2023)

Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

  • 任意のテキストで物体検出をするオープンボキャブラリ物体検出器ViLD(Vision and Language knowledge Distillation)を提案
  • オープンボキャブラリの画像分類である教師モデルから2段階の検出器である生徒モデルに知識蒸留する
  • ResNetやALIGNをバックボーンとして、PASCAL VOC、COCO、Objects365で高精度が出た

Mar 31, 2023 Object Detection ICLR (2022)