Posts | 2

RedCaps: Web-curated image-text data created by the people, for the people

ビジョンと言語のタスクのための大規模データセットは、検索エンジンをクエリにしたりHTMLのaltテキストを収集することで構築されているが、ウェブデータはノイズが多いため、品質を維持するために複雑なフィルタリングパイプラインが必要
最小限のフィルタリングで高品質なデータを収集するための代替データソースを探索
Redditから収集された1200万の画像とキャプションのペアのRedCapsという大規模なデータセットを紹介

Jul 3, 2023 Caption NeurIPS (2021)

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models

マルチモーダルの汎用モデル学習システムOFASysを提案
- 7つ(TEXT、IMAGE、AUDIO、VIDEO、STRUCT、MOTION)のモダリティの23のタスク
複数モダリティのタスクを1行のコードで宣言することで、学習・推論用のタスクプランを自動生成する
テキスト、画像、音声、動画、モーションデータを扱うことができる世界初の単一モデルOFA+も開発し、15個のタスクに調整されたモデルのわずか16％のパラメータで平均95％の性能を達成

May 15, 2023 Vision and Language arXiv (2022)

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

最小限のVision-Language PretrainingフレームワークであるSimple Visual Language Model (SimVLM)を提案
Prefix Language Modelingによって余分なデータやタスク固有のカスタマイズが必要ない
従来の事前学習方法を大幅に上回り、VQA、NLVR2、SNLI-VEなどの幅広いVLタスクでSOTA

May 10, 2023 Vision and Language ICLR (2022)

ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for Human-Object Interaction Detection

May 9, 2023 HOI CVPR (2023)

Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks

統一された入力と出力を使用して、姿勢推定、物体検出、深度推定、画像生成などのCVタスク、領域キャプションや参照表現などのVLタスク、質問応答やテキスト要約などのNLタスクを実行する統合モデルUNIFIED-IOを提案
UNIFIED-IOは、単一のtransformerベースのアーキテクチャを使用して、CVとNLの90を超える多様なデータセットを共同でトレーニングできる
GRITベンチマークで7つのタスクすべてを実行できる最初のモデルであり、NYUv2-Depth、ImageNet、VQA2.0、OK-VQA、Swig、VizWizGround、BoolQ、およびSciTailなどの16の多様なベンチマークでタスク固有のFinetuningなしで優れた結果

May 8, 2023 Vision and Language ICLR (2023)

Neural Machine Translation of Rare Words with Subword Units

実際の翻訳はopen-vocabularyであるのに対し、ニューラル機械翻訳(NMT)は固定の語彙で動作し、語彙にない単語は辞書で対処してきた（翻訳は1対1とは限らないので不適切）
そこでBPEを単語分割のタスクに対応させ、希少や未知の単語をサブワード単位で符号化することで、open-vocabularyに対応した
これにより、WMT15の翻訳課題において英→独で最大1.1BLEU、英→露で1.3BLEU向上

May 4, 2023 Language ACM (2016)

Visual Programming: Compositional visual reasoning without training

1枚または複数枚の画像と自然言語の命令を与え、GPT-3を利用して命令プログラムを作成し、そのプログラムを実行することで目的の出力を得るシステムVISPROGを提案
命令プログラムの各行では、CVモデル・言語モデル・OpenCVの画像処理・演算子のいずれかのモジュールを実行し、後続で使用できる中間出力を生成している
事実知識オブジェクトタグ付け・言語ガイド付き画像編集などの4つのタスクで柔軟性を実証

May 1, 2023 Vision and Language CVPR (2023)

Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

任意のテキストで物体検出をするオープンボキャブラリ物体検出器ViLD(Vision and Language knowledge Distillation)を提案
オープンボキャブラリの画像分類である教師モデルから2段階の検出器である生徒モデルに知識蒸留する
ResNetやALIGNをバックボーンとして、PASCAL VOC、COCO、Objects365で高精度が出た

Mar 31, 2023 Object Detection ICLR (2022)