軸屋敬介 | Keisuke Jikuya

Home Blog Note Post

BEIT: BERT Pre-Training of Image Transformers

BEIT: BERT Pre-Training of Image Transformers

https://aka.ms/beit

Oct 16, 2023

Vision Pretraining, Transformer,

ICLR (2022)

概要

Vision Transformer事前学習する自己教師ありタスクを提案
BERTのようなマスク画像モデリングを行う
画像分類とセマンティックセグメンテーションで競争力のある結果を達成し、事前トレーニング方法を改善

新規性・差分

BERTスタイルの事前トレーニングを画像データに直接適用するのが難しいという課題を解決

アイデア

事前学習
- 入力画像をdiscrete VAEでvisual tokensにする
- 同時に入力画像をパッチ分割し、ランダムにマスクしてtransformerへ
- transformerはマスクされたパッチに対応するvisual tokensを予測するように学習
この事前学習をしたモデルをダウンストリームタスクに応用

結果

画像分類（ILSVRC-2012 ImageNet）
セマンティックセグメンテーション

一覧へ戻る