軸屋敬介 | Keisuke Jikuya
Home
Blog
Note
Post
BEIT: BERT Pre-Training of Image Transformers
BEIT: BERT Pre-Training of Image Transformers
https://aka.ms/beit
Oct 16, 2023
Vision Pretraining, Transformer,
ICLR (2022)
概要
Vision Transformer事前学習する自己教師ありタスクを提案
BERTのようなマスク画像モデリングを行う
画像分類とセマンティックセグメンテーションで競争力のある結果を達成し、事前トレーニング方法を改善
新規性・差分
BERTスタイルの事前トレーニングを画像データに直接適用するのが難しいという課題を解決
アイデア
事前学習
入力画像をdiscrete VAEでvisual tokensにする
同時に入力画像をパッチ分割し、ランダムにマスクしてtransformerへ
transformerはマスクされたパッチに対応するvisual tokensを予測するように学習
この事前学習をしたモデルをダウンストリームタスクに応用
結果
画像分類(ILSVRC-2012 ImageNet)
セマンティックセグメンテーション
一覧へ戻る