軸屋敬介 | Keisuke Jikuya
Home
Blog
Note
Post
Sun database: Large-scale scene recognition from abbey to zoo
Sun database: Large-scale scene recognition from abbey to zoo
https://ieeexplore.ieee.org/document/5539970
Oct 22, 2023
Dataset, SVM,
CVPR (2010)
概要
899のカテゴリと130,519の画像を含む広範なScene UNderstanding (SUN) データベースを提案
さまざまな最先端のアルゴリズムを使用してシーン認識の新しいパフォーマンスの境界を設定
新規性・差分
SUNデータベースは現存する最大のシーンカテゴリデータセットで、これまでの研究よりも多様な環境をカバー
アイデア
小さな画像データセットで利用可能なWordNetの70,000の用語から、シーン、場所、および環境を記述する2500の空間とシーンの初期用語を選択
具体的な地名(ニューヨークなど)や特定のアイデンティティ(職場など)を想起させる用語は含めない
ナビゲート不可能なシーン(デスクトップなど)や乗り物を含めない
WordNetに欠けているいくつかのカテゴリを追加
同義語を重ねて、屋内と屋内などを分離して、899のカテゴリーと130,519の画像でSUNデータベースを構築
各シーン・カテゴリーについて、ウェブ上の様々な検索エンジンでは200×200ピクセル以上のカラー画像を取得
類似のシーン・カテゴリー(例:修道院と教会)については、定義の重複を避けるために明示的なルールを設定
退化した画像や異常な画像(白黒、歪んだ色、非常にぼやけている、ノイズが多い、回転が正しくない、航空写真、境界線が目立つ)は削除
899カテゴリのうち、100枚のユニークな写真がある397カテゴリで実験
人間のシーン分類
Amazon’s Mechanical Turk (AMT)を使って、各SUNカテゴリについて20の異なるテストシーンで合計397×20=7940の実験を行った
語彙の混乱を避けるために米国の参加者限定
複数の特徴量(GIST、Dense SIFT、HOG2x2、自己類似性記述子、Tiny Images、色ヒストグラム、直線ヒストグラムなど)でSVMを学習
結果
人間のシーン分類の精度
397のカテゴリで58.6%
一部の作業者は0%の精度
最初の階層で95%以上の精度を持つ「良い作業者」に焦点を当てると、精度は68.5%に上昇
精度が高いカテゴリ
精度が低いカテゴリ
SVMの精度
全特徴を用いて38%で人間を大きく下回る
一覧へ戻る