軸屋敬介 | Keisuke Jikuya
Home
Blog
Note
Post
Places: An Image Database for Deep Scene Understanding
Places: An Image Database for Deep Scene Understanding
https://ieeexplore.ieee.org/document/7968387
Oct 23, 2023
Dataset,
IEEE (2018)
概要
シーンの意味論的なカテゴリと属性がラベル付けされた 1,000 万枚のシーン写真のリポジトリである Places Databaseについて説明
最先端のCNNを使用して分類時に優れたベースラインパフォーマンス
新規性・差分
環境のカテゴリの広範なカバレッジを提供することにより、シーン理解の能力を向上させることを目指している
アイデア
オンライン画像検索エンジン(Google画像、Bing画像、およびFlickr) から、SUN データセットのクラスのリストからのクエリワードを使用して候補画像をダウンロード
外観の多様性のために696の一般的な形容詞 (例: 乱雑、晴れ、荒涼など)と組み合わせた
SUNデータセットと同じ画像が含まれないようにしている
Amazon Mechanical Turk (AMT) にクラウドソーシングしてラベルが正しいかを検証
最初の反復では50%以上、2回目の反復では25.4%がNo
最終的に少なくとも1,000個のサンプルが含まれるカテゴリが413、20,000個を超えるサンプルが含まれるカテゴリが98
AlexNetで残りの 5,300 万枚の画像を分類
データセットは1,000個のサンプルが含まれる413カテゴリ
サンプルが少ないカテゴリは信頼度0.8以上のものをAMTへ
5,000個のサンプルが含まれるカテゴリが401、20,000個を超えるサンプルが含まれるカテゴリが240
「スキー ロッジ」と「スキー リゾート」のような類似カテゴリを統合
分類が曖昧な画像をどちらに属すかをAMTで収集することで分類
434の場所カテゴリ,10,624,928 枚の画像のデータベースが完成
4,000枚を超える画像を含む365のカテゴリからPlaces365-StandardとPlaces365-Challengeを作成
Places365-Standardは1,803,460個の学習画像
Places365-Challengeは800万個の学習画像
検証はクラスごとに50個、テストはクラスごとに900個
結果
CNN分類精度(Places205 & SUN205)
CNN分類精度(Places365)
VGG(Places365)
一覧へ戻る