Posts | 3

読んだ論文をまとめておく場所です

Posts | 3

Unified Visual Relationship Detection with Vision and Language Models

  • Visual Relationship Detection(VRD)では、1つのデータセットから学習するため、画像ドメインと語彙に制約があり、汎用性と拡張性に限界がある
  • Vision&Languageモデルを活用し、複数のデータセットを統一するフレームワークUniVRDを提案
  • HICO-DETにおいて60%アップの38.07mAP

Mar 28, 2023 HOI arXiv (2023)

GO-Finder: A Registration-Free Wearable System for Assisting Users in Finding Lost Objects via Hand-Held Object Discovery

  • 登録不要のウェアラブルカメラを用いた物体の発見支援システムGO-Finderを提案
  • 手持ちの物体を自動的に検出しグループ化しておくことで、アプリから対象物の最後の出現を取得できる
    • 手で扱う物体に限定することで、対象となる物体を大幅に削減
  • 物体画像をクエリとして利用し、候補の中から物体を選択することができる

Mar 14, 2023 Object Detection IUI (2021)

Flamingo: a Visual Language Model for Few-Shot Learning

  • 少数のアノテーションで重みの更新なしに新しいタスクに迅速に対応できるVision&LanguageモデルであるFlamingoを提案
  • 数千倍のタスク専用データでFinetuningに対して、6/16のタスクでSotA

Mar 14, 2023 Vision and Language NeurIPS (2022)

QAHOI: Query-Based Anchors for Human-Object Interaction Detection

  • transformerベースの手法QAHOI(Query-Based Anchors for Human-Object Interac tion detection)を提案
  • マルチスケールで特徴を抽出し,クエリベースのアンカーを用いてHOIを予測する
  • 強力なバックボーンによって、精度が大幅に向上した

Mar 7, 2023 HOI arXiv (2021)

FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection

  • MSS, HSAM, TAMという3つから成るEnd-to-endのtransformerベースの手法(FGAHOI)を提案
    • MSSは人間、物体、インタラクション領域の特徴を抽出
    • HSAMとTAMは抽出された特徴量とクエリ埋め込みを 階層的な空間視点とタスク視点で順番に意味的に整列・結合
    • 複雑な学習を軽減するために、新しい学習戦略Stage-wise Training Strategyを設計
  • 新規のデータセットHOI-SDCを提案
  • 既存手法から大幅に精度向上

Feb 21, 2023 HOI arXiv (2023)

Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection

  • 新しいtransformerベースのHOI手法のStructure-aware Transformer over Interaction Proposals (STIP)を提案
  • 「インタラクションのある人間と物体のペア提案」と「構造考慮型transformerで提案をHOIに変換」の2つのフェーズでHOIを予測
  • 構造考慮型transformerはバニラtransformerに対し、全体的意味構造および各相互作用提案内のヒト/モノの局所的空間構造を追加的に符号化することでHOI予測を強化している

Feb 21, 2023 HOI CVPR (2022)

CLRNet: Cross Layer Refinement Network for Lane Detection

  • 特徴抽出したFPN構造の特徴マップを、上位から下位まで複合的に活用する車線検出手法であるCross Layer Refinement Network (CLRNet)を提案
  • CULaneとTuSimpleとLLAMASのデータセットで従来手法を上回る

Dec 15, 2022 Lane Detection CVPR (2022)

CondLaneNet: a Top-to-down Lane Detection Framework Based on Conditional Convolution

  • 既存の車線検出は密集線や分岐線のような複雑な場合に苦労している(下図)
  • 車線を検出し、次に各車線の形状を予測する車線検出フレームワークであるCondLaneNetを提案
  • 3つのベンチマークデータセットで最先端手法を凌駕

Dec 14, 2022 Lane Detection ICCV (2021)