Posts | 3

Unified Visual Relationship Detection with Vision and Language Models

Visual Relationship Detection(VRD)では、１つのデータセットから学習するため、画像ドメインと語彙に制約があり、汎用性と拡張性に限界がある
Vision&Languageモデルを活用し、複数のデータセットを統一するフレームワークUniVRDを提案
HICO-DETにおいて60%アップの38.07mAP

Mar 28, 2023 HOI arXiv (2023)

GO-Finder: A Registration-Free Wearable System for Assisting Users in Finding Lost Objects via Hand-Held Object Discovery

Mar 14, 2023 Object Detection IUI (2021)

Flamingo: a Visual Language Model for Few-Shot Learning

Mar 14, 2023 Vision and Language NeurIPS (2022)

QAHOI: Query-Based Anchors for Human-Object Interaction Detection

transformerベースの手法QAHOI（Query-Based Anchors for Human-Object Interac tion detection）を提案
マルチスケールで特徴を抽出し，クエリベースのアンカーを用いてHOIを予測する
強力なバックボーンによって、精度が大幅に向上した

Mar 7, 2023 HOI arXiv (2021)

FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection

MSS, HSAM, TAMという3つから成るEnd-to-endのtransformerベースの手法(FGAHOI)を提案
- MSSは人間、物体、インタラクション領域の特徴を抽出
- HSAMとTAMは抽出された特徴量とクエリ埋め込みを階層的な空間視点とタスク視点で順番に意味的に整列・結合
- 複雑な学習を軽減するために、新しい学習戦略Stage-wise Training Strategyを設計
新規のデータセットHOI-SDCを提案
既存手法から大幅に精度向上

Feb 21, 2023 HOI arXiv (2023)

Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection

新しいtransformerベースのHOI手法のStructure-aware Transformer over Interaction Proposals (STIP)を提案
「インタラクションのある人間と物体のペア提案」と「構造考慮型transformerで提案をHOIに変換」の2つのフェーズでHOIを予測
構造考慮型transformerはバニラtransformerに対し、全体的意味構造および各相互作用提案内のヒト／モノの局所的空間構造を追加的に符号化することでHOI予測を強化している

Feb 21, 2023 HOI CVPR (2022)

CLRNet: Cross Layer Refinement Network for Lane Detection

特徴抽出したFPN構造の特徴マップを、上位から下位まで複合的に活用する車線検出手法であるCross Layer Refinement Network (CLRNet)を提案
CULaneとTuSimpleとLLAMASのデータセットで従来手法を上回る

Dec 15, 2022 Lane Detection CVPR (2022)

CondLaneNet: a Top-to-down Lane Detection Framework Based on Conditional Convolution

Dec 14, 2022 Lane Detection ICCV (2021)