Unified Visual Relationship Detection with Vision and Language Models
- Visual Relationship Detection(VRD)では、1つのデータセットから学習するため、画像ドメインと語彙に制約があり、汎用性と拡張性に限界がある
- Vision&Languageモデルを活用し、複数のデータセットを統一するフレームワークUniVRDを提案
- HICO-DETにおいて60%アップの38.07mAP
Mar 28, 2023 HOI arXiv (2023)