ICAN-論文心得

Lung-Ying Ling
Jun 17, 2021

--

物件辨識

為了理解圖片場景,物件辨識是必要的模組。此次研究我們利用現成的Faster R-CNN去標記實體的人與物。除了給定已標記實體,本次研究的目標為理解人與物之間的互動。

視覺關係檢測

最近的一些研究解決了視覺關係的檢測和場景圖的生成問題,幾篇論文利用了一些語言的形式,幫助克服了大量的關係主體 — 謂詞 — 對象三元組和有限的數據元組的問題。我們的工作集專注在一類特殊的視覺關係檢測問題上:檢測人與物的相互作用對視覺關係的檢測提出了新的挑戰,即以人為主體與物件互動。(與其他泛型對象相比,具有更多的細粒度和多樣性)

注意力機制

在行動識別和人 — 物交互任務中,已經作出了廣泛的努力,這些方法經常使用人工設計注意區域提取上下文特徵。基於注意力的方法提出了end-to-end trainable來提高動作識別或圖像分類的性能。然而,這些方法是為圖像級分類任務而設計的。我們的工作以基於注意力最新技術的進展為基礎,並將其擴展到解決HOI級別任務。

人與物的互動關係

HOI提供了對場景中情況的更深入的理解,解決了HOI問題 — 探測。

模型概述

提出的模型包括以下內容:

(1) 基於人類外觀檢測交互的人流

(2) 基於物體外觀預測交互的物體流

(3) 用於編碼人類和物體邊界框之間的空間佈局的配對流

基於現有的Faster R-CNN檢測到的對象實例,使用所有的人-物體對生成HOI假設。然後融合來自各個流的動作分數以產生最終預測。

我們的做法建立在這些最近在HOI檢測的進步,但與之關鍵的區別。現有的工作基於個體線索(人類外觀、物體外觀或空間)識別交互(人-物體之間)的關係。我們的主要觀察結果是,這種預測不可避免地會受到上下文信息缺乏的影響。提出的以實例為中心的注意模塊,提取與局部區域(例如,人/物件框)的外觀特徵互補的上下文特徵,以方便HOI檢測。

Instance-Centric注意力網路

在本節中,我們展示了用於HOI檢測的以實例為中心的注意力網絡。接下來,我們將概述用於特徵提取的三個主要流的詳細信息:the human stream、the object stream和the pairwise stream。最後,我們詳述了的推理過程。

iCAN模塊

給定圖像(灰色顯示)和人/物件邊界框(紅色顯示)的卷積特徵,iCAN模塊從實例x_inst^h(用於人)或x_inst^o(用於物件)的外觀特徵以及以實例為中心的注意力映射中提取特徵。為了計算注意力特徵圖,我們測量了bottleneck為512通道的嵌入空間的相似性。具體來說,為了嵌入圖像特徵我們使用1×1卷積層和實例外觀特徵

做為全連接層。其中res5為第五個殘差塊,GAP為全局平均池層(global average pooling layer),FC表示完全連接層。

2.1 算法概述

我們的人與物件交互檢測方法包括兩個主要步驟:(1)目標檢測和(2)HOI預測。首先,給定一個輸入圖像,我們使用Faster R-CNN(來自Facebook research的Detectron)來檢測所有人/物件實例。我們將b_h表示為檢測到的person邊界框,而b_o表示物件實例。我們使用s_h和s_o分別表示被檢測人員和物件的confidence score。其次,我們通過提出的以實例為中心的注意力網絡來評估所有人-物件的成對邊界框,以預測交互得分。

訓練

因為一個人可以同時對一個或多個目標執行不同的操作,例如,一個人可以同時"hit with"和"hold"網球拍,所以HOI檢測是多標籤分類問題,每個交互類別是獨立的,而不是相互排斥的。對於每個動作類別,我們都使用了二進制的sigmoid分類器,然後最小化動作分數s_h^a,s_o^a和s_sp^a之間的cross-entropy loss,和每個行動類別的groundtruth行動標籤。。接下來,我們介紹了我們的instance-centric attention模塊,用於從圖像中提取信息性特徵,然後描述了計算動作得分s_h^a,s_o^a和s_sp^a的多流網絡體系結構。

2.2 以實例為中心的注意力模塊

在本節中,我們將介紹以實例為中心的注意力模塊,用於從圖像中提取上下文特徵。iCAN模塊顯示了使用人作為清晰實體的詳細過程。使用物件作為實例更是直接了當。

我們首先使用標準流程提取實例級外觀特徵x_inst^h,例如,應用ROI pooling,一個residual block,然後是global average pooling。接下來,我們的目標是根據感興趣的對象實例動態生成注意圖。為此,我們將實例級外觀特徵x_inst^h和卷積特徵映射嵌入到512維空間中,並使用向量點積來測量嵌入空間的相似性。然後,我們可以通過應用softmax獲得以實例為中心的注意力圖。注意力圖突出顯示圖像中的相關區域,這可能有助於識別與給定的人/物件實例相關聯的HOI。使用注意力圖,我們可以提取上下文特徵x_context^h上下文通過計算卷積特徵的加權平均。我們的iCAN模塊的最終輸出是instance-level外觀特徵x_inst^h和基於注意力的上下文特徵x_context^h。

與現有的方法相比,我們的的iCAN模塊提供了一些優點。首先,與手工設計的基於姿勢、整個圖像或次要區域的背景特徵不同,我們的注意力圖會自動學習並與其他網絡一起訓練以提高性能。其次,與為圖像級分類而設計的注意模塊相比,我們的以實例為中心的注意映射提供了更大的靈活性,因為它允許根據不同的對象實例關注圖像中的不同區域。

2.3 多流網路

我們的網絡使用三個流來計算基於人類外表的動作得分s_h^a,物體外觀

以及它們的空間關係s_(s,p)^a。

Human/object stream

對於Human stream和Object stream,我們都提取(1)實例級人體外觀特徵x_inst^h(for a person)或是實例級物件外觀特徵x_inst^o(for an object),(2)基於注意力圖的上下文特徵x_context^h(或是x_context^o)。有了這兩個特徵向量,我們將它們連接起來,並通過兩個完全連接的層來生成動作分數s_h^a和s_o^a。從人類流的s_h^a分數也允許我們檢測不涉及任何物體的行為,例如,行走,微笑。

Pairwise stream

雖然人類和物體的外觀特徵包含識別相互作用的強烈線索,但僅使用外觀特徵往往會導致似是而非的預測。為了編碼人與物體之間的空間關係,我們採用Learning to detect human object interactions論文中的雙通道二值圖像表示來描述交互模式。具體來說,我們以這兩個框的聯集為參考框,構造一個包含兩個通道的二值圖像。第一個通道在人的邊界框中有值1,在其他地方有值0;第二個通道在物件邊界框中有值1,在其他地方有值0。然後,我們使用CNN從這個雙通道二進制圖像中提取空間特徵然而,我們發現由於空間信息粗糙(僅有兩個邊界框),這個特徵本身並不能產生準確的動作預測。為了解決這個問題,我們將空間特徵與人類外觀特徵x_inst^h連接起來。我們的直覺是,人的外表可以很大程度上幫助消除在相似空間佈局下的不同行為的歧義,例如riding vs. walking a bicycle。

2.4 有效的推理

我們以聯集的方式計算三胞胎的分數。首先,我們分別計算每個bounding box(b_h)和b_o的人類和物體流動作分類的得分。對於n個人/物件實例,第一步的複雜度是o(n),第二步是計算所有可能的成對(人-物)的得分,雖然第二步的複雜度是o(n²)(計算s_(h,o)^a),然而它是非常有效的,因為它涉及到從人流s_h^a和物件流s_0^a(已經在第一步中計算和緩存了)中計算成對分數。

Late vs. early fusion

我們將使用兩兩相加得分方法的方法稱為後期融合(因為動作得分首先從人/對象流中獨立預測,然後再進行求和)。我們還實現了一種具有早期融合的iCAN變體。具體來說,我們首先連接來自human iCAN、object iCAN和pairwise stream的所有特徵,並使用兩個完全連接的層來預測動作得分。與後期融合不同,早期融合方法需要評估來自所有人物對的分數,因此具有較慢的推理速度,不能很好地為具有許多對象的場景進行縮放。

--

--