mppe材料有硬度要求嗎_(mppe材料縮水)

作者丨瞎搭積木

編輯丨極市平臺

本文已獲得論文作者授權解讀

在本文中,來自北京大學、蘇黎世聯邦理工學院、阿里巴巴的研究者們提出了一種基于多假設Transformer的三維人體姿態(tài)估計新框架MHFormer,來減輕三維人體姿態(tài)估計中的歧義逆問題。性能超越PoseFormer 3%,并在Human3.6M和MPI-INF-3DHP數據集上都取得了當前最佳的性能。代碼已開源!

  • 論文:MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation
  • 單位:北京大學、蘇黎世聯邦理工學院、阿里巴巴
  • 地址:https://arxiv.org/pdf/2111.12707.pdf
  • 代碼:https://github.com/Vegetebird/MHFormer


任務介紹

三維人體姿態(tài)估計旨在利用計算機視覺技術,從圖片或視頻中估計出人體關鍵點在三維空間中的坐標。它可廣泛用于虛擬現實、元宇宙、體育比賽中(冬奧運實時動捕、滑雪)。該任務通常被解耦成2個子任務:二維姿態(tài)估計和二維到三維姿態(tài)提升(2D-to-3D Pose Lifting)。盡管該方法目前已經取得了不錯的性能,但是它還面臨著許多挑戰(zhàn),例如二維到三維映射的深度模糊性與人體的自遮擋問題。

研究動機

先前的工作嘗試使用時空圖卷積或時空Transformer來利用時空約束來解決該問題。然而,該任務也是一個存在多個可行解(假設)的逆問題(inverse problem),具有巨大的歧義性。該問題的產生主要是由于相機成像過程中深度信息的丟失,造成多個三維姿態(tài)投影到二維空間可能存在相同的二維姿態(tài)。從而形成一對多的病態(tài)問題,并且在遮擋的情況下該問題會被進一步放大。這些工作大多忽略了該問題本質上是個逆問題,并且只假設存在一個解,這通常會導致估計出不滿意的結果(見圖1)。

目前,只有少量的工作提出基于生成多個假設的方法。他們通常依賴于一對多的映射,將多個輸出頭添加到具有共享特征提取器的現有架構中,而未能建立不同假設特征之間的聯系。這是一個重要的缺點,因為這種能力對于提高模型的表現力和性能至關重要。 鑒于三維人體姿態(tài)估計的歧義逆問題,本文認為先進行一對多的映射,然后再將生成的多個中間假設進行多對一的映射更為合理,因為這種方式可以豐富模型的特征并可以合成更精確的三維姿態(tài)。

模型方法

這篇文章的核心思想是通過學習多重姿態(tài)假設的時空表示來合成更準確的三維姿態(tài)。 為了實現這一點,作者提出了一個三階段框架,叫多假設Transformer(Multi-Hypothesis Transformer,MHFormer)。如圖2所示,該框架從生成多個初始表示開始,逐漸在它們之間進行通信以合成更準確的估計。該框架可以有效地建模多假設的依賴,并在假設特征之間建立牢固的聯系。

以下這張圖是本文的具體網絡結構。這張圖很大,但還是挺好理解的。左上角的圖a是MHFormer的整體框架。輸入是二維姿態(tài)序列,輸出是中間幀的三維姿態(tài)。MHFormer總共包括三個主要模塊:多假設生成器(右上角圖b),自假設修正器(左下角圖c),交叉假設交互器(右下角圖d)和2個輔助模塊:時間嵌入,回歸頭。

多假設生成

在空間域中,作者通過設計一個基于Transformer的級聯架構來建模每幀人體關鍵點的內在結構信息,并在網絡的不同層生成姿態(tài)假設的不同表示。該模塊命名為多假設生成器(Multi-Hypothesis Generation,MHG),公式如下:

時間嵌入

MHG在空域將多級特征視作姿態(tài)假設的初始表示,然而他們的特征表達能力是比較有限的。考慮到這點,本文接下來對這些特征在時域進行捕獲依賴性并建立特征之間的聯系以進行信息增強。

那么要想利用時序信息,首先應將特征從空域轉化到時域。因此,本文首先用了一個矩陣轉置操作,來交換矩陣的維度,并對特征進行編碼同時引入幀的位置信息。

自假設修正

自假設修正器(Self-Hypothesis Refinement,SHR)對每個假設表示進行修正,其中每層包含一個多假設自注意力(multi-hypothesis self-attention,MH-SA)和一個假設混合MLP(hypothesis-mixing multi-layer perceptron)。

MH-SA包含多個并行的自注意力塊,它獨立地對單假設依賴進行建模,以形成自我假設通信:

假設混合MLP用來交換假設之間的信息,各個假設特征首先拼接起來通過MLP來提取特征,然后對其進行切塊來得到修正后的每個假設表示:


交叉假設交互

交叉假設交互器(Cross-Hypothesis Interaction,CHI)對不同假設的信息進行交互建模,其中每層包含一個多假設交叉注意力(multi-hypothesis cross-attention,MH-CA)和一個假設混合MLP。

盡管SHR已經修正了表示,但在MH-SA中只傳遞每個假設的內部信息,因此不同假設之間的聯系還不夠牢固。因此,作者提出了個包含多個并行交叉注意力塊的MH-CA來同時捕獲多假設的依賴性,形成交叉假設通信:

隨后使用假設混合MLP來交換假設之間的信息:


回歸頭

在回歸頭模塊中,使用一個線性層來作用于CHI的輸出,來回歸得到最終的3D姿態(tài)。

實驗結果

與SOTA方法的對比

從表中可見,提出的MHFormer在三維人體姿態(tài)估計最具有代表性的數據集Human3.6M上實現了SOTA的性能。作者跟大量的21年最新方法進行了對比,并在平均關鍵點誤差(MPJPE)上超越PoseFormer(ICCV 2021) 1.3mm,3%的提升。

消融實驗

作者給出了在不同感受野,也就是不同的輸入幀數下模型的結果??梢园l(fā)現隨著幀數增大,性能得到大幅度提升,但飽和在351幀上。

作者給出了不同模塊對模型的影響。其中Baseline為標準的Transformer結構(ViT)。可以發(fā)現所提出的模塊均可提升性能。這些結果表明,學習多假設時空表示對于三維人體姿態(tài)估計具有重要意義,并且應該以獨立(SHR模塊)和交互(CHI模塊)的方式對不同的假設表示進行建模。

更詳細的結果與分析見原文。

可視化結果

作者給出了跟之前的SOTA和Baselie的可視化結果對比,可見提出的MHFormer取得了更好的結果。

作者還給出了一些中間假設姿態(tài)可視化的結果??梢娫谝恍┚哂猩疃饶:?、自遮擋和 2D 檢測器不確定性的歧義身體部位,MHFormer可以生成多個合理的3D姿態(tài)解,并通過聚合多假設信息合成的最終結果更加合理和精準。

代碼運行

作者還給出了demo運行(https://github.com/Vegetebird/MHFormer),集成了YOLOv3人體檢測器、HRNet二維姿態(tài)檢測器、MHFormer二維到三維姿態(tài)提升器。只需下載作者提供的預訓練模型,輸入一小段帶人的小視頻,便可一行代碼直接輸出三維姿態(tài)估計demo。

python demo/vis.py --video sample_video.mp4

運行樣例視頻得到的結果:


小結

本文針對三維人體姿態(tài)估計存在多個可行性解的逆問題,提出了一種來學習姿態(tài)假設多重表示的多假設Transformer的新方法。 與大多數輸出多個預測的方法不同,本文提出使用一對多對一的三階段框架來有效地學習多假設的時空表示。 它提高了每個假設的表示能力,同時也增強了多個假設之間的聯系。大量實驗表明,所提出的MHFormer與單假設Transformer相比具有巨大的提升,并在兩個基準數據集上實現了最佳的性能。作者希望MHFormer能夠促進2D到3D姿態(tài)姿態(tài)提升的進一步研究,同時考慮到各種歧義性。

好了,這篇文章的內容發(fā)貨聯盟就和大家分享到這里,如果大家網絡推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525  備注:發(fā)貨聯盟引流學習; 我拉你進直播課程學習群,每周135晚上都是有實戰(zhàn)干貨的推廣引流技術課程免費分享!


版權聲明:本文內容由互聯網用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規(guī)的內容, 請發(fā)送郵件至 sumchina520@foxmail.com 舉報,一經查實,本站將立刻刪除。

您可能還會喜歡:

發(fā)表評論

◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。