
人類天生地利用多模態(tài)信息(視覺、聽覺、觸覺、嗅覺等)來感知和理解世界。其中,視覺和語言的多模態(tài)感知對人類而言尤為重要,且它們二者之間能起到互補和增強的作用。
比如當你在路上遠遠地看到一位朋友和你打招呼,他嘴里同時在說著什么,雖然你聽不清楚,但也能從對方的笑臉和友好的招手姿勢,大致推斷出他說的是一句問候語(“嗨,Hello,好久不見……”),這就說明視覺信號可以很好地輔助語言理解。語言信號同樣有助于視覺理解,比如糖和鹽的外觀非常相似,為了在做飯的時候快速在視覺上區(qū)分出它們,語言標簽是個好幫手。

過往人們對于人工智能的技術研究大多集中于單模態(tài)領域,并在特定任務上取得了不錯的性能,比如圖像識別和語音識別。然而現實世界中的很多問題往往都是涉及多模態(tài)的,這就要求智能體具備和人類一樣處理視覺和語言等多模態(tài)信息的能力。例如,自動駕駛汽車應該做到能夠識別出交通信號和道路狀況(視覺)、處理人類發(fā)出的命令(語言)。因此,多模態(tài)研究成為了近些年AI領域的研究重點,尤其是視覺-語言聯合模態(tài)。
然而,當前研究人員所構建的大多數視覺-語言模型都只是在兩個獨立的信息流中分別處理視覺和語言信號,并僅在最后階段把兩種信號的結果進行融合,而實際上,人類對多模態(tài)信息的處理能力要機器高明很多。
例如,2020年的一項研究[1]表明,在只看得到口型而聽不到聲音的條件下進行唇讀時,人類大腦的聽覺區(qū)域可以通過接收來自視覺皮層的信號,幫助人類更好地理解唇讀。還有一些行為調查、神經成像和神經解剖學等研究結果表明,在感知多模態(tài)信號時,人類的大腦中存在一個神秘的“共享世界”,充當著理解融合信息的中央處理器的角色。
在本文要介紹的這項工作中,研究人員受到人類大腦“共享世界”的啟發(fā),深入地研究了視覺-語言表示的“共享世界”,并提出了一個新的挑戰(zhàn)——用無監(jiān)督的視覺-語言語法歸納來同時提取視覺和語言的共享層次結構。本研究提出了一種名為CLIORA的新模型,該模型基于兩種模態(tài)的結構化輸出,在很多任務上都取得了很好的效果,并朝著對多模態(tài)信息的語義理解邁出了明確一步。
目前這篇工作的研究論文已被人工智能頂級學術會議ICLR 2022錄取為Oral,論文一作是魯汶大學在讀博士生萬博,通訊作者是北京通用人工智能研究院前沿研究中心研究員韓文娟。

論文地址:https://openreview.net/pdf?id=N0n_QyQ5lBF
1 研究啟發(fā)——借鑒“對比學習”的策略
這篇論文具體做了一項什么樣的研究呢?我們可以從一個“貓抓老鼠”的例子入手。
如下圖所示,是一個“貓抓老鼠”的場景,用英文句子來描述這張圖片,可以是“A cat is catching a mouse on grass”,也可以僅僅是“Cat catches mouse”,為了簡化說明,我們忽略句子時態(tài)上的考慮,采用后面這個描述。

如下圖所示,對人類而言,我們可以輕易地識別出紅色描邊區(qū)域對應著單詞“Cat”,同時也對應著短語“Cat catches”,藍色描邊圖像區(qū)域對應著單詞“mouse”。

但是人類的這種“輕易”對機器而言卻是很難的,機器要想學會把圖像中的特定區(qū)域與相應的文本語言進行匹配,則需要花費一番功夫。
如果讓傳統的AI模型來學習,則需要使用“有監(jiān)督學習”的方式。首先要在輸入環(huán)節(jié)人工對這張圖片做盡可能“細粒度”的標注。所謂“細粒度”就是說要在圖片中盡可能給句子“cat catches mouse”的每個成分都打上標簽,即用若干個矩形的“邊界框”把圖片中的“cat”、“cat catches”和“mouse”分別框起來,并加上注釋。

這種“有監(jiān)督學習”的方式確實可以讓AI模型取得不錯的學習效果,但是通過這種方式,AI只能學到比較死板的“標簽對應”關系,而不能真正學到語義理解。另外這種“細粒度”的標注數據需要大量的人工和時間成本,是一種“越人工越智能”的方法。
而本研究提出的AI模型并沒有采用這種“有監(jiān)督學習”方式,也不需要“細粒度”的標注數據,而是借鑒了一種無監(jiān)督的“對比學習”的策略。
還是以這個“貓抓老鼠”的圖片為例,如下圖所示,當圖片中的“老鼠”消失時,句子“Cat catches mouse”中的“mouse”也消失了,變?yōu)榱恕癱at catches ”。這時AI就有可能會在“想”:“為什么圖片中的老鼠和文本中的單詞“mouse”一起消失了呢?這是不是意味著‘mouse’就對應圖片中的老鼠?”。當然,目前的AI還遠遠不會思考,這里只是做一種擬人化假設。

同理,當圖片中的“貓”消失時,句子“Cat catches mouse”中的“Cat catches”也消失了,只剩下了“mouse”,這時AI或許至少學到 “Cat catches”對應的是貓。

可以看出,上述的學習過程通過“對比學習”的方式,將視覺和語言結合到了一起,同時也學到了一些語義理解。這種暗含“對比學習”的策略給本文的研究帶來了一些啟發(fā)。當然,由于現實圖片和文本信息更加復雜,本研究中實際運用的算法要遠遠比上述學習過程更復雜,也面臨著很大的挑戰(zhàn)。
2 提出新任務——無監(jiān)督視覺-語言語法歸納
類似上述用“對比學習”的方式學習“貓”和“老鼠”,本文提出了一種新的任務——無監(jiān)督的視覺-語言語法歸納。在介紹這項新任務之前,我們首先提一下語法歸納的概念。
語法歸納是自然語言處理中的一項基本任務,旨在以短語結構樹的形式捕獲句子中的句法信息。如下圖(a)所示,是英文句子“A man pushes a boy on a zip-line”的語法歸納圖??梢钥闯?,這個英文句子的主語(A man)、謂語(pushes)、賓語(a boy)、狀語(on a zip-line)等不同的組成部分被短語結構樹進行了歸納解析。

圖(a):自然語言的常規(guī)語法歸納圖示。
而本研究要挑戰(zhàn)的這個新任務要做的就是——在僅僅給定輸入為句子“A man pushes a boy on a zip-line”(沒有給定短語)和下圖圖像(沒有細粒度標注)的情況下,利用無監(jiān)督的視覺-語言語法歸納,提取視覺和語言的共享層次結構,并給“該句子的所有短語和該圖像的對應解析”的輸出。

也就是想要下圖這樣一個結果,圖中男人、推、男”等區(qū)域和“A man”,“pushes”,“a boy”等短語成分產生了很好的對應解析。這其實就把語言和視覺圖像給跨模態(tài)地結合在了一起,并產生了一個“對齊”。

這個歸納對齊的過程叫做無監(jiān)督的視覺-語言語法歸納,完整的過程如下圖(b)所示。

圖(b):視覺-語言語法歸納圖示
這項無監(jiān)督的視覺-語言語法歸納任務其實面臨著兩大挑戰(zhàn):1、上下文有關的語義表征學習;2、分層結構所有層級的細粒度視覺-語言對齊。本研究提出的模型嘗試解決這兩大挑戰(zhàn)。
3 CLIORA模型介紹
本研究提出的新模型就是Contrastive Language-Image inside-Outside Recursive Autoencoder,簡稱CLIORA。它借鑒了DIORA模型[2]在上下文相關的語言語法歸納方面取得的成功,并在多模態(tài)場景中進行了擴展。
CLIORA模型整個工作流程如下圖所示,一共包含視覺/文本特征提取、特征級融合、結構構建、置信層融合和損失函數5個模塊。整個融合過程可分為特征層(組合不同模式的特征向量)融合和置信層(組合分數)融合兩步。

CLIORA模型示意圖
具體來說,CLIORA模型首先從視覺和語言兩種模態(tài)中提取特征,然后結合inside-outside算法來計算句子成分(constituents)并構建短語句法樹。在這個階段,CLIORA模型通過遞歸地讓語言跨度嵌入關注視覺特征,將視覺和語言這兩種模態(tài)結合起來(如下圖所示),這種結合過程就是特征層融合。這種融合能讓文本短語關聯到視覺語境,接著高效地利用視覺語境以及文本語義作為整體的語境信息,從而解決了第一個挑戰(zhàn)。

在此基礎上,研究人員計算每個組成部分和圖像區(qū)域之間的匹配分數。該分數可以用于促進跨模態(tài)細粒度對應,并通過對比學習策略利用圖像字幕對的監(jiān)控信號。在這里,CLIORA模型通過加權跨模式匹配分數和歸納語法給出的成分分數,進一步融合了語言視覺模態(tài),這個過程稱之為置信層(score-level)融合,它確保了樹結構的每一層都有細粒度的對齊,從而解決了第二個挑戰(zhàn)。
4 實驗結果
經過大量研究實驗表明,CLIORA模型取得了很好的成功:
在新定義的無監(jiān)督視覺-語言語法歸納任務上取得了很好的效果;
在獨立的語言(語法歸納)和視覺任務上也分別取得了當前最佳的效果。
什么意思呢?首先舉例來說明第一點成功。下圖是利用CLIORA模型對該圖像和句子“A woman walk in the sand as she carries her shoes.”的一個無監(jiān)督歸納對齊,可以看到,效果很好。

下圖同樣也是利用CLIORA模型對該圖像和句子“A boy in red sweatshirt pretends to drive a tractor.”的一個無監(jiān)督歸納對齊,效果同樣很好。

通過以上兩個例子以及大量未展示的其他實驗數據表明,CLIORA模型確實取得了第一點成功,是在無監(jiān)督的視覺-語言歸納任務取得的跨模態(tài)成功。而第二點的成功則是說,利用CLIORA模型也可以在獨立的語言(語法歸納)和獨立的視覺(圖像-短語匹配)任務上也分別取得成功,而且要比之前這兩個任務上的其他模型性能都要好。
打個比方說,這就好像有個高中生提前學習了大學的“物理化學”課程,結果他不僅“物理化學”這門課學的很好,而且在高中單獨的“物理”和“化學”兩門課也很厲害,在考試中都取得了兩門課的學校第一。

圖:獨立的語法歸納任務

圖:獨立的有監(jiān)督的圖像-短語視覺匹配任務
5 總結和展望
本研究提出了一項具有挑戰(zhàn)性的“無監(jiān)督的視覺-語言語法歸納”新任務,并提出了CLIORA模型,探索了語言和圖像的“共享”結構性表示。在實現對語言有一個結構性表示的同時,對應圖像也構建一個結構性表示,從而賦予語言和文本共享的一致性語義表示,實現統一的語言和視覺跨模態(tài)理解。
在未來,一個可能的研究方向是接著在視覺-語言“共享”結構性表示之外,額外定義語言和視覺各自獨立的結構性表示,從而在整體上構建完整的視覺語言“聯合”理解框架,這種視覺語言聯合理解框架可以顯著提升AI對圖片的理解,增加了可解釋性。
那么,為視覺-語言語法歸納建模共享結構的最佳方法是什么?
一個有希望的擴展可能是探索細粒度的視覺結構來規(guī)范共享的視覺-語言語法,本文提出的模型方法還需在視覺層面上進一步探索。但是值得注意的是,視覺圖像本身還包含豐富的空間結構,利用這種結構也可能有利于產生更有意義的共享結構。
回到本文研究的動機,人類如何在這樣的“共享語義空間”中建模和處理多模態(tài)信息呢?本研究為語法歸納和短語落地提供了一個可能的答案。盡管如此,在人類認知計算模型中使用聯結主義和符號主義表示之間的爭論從未停止過。這個謎團也為人們提供了一個廣闊的空間,來探索建模人類多模態(tài)“共享世界”的其他潛在解釋。
參考文獻
[1] Mathieu Bourguignon, Martijn Baart, Efthymia C Kapnoula, andNicola Molinaro. Lip-reading enables the brain to synthesize auditory featuresof unknown silent speech. Journalof Neuroscience, 40(5):1053–1065, 2020.
[2] Andrew Drozdov, Pat Verga, Mohit Yadav, Mohit Iyyer, and AndrewMcCallum. Unsupervised latent tree induction with deep inside-outside recursive autoencoders. In Proceedings of the Annual Conference of the North American Chapterof the Association for Computational Linguistics(NAACL), 2019.
[3]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, MarkJohnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visualquestion answering. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6077–6086, 2018.
[4]James K Baker. Trainable grammars for speech recognition. The Journal of the Acoustical Society of America, 65(S1):S132–S132, 1979.
[5]Gemma A Calvert, Edward T Bullmore, Michael J Brammer, RuthCampbell, Steven CR Williams, Philip K McGuire, Peter WR Woodruff, Susan D Iversen, and Anthony S David.Activation of auditory cortex during silent lipreading. science,276(5312):593–596, 1997.
[6]Ruth Campbell. The processing of audio-visual speech: empirical and neuralbases. Philosophical Transactions of the Royal Society B: Biological Sciences, 363(1493):1001–1010, 2008.
[7]Kan Chen, Jiyang Gao, and Ram Nevatia. Knowledge aided consistency forweakly supervised phrase grounding. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[8]Noam Chomsky. On certain formal properties of grammars. Information and control, 2(2):137–167,1959.
[9]Andrew Drozdov, Subendhu Rongali, Yi-Pei Chen, Tim O’Gorman, Mohit Iyyer,and Andrew McCallum. Unsupervised parsing with s-diora: Single tree encodingfor deep inside-outside recursive autoencoders. In Proceedings of the Conference on Empirical Methods in NaturalLanguage
Processing (EMNLP), 2020.
[10]Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, JanKautz, and Derek Hoiem. Contrastive learning for weakly supervised phrasegrounding. In EuropeanConference on Computer Vision (ECCV), 2020.
[11]Wenjuan Han, Yong Jiang, and Kewei Tu. Dependency grammar induction withneural lexicalization and big training data. In Proceedings of the 2017 Conference on Empirical Methods in NaturalLanguage Processing, pp.1683–1688, 2017.
[12]Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. Mask r-cnn.In ′ Proceedings of the IEEEInternational Conference on Computer Vision (ICCV), 2017.
[13]Yining Hong, Qing Li, Song-Chun Zhu, and Siyuan Huang. Vlgrammar: Groundedgrammar induction of vision and language. Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2021.
[14]John E Hopcroft, Rajeev Motwani, and Jeffrey D Ullman. Introduction toautomata theory, languages, and computation. Acm Sigact News,32(1):60–65, 2001.
[15]Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, DebapriyaBanerjee, and Fillia Makedon. A survey on contrastive self-supervised learning. Technologies, 9, 2021.
[16]Tadao Kasami. An efficient recognition and syntax-analysis algorithm forcontext-free languages. CoordinatedScience Laboratory Report no. R-257, 1966.
[17]Anne Keitel, Joachim Gross, and Christoph Kayser. Shared andmodality-specific brain regions that mediate auditory and visual wordcomprehension. ELife, 9:e56972, 2020.
[18]Yoon Kim, Chris Dyer, and Alexander Rush. Compound probabilisticcontext-free grammars for grammar induction. In Proceedingsof the Annual Meeting of the Association for Computational Linguistics (ACL), 2019a.
[19]Yoon Kim, Alexander M. Rush, Lei Yu, Adhiguna Kuncoro, Chris Dyer, andGabor Melis. Unsupervised recurrent neural network grammars. In Jill Burstein, Christy Doran,and Thamar Solorio (eds.), Proceedings of theAnnual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 1105–1117. Association for Computational Linguistics, 2019b.
[20]Nikita Kitaev and Dan Klein. Constituency parsing with aself-attentive encoder. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 2676–2686,
2018.
[21]Noriyuki Kojima, Hadar Averbuch-Elor, Alexander Rush, and Yoav Artzi. What is learned in visually grounded neural syntax acquisition. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 2615–2635, 2020.
[22]Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura Rimell, Chris Dyer, and Phil Blunsom. Syntactic structure distillation pretraining for bidirectional encoders. Transactions of the Association for Computational Linguistics (TACL), 8:776–794, 2020.
[23]John D Lafferty. A derivation of the inside-outside algorithm from the EM algorithm. IBM TJ Watson Research Center, 2000.
[24]Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ′ European Conference on Computer Vision (ECCV), pp. 740–755. Springer, 2014.
[25]Yongfei Liu, Bo Wan, Xiaodan Zhu, and Xuming He. Learning cross-modal context graph for visual grounding. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020.
[26]Yongfei Liu, Bo Wan, Lin Ma, and Xuming He. Relation-aware instance refinement for weakly supervised visual grounding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
[27]Lin Ma, Zhengdong Lu, Lifeng Shang, and Hang Li. Multimodal convolutional neural networks for matching image and sentence. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2623–2631, 2015.
[28]Collins Michael. Probabilistic context-free grammars. In NLP course note, 2011.
[29]Jeffrey Pennington, Richard Socher, and Christopher D. Manning. Glove: Global vectors for word representation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532–1543, 2014. URL http://www.aclweb.org/anthology/D14-1162.
[30]Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee,and Luke Zettlemoyer. Deep contextualized word representations. In Marilyn A. Walker,Heng Ji, and Amanda Stent (eds.), Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 2227–2237. Association for Computational Linguistics, 2018. doi: 10.18653/v1/n18-1202. URL https:
//doi.org/10.18653/v1/n18-1202.
[31]A. Bryan Plummer, Liwei Wang, M. Christopher Cervantes, C. Juan Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. IJCV, 123:74–93, 2017.
[32]Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Workshop on Advances in Neural Information Processing Systems (NIPS), 2015.
Anna Rohrbach, Marcus Rohrbach, Ronghang Hu, Trevor Darrell, and Bernt Schiele. Grounding of textual phrases in images by reconstruction. In European Conference on Computer Vision (ECCV), 2016.
[33]Yikang Shen, Zhouhan Lin, Chin-wei Huang, and Aaron Courville. Neural language modeling by jointly learning syntax and lexicon. In International Conference on Learning Representations (ICLR), 2018.
[34]Yikang Shen, Shawn Tan, Alessandro Sordoni, and Aaron Courville. Ordered neurons: Integrating tree structures into recurrent neural networks. International Conference on Learning Representations (ICLR), 2019.

好了,這篇文章的內容發(fā)貨聯盟就和大家分享到這里,如果大家網絡推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525 備注:發(fā)貨聯盟引流學習; 我拉你進直播課程學習群,每周135晚上都是有實戰(zhàn)干貨的推廣引流技術課程免費分享!