人類天生地利用多模態(tài)信息(視覺、聽覺、觸覺、嗅覺等)來感知和理解世界。其中,視覺和語言的多模態(tài)感知對人類而言尤為重要,且它們二者之間能起到互補和增強的作用。
比如當(dāng)你在路上遠(yuǎn)遠(yuǎn)地看到一位朋友和你打招呼,他嘴里同時在說著什么,雖然你聽不清楚,但也能從對方的笑臉和友好的招手姿勢,大致推斷出他說的是一句問候語(“嗨,Hello,好久不見……”),這就說明視覺信號可以很好地輔助語言理解。語言信號同樣有助于視覺理解,比如糖和鹽的外觀非常相似,為了在做飯的時候快速在視覺上區(qū)分出它們,語言標(biāo)簽是個好幫手。
過往人們對于人工智能的技術(shù)研究大多集中于單模態(tài)領(lǐng)域,并在特定任務(wù)上取得了不錯的性能,比如圖像識別和語音識別。然而現(xiàn)實世界中的很多問題往往都是涉及多模態(tài)的,這就要求智能體具備和人類一樣處理視覺和語言等多模態(tài)信息的能力。例如,自動駕駛汽車應(yīng)該做到能夠識別出交通信號和道路狀況(視覺)、處理人類發(fā)出的命令(語言)。因此,多模態(tài)研究成為了近些年AI領(lǐng)域的研究重點,尤其是視覺-語言聯(lián)合模態(tài)。
然而,當(dāng)前研究人員所構(gòu)建的大多數(shù)視覺-語言模型都只是在兩個獨立的信息流中分別處理視覺和語言信號,并僅在最后階段把兩種信號的結(jié)果進(jìn)行融合,而實際上,人類對多模態(tài)信息的處理能力要機器高明很多。
例如,2020年的一項研究[1]表明,在只看得到口型而聽不到聲音的條件下進(jìn)行唇讀時,人類大腦的聽覺區(qū)域可以通過接收來自視覺皮層的信號,幫助人類更好地理解唇讀。還有一些行為調(diào)查、神經(jīng)成像和神經(jīng)解剖學(xué)等研究結(jié)果表明,在感知多模態(tài)信號時,人類的大腦中存在一個神秘的“共享世界”,充當(dāng)著理解融合信息的中央處理器的角色。
在本文要介紹的這項工作中,研究人員受到人類大腦“共享世界”的啟發(fā),深入地研究了視覺-語言表示的“共享世界”,并提出了一個新的挑戰(zhàn)——用無監(jiān)督的視覺-語言語法歸納來同時提取視覺和語言的共享層次結(jié)構(gòu)。本研究提出了一種名為CLIORA的新模型,該模型基于兩種模態(tài)的結(jié)構(gòu)化輸出,在很多任務(wù)上都取得了很好的效果,并朝著對多模態(tài)信息的語義理解邁出了明確一步。
目前這篇工作的研究論文已被人工智能頂級學(xué)術(shù)會議ICLR 2022錄取為Oral,論文一作是魯汶大學(xué)在讀博士生萬博,通訊作者是北京通用人工智能研究院前沿研究中心研究員韓文娟。
論文地址:https://openreview.net/pdf?id=N0n_QyQ5lBF
1 研究啟發(fā)——借鑒“對比學(xué)習(xí)”的策略
這篇論文具體做了一項什么樣的研究呢?我們可以從一個“貓抓老鼠”的例子入手。
如下圖所示,是一個“貓抓老鼠”的場景,用英文句子來描述這張圖片,可以是“A cat is catching a mouse on grass”,也可以僅僅是“Cat catches mouse”,為了簡化說明,我們忽略句子時態(tài)上的考慮,采用后面這個描述。
如下圖所示,對人類而言,我們可以輕易地識別出紅色描邊區(qū)域?qū)?yīng)著單詞“Cat”,同時也對應(yīng)著短語“Cat catches”,藍(lán)色描邊圖像區(qū)域?qū)?yīng)著單詞“mouse”。
但是人類的這種“輕易”對機器而言卻是很難的,機器要想學(xué)會把圖像中的特定區(qū)域與相應(yīng)的文本語言進(jìn)行匹配,則需要花費一番功夫。
如果讓傳統(tǒng)的AI模型來學(xué)習(xí),則需要使用“有監(jiān)督學(xué)習(xí)”的方式。首先要在輸入環(huán)節(jié)人工對這張圖片做盡可能“細(xì)粒度”的標(biāo)注。所謂“細(xì)粒度”就是說要在圖片中盡可能給句子“cat catches mouse”的每個成分都打上標(biāo)簽,即用若干個矩形的“邊界框”把圖片中的“cat”、“cat catches”和“mouse”分別框起來,并加上注釋。
這種“有監(jiān)督學(xué)習(xí)”的方式確實可以讓AI模型取得不錯的學(xué)習(xí)效果,但是通過這種方式,AI只能學(xué)到比較死板的“標(biāo)簽對應(yīng)”關(guān)系,而不能真正學(xué)到語義理解。另外這種“細(xì)粒度”的標(biāo)注數(shù)據(jù)需要大量的人工和時間成本,是一種“越人工越智能”的方法。
而本研究提出的AI模型并沒有采用這種“有監(jiān)督學(xué)習(xí)”方式,也不需要“細(xì)粒度”的標(biāo)注數(shù)據(jù),而是借鑒了一種無監(jiān)督的“對比學(xué)習(xí)”的策略。
還是以這個“貓抓老鼠”的圖片為例,如下圖所示,當(dāng)圖片中的“老鼠”消失時,句子“Cat catches mouse”中的“mouse”也消失了,變?yōu)榱恕癱at catches ”。這時AI就有可能會在“想”:“為什么圖片中的老鼠和文本中的單詞“mouse”一起消失了呢?這是不是意味著‘mouse’就對應(yīng)圖片中的老鼠?”。當(dāng)然,目前的AI還遠(yuǎn)遠(yuǎn)不會思考,這里只是做一種擬人化假設(shè)。
同理,當(dāng)圖片中的“貓”消失時,句子“Cat catches mouse”中的“Cat catches”也消失了,只剩下了“mouse”,這時AI或許至少學(xué)到 “Cat catches”對應(yīng)的是貓。
可以看出,上述的學(xué)習(xí)過程通過“對比學(xué)習(xí)”的方式,將視覺和語言結(jié)合到了一起,同時也學(xué)到了一些語義理解。這種暗含“對比學(xué)習(xí)”的策略給本文的研究帶來了一些啟發(fā)。當(dāng)然,由于現(xiàn)實圖片和文本信息更加復(fù)雜,本研究中實際運用的算法要遠(yuǎn)遠(yuǎn)比上述學(xué)習(xí)過程更復(fù)雜,也面臨著很大的挑戰(zhàn)。
2 提出新任務(wù)——無監(jiān)督視覺-語言語法歸納
類似上述用“對比學(xué)習(xí)”的方式學(xué)習(xí)“貓”和“老鼠”,本文提出了一種新的任務(wù)——無監(jiān)督的視覺-語言語法歸納。在介紹這項新任務(wù)之前,我們首先提一下語法歸納的概念。
語法歸納是自然語言處理中的一項基本任務(wù),旨在以短語結(jié)構(gòu)樹的形式捕獲句子中的句法信息。如下圖(a)所示,是英文句子“A man pushes a boy on a zip-line”的語法歸納圖??梢钥闯?,這個英文句子的主語(A man)、謂語(pushes)、賓語(a boy)、狀語(on a zip-line)等不同的組成部分被短語結(jié)構(gòu)樹進(jìn)行了歸納解析。
而本研究要挑戰(zhàn)的這個新任務(wù)要做的就是——在僅僅給定輸入為句子“A man pushes a boy on a zip-line”(沒有給定短語)和下圖圖像(沒有細(xì)粒度標(biāo)注)的情況下,利用無監(jiān)督的視覺-語言語法歸納,提取視覺和語言的共享層次結(jié)構(gòu),并給“該句子的所有短語和該圖像的對應(yīng)解析”的輸出。
也就是想要下圖這樣一個結(jié)果,圖中男人、推、男”等區(qū)域和“A man”,“pushes”,“a boy”等短語成分產(chǎn)生了很好的對應(yīng)解析。這其實就把語言和視覺圖像給跨模態(tài)地結(jié)合在了一起,并產(chǎn)生了一個“對齊”。
這個歸納對齊的過程叫做無監(jiān)督的視覺-語言語法歸納,完整的過程如下圖(b)所示。
這項無監(jiān)督的視覺-語言語法歸納任務(wù)其實面臨著兩大挑戰(zhàn):1、上下文有關(guān)的語義表征學(xué)習(xí);2、分層結(jié)構(gòu)所有層級的細(xì)粒度視覺-語言對齊。本研究提出的模型嘗試解決這兩大挑戰(zhàn)。
3 CLIORA模型介紹
本研究提出的新模型就是Contrastive Language-Image inside-Outside Recursive Autoencoder,簡稱CLIORA。它借鑒了DIORA模型[2]在上下文相關(guān)的語言語法歸納方面取得的成功,并在多模態(tài)場景中進(jìn)行了擴展。
CLIORA模型整個工作流程如下圖所示,一共包含視覺/文本特征提取、特征級融合、結(jié)構(gòu)構(gòu)建、置信層融合和損失函數(shù)5個模塊。整個融合過程可分為特征層(組合不同模式的特征向量)融合和置信層(組合分?jǐn)?shù))融合兩步。
CLIORA模型示意圖
具體來說,CLIORA模型首先從視覺和語言兩種模態(tài)中提取特征,然后結(jié)合inside-outside算法來計算句子成分(constituents)并構(gòu)建短語句法樹。在這個階段,CLIORA模型通過遞歸地讓語言跨度嵌入關(guān)注視覺特征,將視覺和語言這兩種模態(tài)結(jié)合起來(如下圖所示),這種結(jié)合過程就是特征層融合。這種融合能讓文本短語關(guān)聯(lián)到視覺語境,接著高效地利用視覺語境以及文本語義作為整體的語境信息,從而解決了第一個挑戰(zhàn)。
在此基礎(chǔ)上,研究人員計算每個組成部分和圖像區(qū)域之間的匹配分?jǐn)?shù)。該分?jǐn)?shù)可以用于促進(jìn)跨模態(tài)細(xì)粒度對應(yīng),并通過對比學(xué)習(xí)策略利用圖像字幕對的監(jiān)控信號。在這里,CLIORA模型通過加權(quán)跨模式匹配分?jǐn)?shù)和歸納語法給出的成分分?jǐn)?shù),進(jìn)一步融合了語言視覺模態(tài),這個過程稱之為置信層(score-level)融合,它確保了樹結(jié)構(gòu)的每一層都有細(xì)粒度的對齊,從而解決了第二個挑戰(zhàn)。
4 實驗結(jié)果
經(jīng)過大量研究實驗表明,CLIORA模型取得了很好的成功:
在新定義的無監(jiān)督視覺-語言語法歸納任務(wù)上取得了很好的效果;
在獨立的語言(語法歸納)和視覺任務(wù)上也分別取得了當(dāng)前最佳的效果。
什么意思呢?首先舉例來說明第一點成功。下圖是利用CLIORA模型對該圖像和句子“A woman walk in the sand as she carries her shoes.”的一個無監(jiān)督歸納對齊,可以看到,效果很好。
下圖同樣也是利用CLIORA模型對該圖像和句子“A boy in red sweatshirt pretends to drive a tractor.”的一個無監(jiān)督歸納對齊,效果同樣很好。
通過以上兩個例子以及大量未展示的其他實驗數(shù)據(jù)表明,CLIORA模型確實取得了第一點成功,是在無監(jiān)督的視覺-語言歸納任務(wù)取得的跨模態(tài)成功。而第二點的成功則是說,利用CLIORA模型也可以在獨立的語言(語法歸納)和獨立的視覺(圖像-短語匹配)任務(wù)上也分別取得成功,而且要比之前這兩個任務(wù)上的其他模型性能都要好。
打個比方說,這就好像有個高中生提前學(xué)習(xí)了大學(xué)的“物理化學(xué)”課程,結(jié)果他不僅“物理化學(xué)”這門課學(xué)的很好,而且在高中單獨的“物理”和“化學(xué)”兩門課也很厲害,在考試中都取得了兩門課的學(xué)校第一。
5 總結(jié)和展望
本研究提出了一項具有挑戰(zhàn)性的“無監(jiān)督的視覺-語言語法歸納”新任務(wù),并提出了CLIORA模型,探索了語言和圖像的“共享”結(jié)構(gòu)性表示。在實現(xiàn)對語言有一個結(jié)構(gòu)性表示的同時,對應(yīng)圖像也構(gòu)建一個結(jié)構(gòu)性表示,從而賦予語言和文本共享的一致性語義表示,實現(xiàn)統(tǒng)一的語言和視覺跨模態(tài)理解。
在未來,一個可能的研究方向是接著在視覺-語言“共享”結(jié)構(gòu)性表示之外,額外定義語言和視覺各自獨立的結(jié)構(gòu)性表示,從而在整體上構(gòu)建完整的視覺語言“聯(lián)合”理解框架,這種視覺語言聯(lián)合理解框架可以顯著提升AI對圖片的理解,增加了可解釋性。
那么,為視覺-語言語法歸納建模共享結(jié)構(gòu)的最佳方法是什么?
一個有希望的擴展可能是探索細(xì)粒度的視覺結(jié)構(gòu)來規(guī)范共享的視覺-語言語法,本文提出的模型方法還需在視覺層面上進(jìn)一步探索。但是值得注意的是,視覺圖像本身還包含豐富的空間結(jié)構(gòu),利用這種結(jié)構(gòu)也可能有利于產(chǎn)生更有意義的共享結(jié)構(gòu)。
回到本文研究的動機,人類如何在這樣的“共享語義空間”中建模和處理多模態(tài)信息呢?本研究為語法歸納和短語落地提供了一個可能的答案。盡管如此,在人類認(rèn)知計算模型中使用聯(lián)結(jié)主義和符號主義表示之間的爭論從未停止過。這個謎團也為人們提供了一個廣闊的空間,來探索建模人類多模態(tài)“共享世界”的其他潛在解釋。
參考文獻(xiàn)
[1] Mathieu Bourguignon, Martijn Baart, Efthymia C Kapnoula, andNicola Molinaro. Lip-reading enables the brain to synthesize auditory featuresof unknown silent speech. Journalof Neuroscience, 40(5):1053–1065, 2020.
[2] Andrew Drozdov, Pat Verga, Mohit Yadav, Mohit Iyyer, and AndrewMcCallum. Unsupervised latent tree induction with deep inside-outside recursive autoencoders. In Proceedings of the Annual Conference of the North American Chapterof the Association for Computational Linguistics(NAACL), 2019.
[3]Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, MarkJohnson, Stephen Gould, and Lei Zhang. Bottom-up and top-down attention for image captioning and visualquestion answering. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6077–6086, 2018.
[4]James K Baker. Trainable grammars for speech recognition. The Journal of the Acoustical Society of America, 65(S1):S132–S132, 1979.
[5]Gemma A Calvert, Edward T Bullmore, Michael J Brammer, RuthCampbell, Steven CR Williams, Philip K McGuire, Peter WR Woodruff, Susan D Iversen, and Anthony S David.Activation of auditory cortex during silent lipreading. science,276(5312):593–596, 1997.
[6]Ruth Campbell. The processing of audio-visual speech: empirical and neuralbases. Philosophical Transactions of the Royal Society B: Biological Sciences, 363(1493):1001–1010, 2008.
[7]Kan Chen, Jiyang Gao, and Ram Nevatia. Knowledge aided consistency forweakly supervised phrase grounding. In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[8]Noam Chomsky. On certain formal properties of grammars. Information and control, 2(2):137–167,1959.
[9]Andrew Drozdov, Subendhu Rongali, Yi-Pei Chen, Tim O’Gorman, Mohit Iyyer,and Andrew McCallum. Unsupervised parsing with s-diora: Single tree encodingfor deep inside-outside recursive autoencoders. In Proceedings of the Conference on Empirical Methods in NaturalLanguage
Processing (EMNLP), 2020.
[10]Tanmay Gupta, Arash Vahdat, Gal Chechik, Xiaodong Yang, JanKautz, and Derek Hoiem. Contrastive learning for weakly supervised phrasegrounding. In EuropeanConference on Computer Vision (ECCV), 2020.
[11]Wenjuan Han, Yong Jiang, and Kewei Tu. Dependency grammar induction withneural lexicalization and big training data. In Proceedings of the 2017 Conference on Empirical Methods in NaturalLanguage Processing, pp.1683–1688, 2017.
[12]Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. Mask r-cnn.In ′ Proceedings of the IEEEInternational Conference on Computer Vision (ICCV), 2017.
[13]Yining Hong, Qing Li, Song-Chun Zhu, and Siyuan Huang. Vlgrammar: Groundedgrammar induction of vision and language. Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2021.
[14]John E Hopcroft, Rajeev Motwani, and Jeffrey D Ullman. Introduction toautomata theory, languages, and computation. Acm Sigact News,32(1):60–65, 2001.
[15]Ashish Jaiswal, Ashwin Ramesh Babu, Mohammad Zaki Zadeh, DebapriyaBanerjee, and Fillia Makedon. A survey on contrastive self-supervised learning. Technologies, 9, 2021.
[16]Tadao Kasami. An efficient recognition and syntax-analysis algorithm forcontext-free languages. CoordinatedScience Laboratory Report no. R-257, 1966.
[17]Anne Keitel, Joachim Gross, and Christoph Kayser. Shared andmodality-specific brain regions that mediate auditory and visual wordcomprehension. ELife, 9:e56972, 2020.
[18]Yoon Kim, Chris Dyer, and Alexander Rush. Compound probabilisticcontext-free grammars for grammar induction. In Proceedingsof the Annual Meeting of the Association for Computational Linguistics (ACL), 2019a.
[19]Yoon Kim, Alexander M. Rush, Lei Yu, Adhiguna Kuncoro, Chris Dyer, andGabor Melis. Unsupervised recurrent neural network grammars. In Jill Burstein, Christy Doran,and Thamar Solorio (eds.), Proceedings of theAnnual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 1105–1117. Association for Computational Linguistics, 2019b.
[20]Nikita Kitaev and Dan Klein. Constituency parsing with aself-attentive encoder. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 2676–2686,
2018.
[21]Noriyuki Kojima, Hadar Averbuch-Elor, Alexander Rush, and Yoav Artzi. What is learned in visually grounded neural syntax acquisition. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), pp. 2615–2635, 2020.
[22]Adhiguna Kuncoro, Lingpeng Kong, Daniel Fried, Dani Yogatama, Laura Rimell, Chris Dyer, and Phil Blunsom. Syntactic structure distillation pretraining for bidirectional encoders. Transactions of the Association for Computational Linguistics (TACL), 8:776–794, 2020.
[23]John D Lafferty. A derivation of the inside-outside algorithm from the EM algorithm. IBM TJ Watson Research Center, 2000.
[24]Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ′ European Conference on Computer Vision (ECCV), pp. 740–755. Springer, 2014.
[25]Yongfei Liu, Bo Wan, Xiaodan Zhu, and Xuming He. Learning cross-modal context graph for visual grounding. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020.
[26]Yongfei Liu, Bo Wan, Lin Ma, and Xuming He. Relation-aware instance refinement for weakly supervised visual grounding. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
[27]Lin Ma, Zhengdong Lu, Lifeng Shang, and Hang Li. Multimodal convolutional neural networks for matching image and sentence. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2623–2631, 2015.
[28]Collins Michael. Probabilistic context-free grammars. In NLP course note, 2011.
[29]Jeffrey Pennington, Richard Socher, and Christopher D. Manning. Glove: Global vectors for word representation. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1532–1543, 2014. URL http://www.aclweb.org/anthology/D14-1162.
[30]Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee,and Luke Zettlemoyer. Deep contextualized word representations. In Marilyn A. Walker,Heng Ji, and Amanda Stent (eds.), Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), pp. 2227–2237. Association for Computational Linguistics, 2018. doi: 10.18653/v1/n18-1202. URL https:
//doi.org/10.18653/v1/n18-1202.
[31]A. Bryan Plummer, Liwei Wang, M. Christopher Cervantes, C. Juan Caicedo, Julia Hockenmaier, and Svetlana Lazebnik. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models. IJCV, 123:74–93, 2017.
[32]Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Workshop on Advances in Neural Information Processing Systems (NIPS), 2015.
Anna Rohrbach, Marcus Rohrbach, Ronghang Hu, Trevor Darrell, and Bernt Schiele. Grounding of textual phrases in images by reconstruction. In European Conference on Computer Vision (ECCV), 2016.
[33]Yikang Shen, Zhouhan Lin, Chin-wei Huang, and Aaron Courville. Neural language modeling by jointly learning syntax and lexicon. In International Conference on Learning Representations (ICLR), 2018.
[34]Yikang Shen, Shawn Tan, Alessandro Sordoni, and Aaron Courville. Ordered neurons: Integrating tree structures into recurrent neural networks. International Conference on Learning Representations (ICLR), 2019.
好了,這篇文章的內(nèi)容發(fā)貨聯(lián)盟就和大家分享到這里,如果大家網(wǎng)絡(luò)推廣引流創(chuàng)業(yè)感興趣,可以添加微信:80709525 備注:發(fā)貨聯(lián)盟引流學(xué)習(xí); 我拉你進(jìn)直播課程學(xué)習(xí)群,每周135晚上都是有實戰(zhàn)干貨的推廣引流技術(shù)課程免費分享!