華為天才少年謝凌曦:關(guān)于視覺識(shí)別領(lǐng)域發(fā)展的個(gè)人觀點(diǎn)!
最近,我參加了幾個(gè)高強(qiáng)度的學(xué)術(shù)活動(dòng),包括CCF計(jì)算機(jī)視覺專委會(huì)的閉門研討會(huì)和VALSE線下大會(huì)。經(jīng)過與其他學(xué)者的交流,我產(chǎn)生了許多想法,千頭萬緒,便希望把它們整理下來,供自己和同行們參考。當(dāng)然,受限于個(gè)人的水平和研究范圍,文章中一定會(huì)存在許多不準(zhǔn)確甚至錯(cuò)誤的地方,當(dāng)然也不可能覆蓋所有重要的研究方向。我期待與有興趣的學(xué)者們進(jìn)行交流,以充實(shí)這些觀點(diǎn),更好地探討未來發(fā)展方向。
在這篇文章中,我將會(huì)著重分析計(jì)算機(jī)視覺領(lǐng)域,特別是視覺感知(即識(shí)別)方向所面臨的困難和潛在的研究方向。相較于針對(duì)具體算法的細(xì)節(jié)改進(jìn),我更希望探討當(dāng)前算法(尤其是基于深度學(xué)習(xí)的預(yù)訓(xùn)練+微調(diào)范式)的局限性和瓶頸,并且由此得出初步的發(fā)展性結(jié)論,包括哪些問題是重要的、哪些問題是不重要的、哪些方向值得推進(jìn)、哪些方向的性價(jià)比較低等。
在開始之前,我先畫出如下思維導(dǎo)圖。為了尋找合適的切入點(diǎn),我將從計(jì)算機(jī)視覺和自然語言處理(人工智能中兩個(gè)最受的研究方向)的區(qū)別開始談起,引出圖像信號(hào)的三個(gè)根本性質(zhì):信息稀疏性、域間差異性、無限粒度性,并將它們與幾個(gè)重要的研究方向相對(duì)應(yīng)。這樣,我們就能更好地了解每個(gè)研究方向所處的狀態(tài):它已經(jīng)解決了哪些問題、還有哪些重要的問題沒有解決,然后針對(duì)性地分析今后的發(fā)展趨勢(shì)。
CV的三大基本困難和對(duì)應(yīng)研究方向一直以來,NLP都走在CV的前面。不論是深度神經(jīng)網(wǎng)絡(luò)超越手工方法,還是預(yù)訓(xùn)練大模型開始出現(xiàn)大一統(tǒng)的趨勢(shì),這些事情都先發(fā)生在NLP領(lǐng)域,并在不久之后被搬運(yùn)到了CV領(lǐng)域。這里的本質(zhì)原因是NLP的起點(diǎn)更高:自然語言的基礎(chǔ)單元是單詞,而圖像的基礎(chǔ)單元是像素;前者具有天然的語義信息,而后者未必能夠表達(dá)語義。從根本上說,自然語言是人類創(chuàng)造出來,用于存儲(chǔ)知識(shí)和交流信息的載體,所以必然具有高效和信息密度高的特性;而圖像則是人類通過各種傳感器捕捉的光學(xué)信號(hào),它能夠客觀地反映真實(shí)情況,但相應(yīng)地就不具有強(qiáng)語義,且信息密度可能很低。
從另一個(gè)角度看,圖像空間比文本空間要大得多,空間的結(jié)構(gòu)也要復(fù)雜得多。這就意味著,如果希望在空間中采樣大量樣本,并且用這些數(shù)據(jù)來表征整個(gè)空間的分布,采樣的圖像數(shù)據(jù)就要比采樣的文本數(shù)據(jù)大許多個(gè)數(shù)量級(jí)。順帶一提,這也是為什么自然語言預(yù)訓(xùn)練模型比視覺預(yù)訓(xùn)練模型用得更好的本質(zhì)原因——我們?cè)诤竺孢€會(huì)提到這一點(diǎn)。
根據(jù)上述分析,我們已經(jīng)通過CV和NLP的差別,引出了CV的第一個(gè)基本困難,即語義稀疏性。而另外兩個(gè)困難,域間差異性和無限粒度性,也多少與上述本質(zhì)差別相關(guān)。正是由于圖像采樣時(shí)沒有考慮到語義,因而在采樣不同域(即不同分布,如白天和黑夜、晴天和雨天等場景)時(shí),采樣結(jié)果(即圖像像素)與域特性強(qiáng)相關(guān),導(dǎo)致了域間差異性。同時(shí),由于圖像的基本語義單元很難定義(而文本很容易定義),且圖像所表達(dá)的信息豐富多樣,使得人類能夠從圖像中獲取近乎無限精細(xì)的語義信息,遠(yuǎn)遠(yuǎn)超出當(dāng)前CV領(lǐng)域任何一種評(píng)價(jià)指標(biāo)所定義的能力,這就是無限粒度性。
關(guān)于無限粒度性,我曾經(jīng)寫過一篇文章,專門討論這個(gè)問題。https://zhuanlan.zhihu.com/p/376145664
以上述三大基本困難為牽引,我們將業(yè)界近年來的研究方向總結(jié)如下:
- 語義稀疏性:解決方案為構(gòu)建高效計(jì)算模型(神經(jīng)網(wǎng)絡(luò))和視覺預(yù)訓(xùn)練。此處的主要邏輯在于,想要提升數(shù)據(jù)的信息密度,就必須假設(shè)數(shù)據(jù)的非均勻分布(信息論)并對(duì)其建模(即學(xué)習(xí)數(shù)據(jù)的先驗(yàn)分布)。目前,最為高效的建模方式有兩類,一類是通過神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),來捕捉數(shù)據(jù)無關(guān)的先驗(yàn)分布(例如卷積模塊對(duì)應(yīng)于圖像數(shù)據(jù)的局部性先驗(yàn)、transformer模塊對(duì)應(yīng)于圖像數(shù)據(jù)的注意力先驗(yàn));一類是通過在大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練,來捕捉數(shù)據(jù)相關(guān)的先驗(yàn)分布。這兩個(gè)研究方向,也是視覺識(shí)別領(lǐng)域最為基礎(chǔ)、受到最多的研究方向。
- 域間差異性:解決方案為數(shù)據(jù)高效的微調(diào)算法。根據(jù)以上分析,網(wǎng)絡(luò)體量越大、預(yù)訓(xùn)練數(shù)據(jù)集體量越大,計(jì)算模型中存儲(chǔ)的先驗(yàn)就越強(qiáng)。然而,當(dāng)預(yù)訓(xùn)練域和目標(biāo)域的數(shù)據(jù)分布具有較大差異時(shí),這種強(qiáng)先驗(yàn)反而會(huì)帶來壞處,因?yàn)樾畔⒄摳嬖V我們:提升某些部分(預(yù)訓(xùn)練域)的信息密度,就一定會(huì)降低其他部分(預(yù)訓(xùn)練域沒有包含的部分,即預(yù)訓(xùn)練過程中認(rèn)為不重要的部分)的信息密度?,F(xiàn)實(shí)中,目標(biāo)域很可能部分或者全部落在沒有包含的部分,導(dǎo)致直接遷移預(yù)訓(xùn)練模型的效果很差(即過擬合)。此時(shí),就需要通過在目標(biāo)域進(jìn)行微調(diào)來適應(yīng)新的數(shù)據(jù)分布??紤]到目標(biāo)域的數(shù)據(jù)體量往往遠(yuǎn)小于預(yù)訓(xùn)練域,因而數(shù)據(jù)高效是必不可少的假設(shè)。此外,從實(shí)用的角度看,模型必須能夠適應(yīng)隨時(shí)變化的域,因而終身學(xué)習(xí)是必須。
- 無限粒度性:解決方案為開放域識(shí)別算法。無限粒度性包含開放域特性,是更高的追求目標(biāo)。這個(gè)方向的研究還很初步,特別是業(yè)界還沒有能被普遍接受的開放域識(shí)別數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。這里最本質(zhì)的問題之一,是如何向視覺識(shí)別中引入開放域能力。可喜的是,隨著跨模態(tài)預(yù)訓(xùn)練方法的涌現(xiàn)(特別是2021年的CLIP),自然語言越來越接近成為開放域識(shí)別的牽引器,我相信這會(huì)是未來2-3年的主流方向。然而,我并不贊成在追求開放域識(shí)別的過程中,涌現(xiàn)出的各種zero-shot識(shí)別任務(wù)。我認(rèn)為zero-shot本身是一個(gè)偽命題,世界上并不存在也不需要zero-shot識(shí)別方法?,F(xiàn)有的zero-shot任務(wù),都是使用不同方法,將信息泄露給算法,而泄露方式的千差萬別,導(dǎo)致不同方法之間難以進(jìn)行公平對(duì)比。在這個(gè)方向上,我提出了一種被稱為按需視覺識(shí)別的方法,以進(jìn)一步揭示、探索視覺識(shí)別的無限粒度性。
這里需要做一個(gè)補(bǔ)充說明。由于數(shù)據(jù)空間大小和結(jié)構(gòu)復(fù)雜度的差異,至少到目前為止,CV領(lǐng)域還不能通過預(yù)訓(xùn)練模型直接解決域間差異的問題,但是NLP領(lǐng)域已經(jīng)接近了這一點(diǎn)。因此,我們看到了NLP學(xué)者們利用prompt-based方法統(tǒng)一了幾十上百種下游任務(wù),但是同樣的事情在CV領(lǐng)域并沒有發(fā)生。另外,在NLP中提出來的scaling law,其本質(zhì)在于使用更大的模型來過擬合預(yù)訓(xùn)練數(shù)據(jù)集。也就是說,對(duì)于NLP來說,過擬合已經(jīng)不再是一個(gè)問題,因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)集配合小型prompt已經(jīng)足以表征整個(gè)語義空間的分布。但是,CV領(lǐng)域還沒有做到這一點(diǎn),因此還需要考慮域遷移,而域遷移的核心在于避免過擬合。也就是說,在接下來2-3年,CV和NLP的研究重心會(huì)有很大的差異,因而將任何一個(gè)方向的思維模式生搬硬套在另一個(gè)方向上,都是很危險(xiǎn)的。
以下簡要分析各個(gè)研究方向