久久机热这里有精品,熟妇一二三区,久久久久成人网

計(jì)算機(jī)視覺識(shí)別領(lǐng)域的發(fā)展如何？華為天才少年謝凌曦分享了萬字長文，闡述了個(gè)人對(duì)其的看法。

最近，我參加了幾個(gè)高強(qiáng)度的學(xué)術(shù)活動(dòng)，包括CCF計(jì)算機(jī)視覺專委會(huì)的閉門研討會(huì)和VALSE線下大會(huì)。經(jīng)過與其他學(xué)者的交流，我產(chǎn)生了許多想法，千頭萬緒，便希望把它們整理下來，供自己和同行們參考。當(dāng)然，受限于個(gè)人的水平和研究范圍，文章中一定會(huì)存在許多不準(zhǔn)確甚至錯(cuò)誤的地方，當(dāng)然也不可能覆蓋所有重要的研究方向。我期待與有興趣的學(xué)者們進(jìn)行交流，以充實(shí)這些觀點(diǎn)，更好地探討未來發(fā)展方向。

在這篇文章中，我將會(huì)著重分析計(jì)算機(jī)視覺領(lǐng)域，特別是視覺感知（即識(shí)別）方向所面臨的困難和潛在的研究方向。相較于針對(duì)具體算法的細(xì)節(jié)改進(jìn)，我更希望探討當(dāng)前算法（尤其是基于深度學(xué)習(xí)的預(yù)訓(xùn)練+微調(diào)范式）的局限性和瓶頸，并且由此得出初步的發(fā)展性結(jié)論，包括哪些問題是重要的、哪些問題是不重要的、哪些方向值得推進(jìn)、哪些方向的性價(jià)比較低等。

在開始之前，我先畫出如下思維導(dǎo)圖。為了尋找合適的切入點(diǎn)，我將從計(jì)算機(jī)視覺和自然語言處理（人工智能中兩個(gè)最受的研究方向）的區(qū)別開始談起，引出圖像信號(hào)的三個(gè)根本性質(zhì)：信息稀疏性、域間差異性、無限粒度性，并將它們與幾個(gè)重要的研究方向相對(duì)應(yīng)。這樣，我們就能更好地了解每個(gè)研究方向所處的狀態(tài)：它已經(jīng)解決了哪些問題、還有哪些重要的問題沒有解決，然后針對(duì)性地分析今后的發(fā)展趨勢(shì)。

導(dǎo)圖：CV和NLP的差異、CV三大挑戰(zhàn)及應(yīng)對(duì)方法

CV的三大基本困難和對(duì)應(yīng)研究方向一直以來，NLP都走在CV的前面。不論是深度神經(jīng)網(wǎng)絡(luò)超越手工方法，還是預(yù)訓(xùn)練大模型開始出現(xiàn)大一統(tǒng)的趨勢(shì)，這些事情都先發(fā)生在NLP領(lǐng)域，并在不久之后被搬運(yùn)到了CV領(lǐng)域。這里的本質(zhì)原因是NLP的起點(diǎn)更高：自然語言的基礎(chǔ)單元是單詞，而圖像的基礎(chǔ)單元是像素；前者具有天然的語義信息，而后者未必能夠表達(dá)語義。從根本上說，自然語言是人類創(chuàng)造出來，用于存儲(chǔ)知識(shí)和交流信息的載體，所以必然具有高效和信息密度高的特性；而圖像則是人類通過各種傳感器捕捉的光學(xué)信號(hào)，它能夠客觀地反映真實(shí)情況，但相應(yīng)地就不具有強(qiáng)語義，且信息密度可能很低。

從另一個(gè)角度看，圖像空間比文本空間要大得多，空間的結(jié)構(gòu)也要復(fù)雜得多。這就意味著，如果希望在空間中采樣大量樣本，并且用這些數(shù)據(jù)來表征整個(gè)空間的分布，采樣的圖像數(shù)據(jù)就要比采樣的文本數(shù)據(jù)大許多個(gè)數(shù)量級(jí)。順帶一提，這也是為什么自然語言預(yù)訓(xùn)練模型比視覺預(yù)訓(xùn)練模型用得更好的本質(zhì)原因——我們?cè)诤竺孢€會(huì)提到這一點(diǎn)。

根據(jù)上述分析，我們已經(jīng)通過CV和NLP的差別，引出了CV的第一個(gè)基本困難，即語義稀疏性。而另外兩個(gè)困難，域間差異性和無限粒度性，也多少與上述本質(zhì)差別相關(guān)。正是由于圖像采樣時(shí)沒有考慮到語義，因而在采樣不同域（即不同分布，如白天和黑夜、晴天和雨天等場景）時(shí)，采樣結(jié)果（即圖像像素）與域特性強(qiáng)相關(guān)，導(dǎo)致了域間差異性。同時(shí)，由于圖像的基本語義單元很難定義（而文本很容易定義），且圖像所表達(dá)的信息豐富多樣，使得人類能夠從圖像中獲取近乎無限精細(xì)的語義信息，遠(yuǎn)遠(yuǎn)超出當(dāng)前CV領(lǐng)域任何一種評(píng)價(jià)指標(biāo)所定義的能力，這就是無限粒度性。

關(guān)于無限粒度性，我曾經(jīng)寫過一篇文章，專門討論這個(gè)問題。https://zhuanlan.zhihu.com/p/376145664

以上述三大基本困難為牽引，我們將業(yè)界近年來的研究方向總結(jié)如下：

語義稀疏性：解決方案為構(gòu)建高效計(jì)算模型（神經(jīng)網(wǎng)絡(luò)）和視覺預(yù)訓(xùn)練。此處的主要邏輯在于，想要提升數(shù)據(jù)的信息密度，就必須假設(shè)數(shù)據(jù)的非均勻分布（信息論）并對(duì)其建模（即學(xué)習(xí)數(shù)據(jù)的先驗(yàn)分布）。目前，最為高效的建模方式有兩類，一類是通過神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)，來捕捉數(shù)據(jù)無關(guān)的先驗(yàn)分布（例如卷積模塊對(duì)應(yīng)于圖像數(shù)據(jù)的局部性先驗(yàn)、transformer模塊對(duì)應(yīng)于圖像數(shù)據(jù)的注意力先驗(yàn)）；一類是通過在大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練，來捕捉數(shù)據(jù)相關(guān)的先驗(yàn)分布。這兩個(gè)研究方向，也是視覺識(shí)別領(lǐng)域最為基礎(chǔ)、受到最多的研究方向。
域間差異性：解決方案為數(shù)據(jù)高效的微調(diào)算法。根據(jù)以上分析，網(wǎng)絡(luò)體量越大、預(yù)訓(xùn)練數(shù)據(jù)集體量越大，計(jì)算模型中存儲(chǔ)的先驗(yàn)就越強(qiáng)。然而，當(dāng)預(yù)訓(xùn)練域和目標(biāo)域的數(shù)據(jù)分布具有較大差異時(shí)，這種強(qiáng)先驗(yàn)反而會(huì)帶來壞處，因?yàn)樾畔⒄摳嬖V我們：提升某些部分（預(yù)訓(xùn)練域）的信息密度，就一定會(huì)降低其他部分（預(yù)訓(xùn)練域沒有包含的部分，即預(yù)訓(xùn)練過程中認(rèn)為不重要的部分）的信息密度?，F(xiàn)實(shí)中，目標(biāo)域很可能部分或者全部落在沒有包含的部分，導(dǎo)致直接遷移預(yù)訓(xùn)練模型的效果很差（即過擬合）。此時(shí)，就需要通過在目標(biāo)域進(jìn)行微調(diào)來適應(yīng)新的數(shù)據(jù)分布?？紤]到目標(biāo)域的數(shù)據(jù)體量往往遠(yuǎn)小于預(yù)訓(xùn)練域，因而數(shù)據(jù)高效是必不可少的假設(shè)。此外，從實(shí)用的角度看，模型必須能夠適應(yīng)隨時(shí)變化的域，因而終身學(xué)習(xí)是必須。
無限粒度性：解決方案為開放域識(shí)別算法。無限粒度性包含開放域特性，是更高的追求目標(biāo)。這個(gè)方向的研究還很初步，特別是業(yè)界還沒有能被普遍接受的開放域識(shí)別數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。這里最本質(zhì)的問題之一，是如何向視覺識(shí)別中引入開放域能力。可喜的是，隨著跨模態(tài)預(yù)訓(xùn)練方法的涌現(xiàn)（特別是2021年的CLIP），自然語言越來越接近成為開放域識(shí)別的牽引器，我相信這會(huì)是未來2-3年的主流方向。然而，我并不贊成在追求開放域識(shí)別的過程中，涌現(xiàn)出的各種zero-shot識(shí)別任務(wù)。我認(rèn)為zero-shot本身是一個(gè)偽命題，世界上并不存在也不需要zero-shot識(shí)別方法?，F(xiàn)有的zero-shot任務(wù)，都是使用不同方法，將信息泄露給算法，而泄露方式的千差萬別，導(dǎo)致不同方法之間難以進(jìn)行公平對(duì)比。在這個(gè)方向上，我提出了一種被稱為按需視覺識(shí)別的方法，以進(jìn)一步揭示、探索視覺識(shí)別的無限粒度性。

這里需要做一個(gè)補(bǔ)充說明。由于數(shù)據(jù)空間大小和結(jié)構(gòu)復(fù)雜度的差異，至少到目前為止，CV領(lǐng)域還不能通過預(yù)訓(xùn)練模型直接解決域間差異的問題，但是NLP領(lǐng)域已經(jīng)接近了這一點(diǎn)。因此，我們看到了NLP學(xué)者們利用prompt-based方法統(tǒng)一了幾十上百種下游任務(wù)，但是同樣的事情在CV領(lǐng)域并沒有發(fā)生。另外，在NLP中提出來的scaling law，其本質(zhì)在于使用更大的模型來過擬合預(yù)訓(xùn)練數(shù)據(jù)集。也就是說，對(duì)于NLP來說，過擬合已經(jīng)不再是一個(gè)問題，因?yàn)轭A(yù)訓(xùn)練數(shù)據(jù)集配合小型prompt已經(jīng)足以表征整個(gè)語義空間的分布。但是，CV領(lǐng)域還沒有做到這一點(diǎn)，因此還需要考慮域遷移，而域遷移的核心在于避免過擬合。也就是說，在接下來2-3年，CV和NLP的研究重心會(huì)有很大的差異，因而將任何一個(gè)方向的思維模式生搬硬套在另一個(gè)方向上，都是很危險(xiǎn)的。

以下簡要分析各個(gè)研究方向

欧美日韩国产精品另类,国产操逼在线,国产美女诱惑视频,久色网网址,日韩三级久久,久久人妻精品,本道天堂久久精品,香蕉尹人在线,可以在线看A

華為天才少年謝凌曦：關(guān)于視覺識(shí)別領(lǐng)域發(fā)展的個(gè)人觀點(diǎn)！

華為天才少年謝凌曦：關(guān)于視覺識(shí)別領(lǐng)域發(fā)展的個(gè)人觀點(diǎn)！