倍可親

AI研究前沿--視覺真相:眼見為虛

作者:change?  於 2023-6-6 23:56 發表於 最熱鬧的華人社交網路--貝殼村

通用分類:其它日誌




科學家們已經建立了一個新的人工智慧系統,可以重寫計算機視覺的規則。 

它可能很快就會顛覆神經科學 

 

如果大腦只是簡單地處理傳入的線索,它如何快速將模稜兩可的數據轉化為物體和場景的連貫表示? 

 

從科學角度來說,什麼是常識?我們大多數人都可以聯繫起來但難以定義的關鍵事物是什麼? 

 

大腦可能比我們一直認為的更有創造力。它不僅處理傳入的信息,還試圖推斷其背後的原因 

 

一個----根據 2017 年洛克菲勒UNIV.的一項研究,人眼可以檢測到的最小光子數量。 

第二名---人眼在身體器官複雜性方面的排名。只有大腦先於它。 

十三---人腦看到圖像所需的毫秒數 

 

 

這張照片是明確無誤的:一個辣椒切成兩半。然而,當溫里希·弗賴瓦爾德 (Winrich Freiwald) 在最近的一次演講中將它投射到大屏幕上時,聽眾們爆發出輕聲的咯咯笑聲。 
 
因為雖然只有一半的蔬菜,但幾乎不可能不看到其他東西——一張陰森森的綠色臉孔,眼睛是洞,牙齒是種子,焦急地盯著前方。 「我們非常清楚這是一種胡椒,」Freiwald 說,他的長腿在洛克菲勒卡斯帕里禮堂的舞台上來回踱步。 「但我們不能不看到臉。」 
 
這不是我們的錯;我們的大腦配備了神經機器,其唯一任務是感知和識別面孔。這個內部面部檢測器從不休息——每當某些複雜的圖案撞擊視網膜時,它就會被激活(參見下面的「為什麼月球上有一個人」)。對神經科學家來說,這種現象不僅滑稽而且重要。胡椒臉,以及許多類似的錯覺,說明了關於大腦及其與我們周圍世界的關係的深刻奧秘。視覺可能是對大腦功能的最好理解,但我們似乎誤解了大腦從視覺輸入中獲取意義的方式。 

 

「這樣的例子表明,當我們看到某樣東西時,大腦所做的不僅僅是記錄光,」Freiwald 說,他指的是教科書中對我們如何看的描述:光從物體上反射回來,撞擊視網膜,沿著視野放大視神經,瞧,大腦將電信號轉換成茶杯。一方面,這種對視覺系統的規範理解並不能解釋胡椒種子並不總是胡椒種子但在某些情況下可以註冊為牙齒的事實。如果大腦只是簡單地處理傳入的線索,它如何快速將模稜兩可的數據轉化為物體和場景的連貫表示,比如當你在一張模糊的舊照片中認出祖母歡快的臉時? 
 
越來越多的科學家轉向完全不同的觀點,Freiwald 就是其中之一,他們認為我們所看到的不僅僅是外面事物的反映。它更類似於一種心理建構,認知科學家稱之為推理。 「我們認為大腦有某種內部組件,不僅可以檢測傳入的刺激,還可以產生它們,」他解釋道。 「從某種意義上說,大腦一直在產生幻覺。」 

 

幾年前,Freiwald 與計算認知科學家 Joshua B. Tenenbaum 和 Ilker Yildirim 合作,他們提出了一個系統想法來測試這種視覺生成理論。科學家們一起著手構建一種新型人工智慧,以探索我們識別面孔或其他物體的過程是否始於大腦本身。他們想知道的事情之一是,是否可以對機器進行編程以匹配生物實驗中的觀察結果。如果可以的話,將對神經科學產生深遠的影響。人們逐漸清楚,他們的工作可能會產生連鎖反應:機器不僅比我們思考得更快,而且在認知層面上的行為更像我們,這可能有助於推動從開發更安全的自動駕駛汽車到減緩氣候變化等各方面的進步. 
 
但很大程度上取決於科學家們學到了什麼。 
 
面孔是人類感知的精英類別。它們是我們在嬰兒時期學會看的第一件事,隨著年齡的增長,我們的社會功能在很大程度上依賴於識別家庭成員、朋友和敵人以及閱讀與我們互動的人的面部表情的能力。這可能就是為什麼人類和其他靈長類動物進化出專門的腦細胞來識別面孔的原因。 「這是對神經元的一種非常低效的使用,」Freiwald 說。以至於當他在研究生學習期間第一次聽說這種現象時,他拒絕了這個想法。 「我認為,這對大腦來說不是一個優雅的解決方案,」他說。 「讓神經元只對一個對象類別做出反應而不對其他類別做出反應?這很奇怪。 

就連在 1970 年代首次發現面部神經元的普林斯頓大學認知神經科學家查爾斯·G·格羅斯 (Charles G. Gross) 也感到困惑。又過了二十年,麻省理工學院神經科學家 Nancy Kanwisher 才確定梭形面部區域,這是大腦顳下皮層中專門用於面部識別的區域。 Freiwald 在 Kanwisher 的實驗室接受博士后培訓,然後加入哈佛醫學院的 Margaret Livingstone,在那裡他與當時的同事 Doris Tsao 合作,將大腦成像研究與單個神經元的記錄結合起來。科學家們最終發現了一個由六個豌豆大小的斑塊組成的網路,這些斑塊幾乎完全由面部神經元組成。 
 
從那時起,Freiwald 就能夠非常詳細地描述這些斑塊的特徵。他實驗室的發現之一是每個貼片處理不同維度的面部信息。例如,在第一個被激活的貼片中,神經元對面部特徵很敏感,例如人眼之間的距離。在中間的一個斑塊中,神經元編碼方向——一些喜歡右側輪廓;其他半個人資料。最後一個補丁中的神經元對整個面孔做出反應,無論它們的方向如何。 
 
在破譯了面部貼片的功能后,Freiwald 能夠繪製一張面部在大腦中移動的路線圖,將視覺輸入轉化為可識別的物體。一路上,他看到了他無法解釋的事情。 
 
在一組實驗中,Freiwald 的團隊展示了獼猴從不同角度看到的人臉渲染圖,同時監測面部貼片內的神經元活動。正如科學家們所預料的那樣,在中間的一個斑塊中,神經元對從不同角度看到的同一張臉的照片有不同的反應。但有一個奇怪的例外:當猴子看到鏡面反射的姿勢時——比如,一張臉從中心向左轉 45 度的照片,而另一張同樣的臉向相反方向轉 45 度——神經元的反應就好像這兩個圖片是一樣的。 
 
這種鏡像對稱效應是一個謎。在現實生活中,面孔不會突然從左跳到右;而是突然從左跳到右。他們從一個姿勢旋轉到另一個姿勢。 Freiwald 和他的同事無法解釋,至少不能在視覺工作原理的傳統框架內解釋為什麼神經元被編程為鏡像對稱。關於大腦的連接方式,我們是否從根本上犯了錯誤? 
 
「我無法創造的東西,我不明白,」理論物理學家理查德·P·費曼 (Richard P. Feynman) 有句名言。對於認知神經科學家來說,了解大腦如何運作的一種方法是創建模擬其計算原理的人工智慧系統。 

一次吉祥的邂逅讓弗萊瓦爾德有機會做到這一點。 2013 年,他來到了新成立的大腦、思想和機器中心,這是一個位於麻省理工學院的多機構論壇,彙集了從事生物和人工智慧研究的科學家。在那裡,他第一次遇到並開始與 Tenenbaum 合作,Tenenbaum 是麻省理工學院的計算認知科學家,他的工作重點是了解大腦如何從感官數據中做出推論,而 Yildirim 是一名博士后研究員,由 Freiwald 和 Tenenbaum 共同指導,現在在該學院任職在耶魯大學。 
 
三位科學家一起開始設想一種新型人工智慧,可以通過訓練來識別人臉。與解鎖智能手機的系統類似,除了處理傳入的像素之外,它們還能夠進行推理並生成新數據。如果成功,它將提供一個實驗系統來研究人類的一些最難以捉摸的方面,比如我們如何毫不費力地達到我們對世界的常識性理解,如此豐富的細節和意義,而我們所要做的一切都是視覺的通常包含最少信息的線索。 
 
或者,正如 Tenenbaum 曾經說過的那樣:「人類如何從如此少的東西中獲得如此多的東西?」 
 
人工智慧正在悄悄進入我們的生活。它校對我們的電子郵件,整理我們的社交媒體信息,並檢查我們的信用卡是否存在欺詐活動。然而,與該技術承諾的未來相比,這算不了什麼:撰寫報紙文章、輔導學生、診斷疾病。 
 
事實上,已經有計算機視覺機器在檢測和分類皮膚癌方面優於醫生。與許多其他技術奇迹(Siri、聊天機器人、谷歌翻譯)一樣,它們依賴於深度神經網路,或深度網路,旨在像人腦中的神經元網路一樣運行的人工智慧系統。通常,計算機視覺中使用的深度網路反映了人類視覺的傳統理解,由輸入層和輸出層組成,中間有更多互連層。就像人類蹣跚學步的孩子一樣,這些系統可以通過基本上被告知他們正在看什麼來訓練以識別物體,並且它們不斷地重新校準內部連接,直到它們能夠正確地將數據中的模式與正確的答案相關聯。 

然而,亥姆霍茲的許多同時代人都駁斥了這個想法。儘管他的推理理論在 20 世紀後期在認知科學家中獲得了一些普及,但它從未真正起飛,部分原因是科學家無法將複雜的推理過程與生物視覺的極快速度相協調。 
 
這不是因為缺乏嘗試。 Yildirim 指出了最近基於推理方法構建生成式計算機視覺系統的努力。無論這些系統是如何設計的,它們都需要大量的迭代處理,這比大腦感知詳細場景所需的 100-200 毫秒要長得多。 「對於人工智慧專家和神經科學家來說,這個過程如此繁瑣和緩慢一直令人不安,」他說。 「沒有人相信這可能是大腦的工作方式,因為我們的感知幾乎是瞬間的。」 
 
該團隊有一個關於如何創建超強的生成式 AI 系統的想法。他們基本上結合了兩種方法的最佳特性——已建立的深度網路的速度和處理能力以及生成系統的推理能力——構建了一種新的計算機視覺機器,稱為高效逆向圖形網路或 EIG。目標是將其用作大腦面部感知機制的模型,「可以說是高級視覺研究最好的領域,」Yildirim 說。 

根據研究人員的說法,所有這些都表明大腦有一些真正非凡的東西:當我們看到一張臉、一個茶杯或任何其他東西時,我們的大腦會向物體注入一種解釋,產生比物體本身提供的更豐富的數據。這種推論可能會解釋我們如何能夠如此迅速地了解我們所看到的東西,從而可能為人類智能的一個關鍵方面提供一個秘訣,也許是人工智慧系統眾所周知缺乏的常識。 
 
「當你看到奧黛麗·赫本的照片時,你看到的不僅僅是二維排列,而是在推斷 3D 中的面孔,」Freiwald 說。 「然而,這些信息並不真正存在於圖片本身。我們從圖像中獲得更多是一種智慧。」 
 
這種智能的來源,或者說是什麼使這種推論成為可能,可以被認為是嵌入我們大腦的知識結構,它指導我們的感知、思考和行動。這種知識可能部分是在進化過程中形成的,部分是通過早期生活經驗形成的,例如當嬰兒通過掉落吸管杯來理解重力時。一旦我們弄清楚了這個基本的物理定律,這些知識就會與我們同在,並且在我們每次接住落下的盤子時都會被調用。 
 
Tenenbaum 最近在冷泉港實驗室的一次會議上說:「我們的思維圍繞著對物理對象和實體、其他人類和動物以及它們如何相互作用的世界的基本理解而構建。」這種現象有時被稱為「直覺理論」。 Tenenbaum 稱它們為我們的常識核心。 


A scientist in his office

Yildirim 結合了深度網路和 GPU 的最佳特性來構建團隊的新人工智慧。照片由馬修塞普蒂默斯拍攝。


「EIG 使我們向逆向工程人腦邁進了一步,」Yildirim 說,他目前正在教機器超越面部移動——識別整個身體、位置,甚至物理對象如何移動並對外力做出反應。 「這意味著我們也正走在最終提升人工智慧潛力的良好道路上。」 
 
計算機很聰明,除非它們很愚蠢。儘管人工智慧近年來取得了驚人的進步,但該領域的進展現在正面臨僵局。自動駕駛汽車不會很快在路上疾馳——只要它們在被肥皂泡欺騙時突然猛踩剎車。在我們相信它不會把貓放進洗碗機之前,任何家庭幫手機器人都不能上線。未來將告訴我們這些系統是否可以通過整合像 EIG 那樣的生成處理能力而變得更聰明。 
 
然而,對於 Freiwald 來說,同樣令人興奮的是 EIG 和類似系統可能為神經科學所做的事情。 「打造一台能夠像靈長類動物大腦一樣識別面孔的機器是一個巨大的里程碑,」他說。 「它向我們表明,我們已經正確地理解了大腦功能的這一方面,並​​且我們將能夠應用這些知識來更廣泛地研究大腦的功能。」 
 
因為我們如何看待一張臉可以從字面上和比喻上告訴我們很多關於我們如何看待世界的信息。如果知覺是由大腦塑造的,那麼它基本上就是一種認知行為。然後,面部處理現象本身就很吸引人,成為探索神經過程如何轉化為人性的切入點:大腦如何產生我們的思想、情感和行為,以及我們如何感知他人並適應社會環境。此外,這種看待大腦的新方法——作為我們世界模型的積極構建者——為研究自閉症譜系障礙和雙相情感障礙和精神分裂症等精神疾病背後的機制提供了新的框架。 
 
「現在還為時過早,」Tenenbaum 在會議期間指出。 「那是最激動人心的時刻。」 
 

A scientist in his office

Freiwald 非常詳細地描述了靈長類動物的面部感知系統。照片由馬修塞普蒂默斯拍攝。 
神經系統實驗室 
Winrich Freiwald 博士


Examples of pareidolia in a green pepper, house, and cup of coffee

人類非常擅長在無生命的物體中發現面孔,以至於心理學家給它起了一個詞:pareidolia。這種現象實際上並不局限於面孔;人們完全有能力在任何隨機的視覺模式中找到有意義的圖像(問問 20 世紀早期的心理分析師赫爾曼·羅夏),甚至在亂碼的聽覺刺激中找到人類語言(問問保羅·麥卡特尼)。研究表明,那些堅信更高的力量或超自然力量的人更有可能在他們的吐司中看到一張臉。


A rotating mask of a human face.


Boats floating above the ocean.


An illustration of a motor neuron.


A grid of gray lines and black dots.




高興

感動

同情

搞笑

難過

拍磚

支持

鮮花

評論 (0 個評論)

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-10-1 19:21

返回頂部