當前位置: 華文頭條 > 推薦

下一代人工智能,像人一樣思考

2024-06-27推薦

撰文 喬治·馬瑟(George Musser)

探索人工智能的夢想從來就不是創造一個能擊敗國際象棋大師的程式,或者搭建一個試圖破壞婚姻的聊天機器人。實際上,它讓我們以技術為鏡來反觀自身,從而更深刻地認識自我。研究者追求的不僅僅是人工智能,而是具備類人的適應力和創造力的通用人工智能(AGI)。

1、邁向通用人工智能

大語言模型(LLM)已經展現出遠超研究者預期的問題解決能力。但是,它們仍不時犯下可笑的錯誤,並缺乏開放學習的能力:一旦完成根據書籍、網誌和其他材料的訓練,它們的知識庫就會凍結。它們也不能透過專家設計的「機器人大學生測試」:無法完成大學教育,甚至幼稚園教育也不行。

這些系統唯一真正解決的AGI問題是語言。它們擁有所謂的「形式表達能力」:LLM能解析你提供的所有句子,即使是只言片語或俚語它也能搞明白,還能以類似維基百科的標準英語作出回復。但是,它們不具備那些能夠幫助我們處理日常生活的思維能力。「我們不應該期望它們能夠思考,」麻省理工學院的神經科學家南茜·坎威舍說,「它們是語言處理器。」LLM能熟練地操縱文字,但除了已經掌握的文本之外,它們並沒有與現實互動。

從這個意義上講,大語言模型只是模仿了大腦的語言能力,卻缺乏感知、記憶、導航、社會判斷等能力。我們的大腦灰質執行的功能互相重疊,既紛繁復雜又渾然一體——它們或廣泛分布在多個腦區,或局限於某個特定腦區。例如,那些大腦語言功能區中風的患者可能無法說話,但他們仍能夠像以前一樣做加減運算,創作交響曲,下棋,還能透過手勢交流。AI的開發者正將這類功能模組引入到他們的系統之中,希望使它們更加智能。

生成式預訓練變換器(GPT)的創造者OpenAI,透過外掛程式來幫助付費使用者完成數學運算、互聯網搜尋和其他查詢任務。每個外掛程式都有一個專用的,接受過預訓練的專業知識庫可供呼叫。其實,GPT的核心語言系統在某種意義上也是模組化的。OpenAI對GPT的架構嚴格保密,但眾多AI研究者推測,GPT由多達16個獨立的神經網絡或「專家」組成,這些「專家」透過匯集它們的輸出來回答使用者的問詢,但是匯集的工作機制尚不明確。2023年12月,總部位於法國巴黎的AI公司Mistral也釋出了一款基於「混合專家」架構(MoE)的開源模型,引發了巨大轟動。這種形式簡單的模組化架構,最主要優勢就是計算效率:訓練和執行16個較小的(神經)網絡比執行一個大型(神經)網絡更容易。「這個‘MoE架構’實作了兩全其美。」英國愛丁堡大學的AI研究員埃多阿多·蓬蒂說,「我們能得到一個擁有大量參數的系統,同時保持了小模型的效率。」

但是,模組化也帶來了問題。沒有人確切知道大腦的各個區域如何協同工作以創造出一個和諧的自我,更不用說機器如何去模仿這一點了。「語言系統是如何將資訊傳遞給邏輯推理系統或社會推理系統的?」麻省理工學院的神經科學家安娜·伊萬諾娃為此感到非常好奇,「這仍然是一個懸而未決的問題。」

一個大膽的假設是,意識是這一切的基礎。根據「全域工作空間理論」(GWT),意識對大腦來說就像是公司的員工會議,是一個為各個模組提供可以分享資訊並提供幫助的地方。當然,GWT並非意識的唯一理論,但AI研究者對它特別有興趣,因為它提出了一個大膽的假設,即意識對於高級智能至關重要。完成一個簡單或熟練的任務時,大腦可以自動執行。但是,當全新或者復雜的任務出現,並且超出了單一模組範疇時,我們需要意識到自己正在做什麽。

戈策爾等學者已經將GWT的工作空間融入了他們的AI系統。「我認為全域工作空間模型的核心理念將以許多種不同的形式出現,」他說。研究人員在AI系統中運用GWT,目的並不是制造有意識的機器。相反,他們只是透過在硬件上實作GWT來獲得類似人類的智能。

但是,在這個過程中,他們是否會在無意中創造出一個具有感覺和動機的有意識生命?GWT的提出者、加利福尼亞州拉荷亞神經科學研究所的伯納德·巴爾斯認為這不太可能。「有意識計算是一個絲毫沒有證據的假設,」他說。但如果AI研究者確實成功建立出了AGI,它們可能會對智能本身的架構和功能提供關鍵的洞察。

2、意識模型

GWT長期以來一直是神經科學和人工智能研究相互促進的典型案例。這個理論最早可以追溯到20世紀50年代,電腦科學家奧利弗·塞爾弗裏奇提出的「鬼域」影像辨識系統。他將該系統的模組類比於彌爾頓【失樂園】地獄中那些透過尖叫來吸引註意的惡魔。與塞爾弗裏奇同時代的研究者艾倫·紐厄爾則選擇了一個更安靜的隱喻,即一群數學家聚集在一塊黑板面前共同解決問題。這些比喻之後被認知心理學家所借鑒——20世紀80年代,巴爾斯提出了用GWT來解釋人類意識。「在我的整個職業生涯中,我從人工智能領域學到了很多,因為它基本上是我們擁有的唯一可行的理論平台。」他說。

巴爾斯的GWT啟發了孟菲斯大學的電腦科學家斯坦利·富蘭古連去構建一台有意識的電腦。無論富蘭古連的機器是否真的產生了意識——巴爾斯和富蘭古連本人對此表示懷疑——它至少復現了人類心理的一些獨特癖好。例如,當它的註意力從一件事轉移到另一件事時,它會遺失一些關鍵資訊,因此這台電腦在多工處理的表現和人類一樣糟糕。從20世紀90年代開始,法國巴黎法蘭西公學院的神經科學家斯坦尼斯拉斯·德阿納和讓-皮埃爾·尚熱試圖揭示GWT的神經連線模式。

在德阿納和尚熱的模型中,大腦的功能模組在大部份時間中獨立運作。但是,每隔十分之一秒左右,它們就會進行一次「員工會議」。這個會議是一個遵循既定規則的喊叫比賽:每個模組都有一些資訊需要送出,而它對該資訊越自信——例如,刺激與預期越是匹配,它就會喊得越響。一旦一個模組占據了上風,其他模組就會在下一刻安靜下來,而勝出者則會將該資訊放到一組公共變量之中,即工作空間。其他模組則會自行判斷資訊的有用性。「在這個有趣的過程中,模組之間既合作又競爭,每個模組都是解決問題不可或缺的一部份,」巴爾斯說。

工作空間不僅讓模組彼此通訊,而且提供了一個「論壇」,即使有些資訊不再被呈遞給感官,不同模組也可以在這個空間裏集體思考。「你可以獲得一些來自外部世界的東西——也許是一種轉瞬即逝的感覺,雖然它從感官中消失了,但它還會繼續在工作空間中回響。」德阿納說。這種協商式思考的能力對於解決涉及多個步驟或跨越一段時間的問題至關重要。德阿納在實驗室中對人類被試開展了實驗,他發現,當人類被試面臨上述問題時,他們必須有意識地思考。

GWT摒棄了在模組之間指派任務的老板,因為分配任務很難正確完成。在數學領域,委托(或者在不同參與者之間分配責任以實作最佳績效)屬於所謂的NP-困難問題,解決起來可能非常耗時。在許多存在「老板」的系統中,如OpenAI可能使用的混合專家架構,一個「門控」網絡負責分配任務,但它必須與模組們一起訓練,而且這個訓練過程極易崩潰。首先,它遇到了蓬蒂所稱的「先有蛋還是先有雞的問題」:因為模組依賴於門控,而門控又依賴於模組,所以訓練可能會陷入迴圈。其次,即使訓練成功,門控的分配機制也是一個黑匣子,其工作原理不透明。

2021年,卡內基-梅隆大學的數學家和榮譽退休教授曼努埃爾·布林和萊諾爾·布林夫婦詳細闡述了一種全域工作空間中的註意力爭奪機制。這個機制能夠確保模組不會過分自信地提供資訊,從而防止「吹牛大王」長期霸占工作空間。同時,模組之間還可以發展出繞過工作空間的直接連線。這種「捷徑小道」可以解釋我們學習騎單車或演奏樂器時的認知加工過程:一旦我們學會了騎車或演奏,參與的模組們就會產生直接連線,它們會將任務離線處理,不再需要意識的參與。「它將需要短期記憶參與的加工過程轉變為了無意識的加工過程。」萊諾爾·布林說。

這是因為有意識地註意是一種稀缺資源。工作空間中的資訊儲存容量有限,所以勝出的模組在向其他模組傳輸內容時,必須極具選擇性。這聽起來像是一個有缺陷的設計。「大腦為什麽對可以同時思考的事情數量做這樣的限制?」加拿大蒙特利爾大學的AI研究者約書亞·本希奧抱有這樣的疑問。但他認為這種限制是一件好事:它強化了認知的法則和紀律——由於世界的復雜性難以被全部追蹤,所以我們的大腦必須辨識出復雜現象背後的簡單規則。「這個瓶頸迫使我們去理解世界的運作機制,」他說。

對本希奧來說,GWT對AI的重要啟發是:今天的人工神經網絡過於強大,反而不利於自身發展——它們擁有數十億甚至數萬億的參數,足以容納海量的互聯網內容;但是,它們傾向於陷入細枝末節而忽略從這些內容中蒸餾出更為通用的機制。如果它們要以更類似人類意識思維的方式運作,使其龐大的知識庫透過一個狹窄的漏鬥,也許會更好。

3、讓AI「學會」選擇

本希奧在接觸GWT之前,就已經開始努力將這種「類意識瓶頸」融入AI系統之中了。在21世紀10年代初期,由於我們的大腦會選擇性地註意一個資訊片段,並暫時忽略其他所有資訊,受到這一啟發,本希奧和他的同事在神經網絡中構建了一個類似的過濾器。例如,當一個語言模型(比如GPT)遇到一個代詞,它需要找到這個詞的指代物件,一般是透過突顯出臨近的名詞並抑制其他詞性的詞來實作。實際上,它「把註意力給到了」理解文本所需的關鍵詞。當然,代詞也可能與形容詞、動詞等相關聯,神經網絡的不同部份可以同時關註不同的詞語關系。

但是本希奧發現,這種註意力機制帶來了一個小問題。如果神經網絡完全忽略某些單詞,它會根據流程將對應於這些單詞的權重設零。這樣的突變就像把一個扳手扔進正在高速轉動的發動機裏一樣,會擾亂反向傳播這一訓練神經網絡的標準程式。反向傳播透過神經網絡的輸出來追溯產生它的計算,如果輸出是錯誤的,那麽就可以修正產生該錯誤的計算。但是,權重設零帶來的突變會幹擾溯源。

據此,本希奧和同事發明了「軟註意力機制」——神經網絡具有選擇性,但並不做極端選擇。當判斷一個代詞可能會與哪些單詞有關時,該機制會為不同選項賦予非零的權重。盡管一些單詞的權重會比其他單詞更高,但所有單詞都不會被淘汰出局。「你得到80%的這個,20%的那個,因為這些註意力分配的權重是連續的,那麽就不影響反向傳播的微積分操作,」本希奧解釋道。這種軟註意力機制是變換器架構——GPT中的「T」的關鍵創新。

近年來,本希奧重新審視了這種方法以建立一個更為嚴格的「瓶頸」。他認為,想要讓網絡獲得真正的理解能力,這一步至關重要。一個真正的全域工作空間必須做出硬性選擇,因為它沒有足夠的容量跟蹤所有選項。2021年,本希奧和他的同事設計了一個被稱為「生成流」的網絡,它會周期性地從可用選項中做出選擇,每個選項的中選概率由其註意力權重決定。他透過前向或反向傳播來訓練網絡,而不僅僅依賴於反向傳播。這樣一來,即使出現權重突變,該網絡仍可以回頭去修正產生錯誤輸出的計算。透過一系列實驗,本希奧已經證明,該系統針對輸入數據產生的高級表征與我們的大腦產生的表征類似。

4、跨模態對話

實作全域工作空間的另一個挑戰是高度專業化。就像大學裏不同院系的教授們一樣,大腦的各個模組創造了彼此無法理解的術語。視覺模組產生了抽象概念,讓其能夠處理來自眼睛的輸入資訊;聽覺模組則發展出與內耳振動訊號相匹配的表征。那麽它們如何彼此通訊呢?它們必須找到某種通用語或者亞里士多德口中的「共通感」——也是現代英語中「常識」一詞的原始含義。這種需求在各大科技公司最近推出的「多模態」網絡中尤為迫切,因為這種AI模型能將文本與影像以及其他形式的數據結合使用。

在德阿納和尚熱的GWT版本中,模組之間依靠神經元形成連線,後者透過調整它們的突觸來將輸入轉換成本地方言。「它們將輸入轉化為自己的程式碼,」德阿納說。但細節仍然模糊不清。事實上,他希望AI研究者在解決人工神經網絡的類似問題時,能夠為神經科學提供線索。「工作空間更像是一個想法,甚至還談不上是一個理論。我們正在試圖將其變成理論,但它仍然有很多未知。而工程師們有非凡的才能將其變成一個工作系統。」德阿納說。

2021年,位於日本東京的AI公司Araya的創始人、神經科學家金井良太與跨學科進入AI領域的神經科學家、法國圖盧茲大學的呂芬·旺呂朗提出了一種讓人工神經網絡完成轉譯的新方法。他們從類似谷歌轉譯這樣的語言轉譯系統中獲得了靈感,這些系統是迄今為止AI取得的最令人印象深刻的成就之一。它們無需外部幫助就能完成自己的工作。例如,我們並不需要告訴這些系統英語中的「love」和法語中的「amour」具有相同的含義;相反,它們獨立學習英語和法語,然後透過它們所學到的語言來推斷出哪個單詞在法語中扮演著與「love」在英語中相同的角色。

假設你分別用英語和法語訓練了兩個神經網絡,每個網絡都掌握各自語言的結構。在網絡內部,一個被稱為潛空間的內在表征,即「詞雲」將被構建出來。在詞雲裏,意義相似的單詞聚集在一起,而不相關的單詞則各自分開,從而形成該語言中所有單詞的關聯圖。顯然,詞雲具有獨特的形狀,但是對於不同的語言來說,詞雲形狀卻是相同的,因為最終都被用來描述相同的世界。因此,你需要做的只是將英語和法語的詞雲旋轉直到它們對齊。此時,你會發現「love」與「amour」對齊。金井說:「我們不需要詞典,僅僅只需要找到正確的旋轉方式來對齊所有點,就可以得到每種語言的所有單詞在潛空間中的位置。」

因為這個流程不僅適用於單詞,也可以套用於整個段落,所以它可以處理在意義上有細微差異,在另一種語言中沒有直接對應詞的單詞。由此,它可以轉譯像英語與漢語這樣毫無關聯的語言,甚至可被用於動物之間的交流。

旺呂朗和金井認為,這一流程不僅可以用於語言之間的轉譯,還可以在不同的感官和描述模態之間進行轉譯。「透過獨立訓練影像處理系統和語言處理系統,然後透過對齊它們的潛空間來將它們融合在一起,」金井解釋道。與語言類似,因為影像系統和語言系統基本上都指向相同的世界,所以跨模態的轉譯成為可能。而這一洞察正是德阿納所希望的:AI研究為揭示大腦的工作原理提供線索。「神經科學家從未設想過對齊潛空間的可能性,」金井說。

要了解這些原理如何被付諸實踐,金井與現在在微軟工作的阿瑟·尤利亞尼,以及Araya的笹井俊太郎一起,研究了谷歌DeepMind在2021年釋出的感知者模型。該模型旨在將文本、影像、音訊和其他模態的數據融合到一個共同的潛空間中。2022年,谷歌將其整合到了一個自動生成短影片內容描述的系統中。Araya的團隊進行了一系列實驗,探究了感知者模型的工作原理。他們發現,雖然感知者並沒有專門將全域工作空間設計進系統,但它具有全域工作空間的特征:獨立的模組、在模組中進行選擇的程式,以及工作記憶,即工作空間本身。

一個特別值得關註的、實作了類似工作空間功能的程式,是由位於捷克布拉格的AI公司GoodAI制作的遊戲AI People。這個即將釋出的遊戲類似【模擬人生】,我去年夏天看到的版本,將舞台設定在了一個充滿囚犯、腐敗看守和認真的心理醫生的監獄裏,但該公司也計劃設計更平糊的場景。該遊戲使用GPT作為遊戲角色的大腦。GPT不僅控制它們的對話,還控制它們的行為和情感,使其具有一定的心理活動;同時,系統會追蹤它們是否生氣、悲傷或焦慮,並據此為其選擇對應的行為。開發者添加了其他模組,如表現為短時記憶形式的全域工作空間,從而賦予遊戲角色前後一致的心理並讓它們在遊戲環境中行動。

5、提取抽象表征

AI領域另一個可能的重大突破來自Meta的研究員楊立昆。盡管他沒有直接參照全域工作空間作為他的靈感來源,在挑戰生成模型——GPT中的「G」的霸權時,他透過自己的方式也獲得了與GWT類似的想法。「我反對在當前AI或機器學習社區非常流行的一系列觀念,」楊立昆說,「我在跟所有人說:放棄生成模型。」

生成式神經網絡之所以這樣命名,是因為它們基於訓練內容來生成新的文本和影像。為了實作這個目標,神經網絡必須對細節非常在意:它們必須知道如何在句子中拼寫每個單詞,如何在影像中放置每個像素。但是,智能的本質其實是選擇性忽略細節。由此,楊立昆主張研究者們重新回到現在已不那麽時髦的「辨別式」神經網絡技術,例如那些透過感知輸入之間的差異來辨識影像的神經網絡。這些網絡不會自行構建影像,而只是處理現有影像並分配標簽。

基於此,楊立昆建立了一種特殊的訓練方案,使辨別式網絡能夠提取文本、影像和其他模態數據的關鍵特征。它可能無法自動完成句子,但它可以建立類似於我們大腦產生的抽象表征,這正是楊立昆所希望的。例如,如果輸入訊號是一輛汽車在道路上行駛的影片,由此產生的抽象表征應該捕捉到汽車的品牌、型號、顏色、位置和速度,同時省略道路表面的凹坑、水坑上的漣漪、路邊草葉上的光芒——除非我們特別關註它們,否則我們的大腦會自動忽略這些無關緊要的細節。「所有那些無關緊要的細節都被消除了,」楊立昆解釋說。

這些被精簡的表征本身並沒有用處,但它們使得AGI必需的一系列認知功能成為可能。楊立昆將辨別式網絡嵌入到一個更大的系統中,使其成為類腦架構的一個模組。該架構包含GWT的關鍵特征,例如短時記憶和一個用來協調模組並確定工作流程的「配置器」。「我受到了心理學底層知識的極大啟發,」楊立昆說。正如人類的大腦可以進行思想實驗,想象不同情況下人會有什麽不同的感受一樣,配置器也會多次執行辨別式網絡,羅列出一系列可能的行動,以找到能實作期望結果的最優方案。

楊立昆說,他更傾向於避免給「什麽是意識」下結論,但他提出了一個他稱之為意識的「通俗理論」:配置器的工作即意識,它所扮演的角色,類似於巴爾斯理論中的全域工作空間。

6、尋找真正的智能

如果研究者成功在AI系統中構建了真正的全域工作空間,那麽這是否會使AI具有意識?德阿納對此持肯定態度,特別是當GWT結合了自我監督能力的時候。但巴爾斯卻不這麽認為,部份原因是他對自己的理論仍然不完全信服:「我對GWT是否真的那麽好,一直持懷疑態度。」在他看來,意識是生物特有的功能,它僅僅存在於具有特定生物構造的機體之中。富蘭古連在幾年前接受我的采訪時表達了類似的懷疑。他認為,全域工作空間是自然演化為滿足身體的需要而給出的答案。大腦依靠意識從經驗中學習以迅速解決生存的復雜問題,但是,這種能力與AI通常需要應對的問題類別並無關系。「它必須是一個擁有真正心靈和控制結構的自主代理。」他告訴我,「那個代理必須經歷生活本身——這並不意味著它不能是一個機器人,但它必須經歷成長,而不是全知全能地降臨到這個世界。」

英國薩塞克斯大學的神經科學家阿尼爾·施夫也有類似的觀點。「意識不僅僅關乎聰明,」他說,「活著也同樣重要。無論通用人工智能多麽聰明,但如果它們不是活的,就不太可能有意識。」

施夫更傾向於支持被稱為預測處理(也稱作預測編碼)的意識理論。這個理論強調意識試圖透過預測即將發生的事情,為未來做準備。「理解有意識的自我,應該從理解控制身體的預測模型為起點,」他說。施夫主要關註意識的資訊整合理論,這是一個和GWT相競爭的、關於意識的主流理論。這一理論未將意識與大腦的功能聯系起來,而是將其與復雜的網絡結構聯系起來,即具有同樣復雜結構的機器也能產生意識。根據這一理論,意識並非智能不可或缺的組成部份,而是出於提升生物效率的理由才出現。

AI是一個理念豐富的領域,工程師們已經獲得了很多可以跟進的線索,無需等待神經科學的新發現。哥倫比亞大學的神經科學家尼古勞斯·克里格史葛說:「他們做得足夠好了!」但是,大腦仍然是通用智能的現實證據,而且至少在目前,是AI研究者能擁有的最佳模型。「人類大腦擁有一些工程尚未攻克的秘密,」克里格史葛說。

在過去幾十年裏,對AGI的孜孜不倦的探尋教會了我們很多關於自身智能的事情。現在我們認識到,我們認為簡單的任務,如視覺資訊加工,實際上需要海量的計算;而我們認為困難的事情,如數學和國際象棋,實際上很容易。我們還認識到,大腦幾乎不需要任何「預裝」知識。它幾乎可以透過體驗學習到它所需要知道的一切。現在,透過了解模組化的重要性,我們正在逐漸明白一個古老的智慧:沒有任何一個東西叫做智能。它只是一套裝滿各種能力的工具箱而已——從抽象思維到導航,從適應復雜的社會到對視覺和聲音的處理。正如戈策爾所說的那樣,透過混合和匹配這些多樣化的技能,我們的大腦可以在我們從未遇到過的領域取得勝利。我們創造了新的音樂類別,解決了前一代人無法想象的科學謎題。如今,我們踏入了一個全新的未知之地——也許有朝一日,我們的AI表親會與我們互相協助,共同前進。

圖文由【環球科學】雜誌社供稿

(本文譯者劉嘉是清華大學社科學院心理學系、腦與智能實驗室基礎科學講席教授,北京智源人工智能研究院首席科學家)