當前位置: 華文頭條 > 推薦

最新的理論表明,聊天機器人可以理解文本,這可以透過數學來證明

2024-01-24推薦

隨著技術的發展,像Bard和ChatGPT這樣的聊天機器人已經變得異常強大,能夠創造出極其接近人類的文本。這些機器人展現出了眾多的能力,但它們是否真正理解自己生成的內容,這一點讓許多研究人員感到困惑。在這方面,有不同的觀點:一些人認為這些人工智能模型的確能夠理解它們所表達的話語,而另一些人則認為這些模型只不過是在重復它們所接受的訓練,類似於「 隨機鸚鵡( stochastic parrots 」,並沒有真正的理解含義。

這個問題最初由華盛頓大學的計算語言學家艾米麗·本德(Emily Bender)在2021年的一篇論文中提出,她在論文中使用了「隨機鸚鵡」這個比喻來形容LLMs。本德認為,LLMs只是透過組合它們已經接觸過的資訊來生成文本,而沒有涉及到真正的意義理解。

針對這個問題,人工智能先驅傑夫·辛頓(Geoff Hinton)表示,現在是時候確定LLMs的理解程度了。他認為這個問題不僅僅是理論上的,因為只要人們對此持有不同的看法,就無法就LLMs可能帶來的危險達成共識。

在這方面,普林斯頓大學的Sanjeev Arora和谷歌DeepMind的研究科學家Anirudh Goyal提出了一個理論。他們認為,隨著LLMs規模的增大和訓練數據的增加,這些模型不僅在單個語言相關能力上有所提升,還能透過結合不同技能來發展新的能力。這種結合技能的方式暗示了一種理解,這些組合在訓練數據中是不太可能存在的。

這個理論為LLMs如何以及為什麽能夠發展出多種能力提供了 數學上的證明 ,這已經說服了包括辛頓在內的一些專家。當Arora和他的團隊對一些預測進行測試時,他們發現這些模型的行為幾乎完全符合預期。從各個方面來看,他們已經為LLMs不僅僅是重復它們之前接觸過的內容提出了有力的論據。

更多的數據,更強的力量

大型語言模型(LLM)展示出的多種意外能力實際上是超出了預期的。這些能力並不是從它們的構建或訓練方法中直接顯而易見的。LLM實質上是一個由眾多神經元連線組成的復雜神經網絡。 這些神經元之間的連線,也就是構成模型的參數,決定了LLM的整體規模。

在訓練LLM時,通常會用到部份隱藏資訊的句子。 例如,給出一個句子但最後一個詞被省略。LLM的任務是預測這個缺失的詞。 它會根據自己所掌握的詞匯量(比如一千個詞)來計算這個空白處可能出現每個詞的概率。然後從這些可能性中選擇最合適的詞來完成句子。

這說明LLM在其訓練過程中不僅學會了語言的基本結構,而且還發展出了一些預料之外的復雜能力。這些能力的出現並不是直接由它們的基本訓練任務決定的,而是隨著模型規模的增大而逐漸顯現的。

在大型語言模型的訓練初期,它可能不會總是正確地選擇單詞。為了改善這一點,訓練過程中引入了一個稱作 損失值 的概念,它基於模型生成的回答與正確答案之間在高維空間的差異。這個損失值用於指導模型調整其內部參數。

隨著這種調整,當模型再次嘗試預測同一句子中的單詞時,它能更精準地進行預測,從而產生更合理的概率分布,相應地,其損失值也會減少。這個過程將在訓練集中的大量句子上重復執行,直到模型的總體損失降到一個較低的水平。這種方法不僅套用於訓練數據中的句子,也用於評估和改進模型處理未見過的句子的能力。

經過訓練和測試的LLM,在面對一個新的文本提示時,會生成最有可能的下一個詞,將其添加到提示中,再生成另一個下一個詞,以此類推,產生一個看似連貫的回復。 但有一個關鍵點需要註意:在這個訓練過程中,並沒有明顯的跡象表明僅透過增加模型的規模——即增加參數數量和擴大訓練數據集——就能確保模型在需要進行邏輯推理的復雜任務上表現得更好。

將技能與文本聯系起來

阿羅拉和戈亞爾 合作,以分析的方式回答這類問題。

這兩位合作夥伴轉向了稱為 隨機圖( random graphs 的數學物件。圖是由點(或節點)透過線(或邊)連線起來的集合,在隨機圖中,任意兩個節點之間是否有邊是隨機決定的——比如,透過拋硬幣。硬幣可以有偏差,以便以某個概率p正面朝上。如果給定的一對節點硬幣正面朝上,則在這兩個節點之間形成一條邊;否則它們保持不連線。隨著p值的變化,圖的內容可能會出現突然的轉變。例如,當p超過某個閾值時,孤立節點——那些與任何其他節點都不相連的節點——會突然消失。

阿羅拉和戈亞爾意識到,隨機圖在達到某些閾值後會產生出乎意料的行為,這可能是模擬LLM行為的一種方式。神經網絡已經變得幾乎太復雜而無法分析,但數學家長期以來一直在研究隨機圖,並開發了各種工具來分析它們。也許隨機圖理論可以為研究人員提供一種理解和預測大型LLM顯然出乎意料的行為的方法。

在一項針對大型語言模型的研究中,研究團隊選擇了一種名為「 二分圖 」的方法。這種圖由兩種不同的節點組成。一種節點表示的是長度不同的文本部份,它們不僅限於單個詞匯,而可能包含從一個段落到幾頁文本的內容。這些文本相關的節點被安排在一條線上。

緊接著,在這些文本節點下方,另一組節點被置於另一條線上。這些節點代表了理解上面的文本所需的各種不同技能。 這些技能節點的範圍很廣泛,可以包括理解特定詞匯(如「因為」)的能力、數學運算能力,甚至是辨識文本中諷刺意味的能力等。 這樣的圖模型有助於分析和預測語言模型在處理復雜文本時的效能,特別是當涉及到理解文本中的隱含意義,比如諷刺,這可能會對整個文本的理解和詞語預測產生顯著影響。

在討論大型語言模型(LLM)的工作機制時,需要註意的一點是,這些模型的主要設計和訓練目標是為了更準確地預測接下來的詞語,而不是專門訓練它們去掌握或測試特定的語言技能。換句話說,LLM的核心任務是基於已有的文本來預測下一個最可能的詞匯,而不是直接學習如何執行復雜的語言任務。

盡管如此,研究者阿羅拉和戈亞爾采用了一個不同的方法來探索LLM的工作原理,他們專註於理解處理特定文本時LLM可能需要的技能。在他們的分析中,技能和文本之間的聯系被顯著地強調了。如果一個技能節點與一個文本節點相連,這表示LLM需要運用該技能來理解這段文本。同時,如果多個技能節點都指向同一個文本節點,這表明理解該段文本需要這些技能的綜合套用。

此外,這種方法也考慮到了不同文本片段可能需要類似的技能或技能組合。比如,理解諷刺的能力可能不僅與一個包含諷刺的文本片段相關聯,還可能與其他含有諷刺的文本片段相連。這種觀點有助於更全面地了解LLM如何整合不同的技能來處理和理解文本。

面對的一個重要挑戰是將理論上的二分圖模型套用於現實中的大型語言模型,以探究是否能透過這些圖模型揭示模型強大能力的形成。二分圖模型旨在幫助理解LLM如何結合多種技能來處理文本。

不過,將這一理論付諸實踐並非易事。首要的問題是,研究人員難以獲得關於實際LLM的具體訓練和測試數據,因為那些開發這些模型的公司,比如OpenAI或DeepMind,並未公開他們的數據。這限制了研究人員能夠直接利用的資訊資源,從而為驗證他們理論帶來難度。

除此之外,這些研究者還希望能預見LLM在規模增大時的表現,但由於缺乏即將釋出的聊天機器人模型的相關資訊,這一預測同樣充滿挑戰。即便如此,他們仍然能夠接觸到一些關鍵資訊,可能有助於他們對理論模型進行支持或驗證。

自2021年以來,研究LLM和其他神經網絡效能的研究人員發現了一個普遍特征的出現。他們註意到,隨著模型的大小或訓練數據量的增加,其在測試數據上的損失(訓練後在新文本上預測與正確答案之間的差異)以一種非常具體的方式減少。這些觀察已經被編碼成方程式式,稱為 神經縮放定律 。因此,阿羅拉和戈亞爾設計了他們的理論,不依賴於任何單個LLM、聊天機器人或訓練和測試數據集,而是依賴於這些系統都預期遵循的普遍規律:縮放定律預測的損失。

也許,他們推理,改善的效能——透過神經縮放定律來衡量——與技能的改善有關。而這些改進的技能可以在他們的二分圖中透過技能節點與文本節點的連線來定義。建立這種連結——在神經縮放定律和二分圖之間——是讓他們能夠繼續進行的關鍵。

提升技能

研究人員首先假設存在一個與LLM在測試數據上的行為相對應的假想二分圖。這個圖的目的是為了理解和解釋LLM在測試數據上表現出來的損失變化,以及它是如何透過這種變化獲得特定技能的。

以「理解諷刺」為例,這一技能在圖中被表示為一個節點。研究人員觀察這個技能節點與哪些文本節點相連,並根據這些連線來判斷LLM在該技能上的表現。如果大多數與該技能節點相連的文本節點都是成功的(即LLM能夠準確預測這些文本),則表明LLM在這個技能上表現良好。相反,如果大量的技能節點連線到預測失敗的文本節點,就表明LLM在這個技能上表現不佳。

透過這種二分圖與LLM之間的關系,研究人員使用隨機圖理論的方法來間接分析LLM的行為。這些圖表揭示了節點之間的關系,這些關系又被用來邏輯上解釋LLM是如何獲得並展現出它們意外的能力的。這種方法提供了一種可測試的途徑來理解大型模型是如何發展出所需的技能,以實作它們的高級功能。

阿羅拉和戈亞爾首先解釋了一個關鍵行為: 為什麽更大的LLM在單個技能上比它們較小的對應物更加熟練 。他們從神經縮放定律預測的較低測試損失開始。在圖中,這種較低的測試損失表現為失敗測試節點比例的下降。因此,總體上失敗的測試節點更少。如果失敗的測試節點更少,那麽失敗測試節點與技能節點之間的連線也就更少。因此,更多的技能節點連線到成功的測試節點,表明模型在技能上的能力增長。

接下來,這對研究者找到了一種解釋更大模型意外能力的方法。隨著LLM的大小增加和測試損失減少,隨機組合的技能節點開始與單個文本節點建立連線。這表明LLM也變得更擅長同時使用多個技能,並開始使用多種技能生成文本——比如,將使用諷刺的能力與理解「因為」這個詞的能力結合起來——即使這些確切的技能組合在訓練數據中的任何文本片段中都不存在。

例如,想象一個已經能夠使用一種技能生成文本的LLM。如果你將LLM的參數數量或訓練數據量擴大一個數量級,它將變得同樣擅長生成需要兩種技能的文本。再上升一個數量級,LLM現在可以同時執行需要四種技能的任務,同樣具有相同水平的能力。更大的LLM擁有更多結合技能的方式,導致能力的組合爆炸。

隨著LLM的擴大,它在訓練數據中遇到所有這些技能組合的可能性變得越來越不太可能。根據隨機圖理論的規則,每種組合都源於對可能技能的隨機抽樣。因此,如果圖中大約有1000個基本的單個技能節點,你想要組合四種技能,那麽大約有1000的4次方——也就是1萬億——種可能的組合方式。

真正的創造力

阿羅拉和戈亞爾及其團隊不僅僅關註於理論層面,而是進一步實施了實際的測試,目的是驗證一個關鍵觀點:隨著大型語言模型(LLM)的規模和訓練數據的擴充套件,它們在整合和運用多種技能方面的能力會得到提升,進而在執行概括性任務時變得更加高效。為了達到這個目的,他們開發了一種名為「 技能混合(skill-mix) 」的測試方法,來評估LLM使用多種技能生成文本的能力。

為了測試大型語言模型(LLM)的能力,研究團隊設計了一種特定的任務。他們要求LLM根據一個隨機選定的主題生成三個句子,並在這些句子中展示一些隨機選擇的技能。這個任務的目的是評估LLM在處理特定主題時綜合運用不同技能的能力。

以GPT-4為例,這是一個驅動最先進版本ChatGPT的LLM。研究團隊要求它就決鬥這一主題(主要是指劍術戰鬥)撰寫內容,並要求在寫作中展示四種特定的技能:自利偏見、使用隱喻、套用統計三段論,以及運用常識性物理知識。GPT-4的回答展示了這些技能,如用隱喻描述勝利的確定性,以及在描述決鬥者時運用統計三段論和自利偏見。當被要求重新審視其輸出時,GPT-4將內容縮減為三個句子,這展示了它在處理和簡化資訊方面的能力。這種測試方法有助於量化評估LLM在綜合運用多種技能方面的能力。

阿羅拉評論說,盡管大型語言模型(LLM)生成的文本並非達到了像海明威或莎士比亞那樣的文學高度,但他和他的團隊對一點很有信心:這些模型能夠創造出在訓練數據中從未見過的文本。他們認為,模型展示的技能組合在一起,可能會被一些人視為模型對文本內容的一種理解。

阿羅拉進一步指出,GPT-4在他們設計的「技能混合」測試中表現出色,即使是那些需要同時運用六種不同技能的任務。他說,在大約10%到15%的情況下,GPT-4能夠成功地透過這樣的測試,生成的文本在統計上是不太可能僅從訓練數據中直接得出的。這意味著GPT-4不僅僅是在重復它在訓練過程中遇到的內容,而是能夠創造性地結合多種技能,生成新的、獨特的文本輸出。這種能力表明,GPT-4在某種程度上展現了超出簡單文本重復的能力。

團隊還透過讓GPT-4評估自己的輸出以及其他LLM的輸出來自動化這一過程。阿羅拉說,模型自我評估是公平的,因為它沒有記憶,所以它不記得自己被要求生成它正被要求評估的文本。

研究的理論部份雖然包含一些假設,但被視為合理的。這項研究證明了LLM能夠將不同的構建塊組合在一起,展現了創造力。重點在於強調LLM的原創性,即它們能夠創造出訓練數據中不存在的內容。

此外,研究還回應了LLM是否僅僅是重復訓練數據(即「隨機鸚鵡」)的問題。GPT-4尤其在結合技能和主題生成文本方面表現出色,超越了其前身GPT-3.5。這種快速的進步讓研究團隊對LLM未來的發展和潛力感到震驚和好奇。