感謝IT之家網(wǎng)友 城中大盜 的線索投遞!
「地表最強(qiáng)」GPT-4 在推理問題中接連出錯(cuò)!MIT 校友,以及 UCLA 華人一作的最新研究引眾多網(wǎng)友圍觀。
GPT-4 根本不會(huì)推理!
近來,有兩篇研究稱,GPT-4 在推理方面表現(xiàn)不盡人意。
來自 MIT 的校友 Konstantine Arkoudas,在 21 種不同類型推理集中,對(duì) GPT-4 進(jìn)行了評(píng)估。然后,對(duì) GPT-4 在這些問題上的表現(xiàn)進(jìn)行了詳細(xì)的定性分析。
研究發(fā)現(xiàn),GPT-4 偶爾會(huì)展現(xiàn)出「最強(qiáng)大腦」的天賦,但目前來看,GPT-4 完全不具備推理能力。
研究一出,引來眾多網(wǎng)友圍觀。
馬庫斯表示,「如果這是真的 —— 正如我早就說過的那樣 —— 我們離 AGI 還差得遠(yuǎn)呢。我們可能需要進(jìn)行大量的重新校準(zhǔn):沒有推理就不可能有 AGI」。
而另一篇來自 UCLA 和華盛頓大學(xué)的研究也發(fā)現(xiàn),GPT-4,以及 GPT-3.5 在大學(xué)的數(shù)學(xué)、物理、化學(xué)任務(wù)的推理上,表現(xiàn)不佳。
研究人員引入了一個(gè)大學(xué)科學(xué)問題解決基礎(chǔ) SCIBENCH,其中包含 2 個(gè)數(shù)據(jù)集:開放數(shù)據(jù)集,以及封閉數(shù)據(jù)集。
通過對(duì) GPT-4 和 GPT-3.5 采用不同提示策略進(jìn)行深入研究,結(jié)果顯示,GPT-4 成績平均總分僅為 35.8%。
這項(xiàng)研究同樣再次引起馬庫斯的關(guān)注:
關(guān)于數(shù)學(xué)、化學(xué)和物理推理的系統(tǒng)調(diào)查,結(jié)果顯示,目前的 LLM 無法提供令人滿意的性能...... 沒有一種提示策略明顯優(yōu)于其他策略。
下面我們就來具體看看,GPT-4 如何在 21 個(gè)問題集,數(shù)學(xué)、物理、化學(xué)上推理慘敗的。
21 個(gè)問題集,GPT-4 全翻車
不過,在看 GPT-4 回答問題之前,作者給出了一個(gè)注意事項(xiàng):
GPT-4 是一個(gè)非確定性系統(tǒng),即使參數(shù)設(shè)置相同,在不同的運(yùn)行中也可能產(chǎn)生不同的答案。
而以下的測試交流都是逐字記錄的,根據(jù)作者的經(jīng)驗(yàn),文中討論的 GPT-4 出錯(cuò)的地方往往具有魯棒性。
1.簡單算術(shù)
能夠進(jìn)行基本運(yùn)算,是推理的必要條件。但是,GPT-4 仍然無法可靠地執(zhí)行加法、乘法等基本算術(shù)運(yùn)算。
比如,讓 GPT-4 在 1381 和 1453 之間隨機(jī)選擇兩個(gè)數(shù)字相乘,并給出結(jié)果。
GPT-4 選擇了 1405,以及 1421,但是最后給出的結(jié)果顯然是錯(cuò)的。因?yàn)?1405×1421=1996505。
2.簡單計(jì)數(shù)
雖然具體計(jì)數(shù)并不一定是一種推理活動(dòng) ,但它肯定是任何具有一般能力推理系統(tǒng)的必備條件。
在這里,給 GPT-4 一個(gè)命題變量,并在它前面加上 27 個(gè)否定符號(hào),要求它計(jì)算否定符號(hào)的個(gè)數(shù)。
對(duì)于我們來講,這簡直輕而易舉,尤其是否定符號(hào)是間隔 5 個(gè)寫成的,并且有 5 組,最后一對(duì)否定符號(hào)緊隨其后。
然而,GPT-4 卻給出了「28 個(gè)」答案。
3.常識(shí)
當(dāng)前,我們可以將常識(shí)性論證視為,從給定信息加上未說明的條件中得出的簡單推理。
在這種特殊情況下,常識(shí)性知識(shí)就是「人在死前是活著的,死后就不會(huì)再活著」這樣的命題。
比如,當(dāng)你問 GPT-4:Mable 上午 9 點(diǎn)的心率為 75 bpm,下午 7 點(diǎn)的血壓為 120/80。她于晚上 11 點(diǎn)死亡。她中午還活著嗎?
GPT-4 竟回答:根據(jù)所提供的信息,無法確定 Mable 中午是否還活著。
但明顯根據(jù)給定的信息,常識(shí)性推斷直接得出結(jié)論了。
4.初級(jí)邏輯
如果 P 包含 Q ,而 Q (a) 不成立,那么我們就可以根據(jù)模型推論出 P (a) 也不成立(因?yàn)槿绻?P (a) 成立,那么 Q (a) 也會(huì)成立)。
這是一個(gè)最基本的同義反復(fù),但 GPT-4 卻完全提出一個(gè)反模型:
值得注意的是,GPT-4 認(rèn)識(shí)到,P 實(shí)際上并不包含 Q ,并提出了 x 有可能是負(fù)數(shù)偶數(shù),「不排除存在其他給定條件的模型」。
其實(shí)不然,一個(gè)反模型必須滿足所有給定的條件,同時(shí)證偽結(jié)論。
此外,僅僅幾句話之后,GPT-4 就聲稱 P 在給定的解釋下確實(shí)蘊(yùn)含 Q ,這與它自己之前的說法相矛盾。
說明,GPT-4 還會(huì)出現(xiàn)內(nèi)部不一致的問題。
5.簡單量詞語義
請看下面三個(gè)句子:
1. gt; Q(x))
2. )
3. )
請證偽或證明以下主張:這三個(gè)句子是共同可滿足的。
顯然,這三個(gè)句子都是共同可滿足的,一個(gè)簡單的模型是具有 P 、Q 、?P (a2) 和 ?Q (a2) 的域 a1, a2,然而 GPT-4 得出的結(jié)論確與之相反。
6. 簡單圖著色
首先考慮一個(gè)沒有解決方案的圖著色問題。
不難發(fā)現(xiàn),對(duì)于這個(gè)問題中描述的圖形,兩種顏色是不足以滿足問題中描述的圖。
在這個(gè)簡短的輸出中,出現(xiàn)大量驚嚇下巴的錯(cuò)誤。
GPT-4 一開始就謊稱圖形是完全的。
此外,顯而易見的是,如果圖形真是完全的,那么就不可能用 2 種顏色來著色,因?yàn)橐粋€(gè)有 6 個(gè)頂點(diǎn)的完全圖形至少需要 6 種顏色。
換句話說,GPT-4 的說法不僅是錯(cuò)誤的,而且是前后矛盾的:一會(huì)兒告訴我們這 6 頂點(diǎn)圖形是完全的,這意味著不可能用 2 種顏色給它著色,一會(huì)兒又提供了一種雙色「解決方案」。
值得注意的是,GPT-4 之所以表現(xiàn)如此糟糕,并不是因?yàn)樗鼪]有掌握足夠的圖形知識(shí)或數(shù)據(jù)。
當(dāng)研究人員要求 GPT-4 對(duì)「完全圖」的了解時(shí),它滔滔不絕地說出了「完全圖」的正確定義,以及一長串關(guān)于 K_n的結(jié)果。
顯然,GPT-4 已經(jīng)記住了所有這些信息,但卻無法在新條件中應(yīng)用。
7. 子集和
S = 2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14。那么 S 有多少個(gè)子集的總和是 37?
這個(gè)問題中,S 的子集都是偶數(shù),而偶數(shù)之和不可能是奇數(shù),因此答案為 0。
然而,GPT-4 沒有停下來考慮 S 包含的內(nèi)容,而是反射性地生成它認(rèn)為對(duì)這個(gè)問題合適的答案,然后繼續(xù)「幻化」出一個(gè)答案「4」。
8.初級(jí)離散數(shù)學(xué)
告訴 GPT-4 A × B 代表集合 A 和 B 的笛卡爾積、從 A 到 B 的關(guān)系 R 是 A × B 的子集,以及 amp; 代表集合交集之后要求它證明或證偽:
其中 R1 和 R2 是從 A 到 B 的二元關(guān)系,dom 表示二元關(guān)系 R 的域。
需要子集關(guān)系在 的兩個(gè)方向上都成立,但它只在從左到右的方向上成立。另一個(gè)方向的反例很容易找到(例如,取 A = (1, 2) 和 B = (1,3))。
然而,GPT-4 卻推斷這是成立的,顯然不正確。
9.簡單安排計(jì)劃
在時(shí)間安排問題上,GPT-4 同樣出錯(cuò)了。
10.羅素悖論
羅素理發(fā)師悖論是指,存在一個(gè)理發(fā)師 b,他為且僅為那些不給自己刮胡子的人刮胡子。
這句話的否定是一個(gè)同義反復(fù),很容易用一階邏輯推導(dǎo)出來。
如果我們把 R 理解為 a 被 b 刮胡子,那么我們就可以提出這個(gè)同義反復(fù),并要求 GPT-4 證明或反證它,如下面 prompt 所示:
如果存在這樣一個(gè)理發(fā)師 x,那么對(duì)于所有 y,我們將有 R lt;gt; ? R (y,y),因此用 x 代替 y 將得到 R (x,x) lt;gt; ? R (x,x),這是矛盾的。
GPT-4 對(duì)所給句子的結(jié)構(gòu)和需要做的事情的理解無可挑剔。然而,隨后的案例分析卻糊里糊涂。
11.積木世界
這是一個(gè)簡單的推理任務(wù),需要對(duì)倒數(shù)第三個(gè)積木 B3 進(jìn)行案例分析。
首先,B3 要么是綠色的,要么不是。
如果是綠色的,那么 B3 就在非綠色積木 B4 的上面,所以結(jié)論成立。
如果不是,那么從上數(shù)的第二個(gè)綠色積木 B2,就在非綠色積木 B3 上面,因此結(jié)論仍然成立。
然而,結(jié)果顯示,GPT-4 的表現(xiàn)并不理想。
有五個(gè)積木從上往下堆疊:
1. 從上往下數(shù)第二個(gè)積木是綠色的
2. 從上往下數(shù)第四個(gè)積木不是綠色的
在這些條件成立的情況下,證偽或證明以下結(jié)論:在一個(gè)非綠色積木的正上方,有一個(gè)綠色積木。
首先它在證明猜想時(shí),就已經(jīng)弄錯(cuò)了證明的策略 ——GPT-4 假定了兩種特殊情況來進(jìn)行推理。
此外,GPT-4 在自己的推理中已經(jīng)得出了結(jié)論,但在回答時(shí)仍然告訴用戶問題沒有被解決。而這體現(xiàn)的便是模型的內(nèi)部不一致性問題。
12.空間推理
這里作者選擇了一個(gè)現(xiàn)實(shí)世界中的方位問題:
GPT-4 第一次給出的答案是右邊,但作者指出了它的錯(cuò)誤,雖然從地圖上來看,位于馬薩諸塞州的波士頓的確在南達(dá)科他州的右邊,但這里還有一個(gè)附加條件:身體的朝向是得克薩斯州。
這意味著波士頓在作者的左邊。
之后,GPT-4 在回答波士頓與南達(dá)科他州高低位置時(shí),出現(xiàn)了更嚴(yán)重的問題:它在同一個(gè)回答中給出了兩種矛盾的描述。
13.時(shí)間推理
作者在這里給出了一個(gè)比較簡單的時(shí)間推理問題,但 GPT-4 的回答依舊一塌糊涂。
Tom 和 Nancy 上班需要乘坐交通工具。Nancy 的通勤時(shí)間大約為 30~40 分鐘,而 Tom 的通勤時(shí)間大約為 40~50 分鐘。上個(gè)周五,Nancy 在早上 8:10~8:20 之間離家,而 Tom 在早上 8:5~9:10 之間到達(dá)工作地點(diǎn)。此外,Nancy 在 Tom 離開家后到達(dá)工作地點(diǎn),但不會(huì)超過 20 分鐘。你能否推斷出上個(gè)星期五,Tom 和 Nancy 何時(shí)到達(dá)工作地點(diǎn)?
在梳理完問題中的信息后,GPT-4 給出了它的推理過程:
「如果 Tom 在可能最晚的時(shí)間離開家...」 這句話一開篇就錯(cuò)了。
實(shí)際上,題目并沒有給出有關(guān) Tom 最晚離開家的時(shí)間,而 GPT-4 將 Nancy 的時(shí)間誤用到了 Tom 身上。
同時(shí),GPT-4 給出的條件語句是混亂的,假設(shè)中包含了與結(jié)論無關(guān)的信息(Tom):「如果 Tom 在最晚時(shí)間(上午 8:20)離開家,Nancy 在她最晚時(shí)間(上午 8:20)離開,她的通勤時(shí)間最多是 40 分鐘,Nancy 最晚在上午 9:00 到達(dá)工作地點(diǎn)?!?/p>
這應(yīng)該表述為:「如果 Nancy 在她最晚時(shí)間離開,并且她的通勤時(shí)間最多是 40 分鐘,那么 Nancy 最晚會(huì)在上午 9:00 到達(dá)工作地點(diǎn)?!?/p>
接著,GPT-4 錯(cuò)誤地推斷出以下內(nèi)容:「由于 Tom 的通勤時(shí)間最少為 40 分鐘,這意味著他最晚會(huì)在上午 9:00 到達(dá)工作地點(diǎn)。」
這個(gè)結(jié)論顯而易見根本不成立。從已知的「Tom 的通勤時(shí)間最少為 40 分鐘」這個(gè)事實(shí)中無法得出這個(gè)結(jié)論。
接下來的回答依舊是基于錯(cuò)誤地假設(shè) Tom 最早離開時(shí)間是上午 8:10 的條件。
然后它聲稱 Nancy 到達(dá)時(shí)間是 8:45,這與早上 8:10 離家,不超過 20 分鐘條件不符合。
最后,它錯(cuò)誤地得出結(jié)論 Tom 和 Nancy 都在 8:50 和 9:00 之間到達(dá)。
在推理的過程中,GPT-4 屢次出現(xiàn)了將信息張冠李戴的情況,最后給出的答案也是基于錯(cuò)誤條件得出的錯(cuò)誤回答。
14. 謀殺還是自殺?
作者構(gòu)思了一個(gè)邏輯謎題,列出了 9 個(gè)條件要求 GPT-4 找出真正殺害 Agatha 姨媽的兇手。
1. 住在 Dreadbury Mansion 的某人殺了 Agatha 姨媽。
2. Dreadbury Mansion 中唯一的居住者是 Agatha 姨媽、管家和 Charles。
3. 殺人犯總是討厭他的受害者,并且他的財(cái)富不會(huì)比受害者多。
4. Charles 不討厭 Agatha 姨媽討厭的人。
5. Agatha 姨媽討厭所有人,除了管家。
6. 管家討厭所有不比 Agatha 姨媽富有的人。
7. 管家討厭 Agatha 姨媽討厭的所有人。
8. 沒有人討厭所有人。
9. Agatha 姨媽不是管家。
正確的答案是 Agatha 姨媽殺了自己。
首先,根據(jù)條件 5,Agatha 姨媽必須討厭她自己,因?yàn)樗憛捤谐斯芗乙酝獾娜恕?/p>
因此,根據(jù)條件 4,得出 Charles 不討厭她,所以他不可能殺了她。
根據(jù)條件 5 和 7,管家不可能討厭他自己,因?yàn)槿绻憛捵约旱脑?,條件 8 就不成立了,他會(huì)討厭所有人。
根據(jù)條件 6,得出管家比 Agatha 姨媽更富有,否則他會(huì)討厭自己,這與前面我們得出的他不討厭自己相矛盾。
根據(jù)條件 3,管家也不會(huì)是兇手。
在推理中,GPT-4 正確地排除了 Charles,但無法排除管家,并得出了錯(cuò)誤的結(jié)論:管家是兇手。
GPT-4 做出的另一個(gè)關(guān)鍵錯(cuò)誤是:由于 Agatha 姨媽討厭所有除管家以外的人,這意味著她至少不討厭她自己。
這是一個(gè)奇怪的錯(cuò)誤,從第 5 個(gè)條件就可以得出 Agatha 姨媽討厭她自己。
同時(shí),GPT-4 又一次展示了反復(fù)出現(xiàn)的不一致性問題 —— 幾乎在每一條回復(fù)中,GPT-4 都聲稱推導(dǎo)出某個(gè)命題及其否定形式。
15.沃森選擇任務(wù)
沃森選擇任務(wù)是心理推理領(lǐng)域中的基本內(nèi)容。
在一月份的論文中,GPT-3.5 就未能通過這個(gè)測試,本次研究中,GPT-4 的表現(xiàn)依舊不理想。
桌上放著 7 張牌,每張牌一面寫著數(shù)字,另一面是單色色塊。這些牌的正面顯示的是 50、16、紅色、黃色、23、綠色、30。
要判斷「如果一張牌正面顯示 4 的倍數(shù),則背面顏色為黃色」這個(gè)命題的真假,你需要翻轉(zhuǎn)哪些牌?
這些回答顯示,GPT-4 不理解條件語句的語義。當(dāng) GPT-4 說卡片「50」和「30」必須翻開時(shí),它似乎將條件誤認(rèn)為是充分必要條件。
而無論 GPT-4 的回答是對(duì)還是錯(cuò),其內(nèi)部的說法都是不一致的。
16.熵
信息論的一個(gè)基本結(jié)論是:隨機(jī)向量 Z 的熵上界不超過組成 Z 的隨機(jī)變量的熵之和。
因此,下面問題的答案應(yīng)該是「在任何情況下都不會(huì)」。
17.簡單編譯器的正確性
最后給 GPT-4 的推理問題是最具挑戰(zhàn)性的:證明一個(gè)簡單表達(dá)式編譯器的正確性。
但在這次測試中,GPT-4 通過在表達(dá)式的抽象語法結(jié)構(gòu)上設(shè)置結(jié)構(gòu)歸納,正確地進(jìn)行了證明。
這可能是因?yàn)樗翱催^類似的證明,作者給出的例子是編程課程和教材中常見的練習(xí)類型。
然而,GPT-4 還是會(huì)出現(xiàn)一些細(xì)節(jié)上錯(cuò)誤。
結(jié)論:推理能力至關(guān)重要,但 GPT-4 不會(huì)
鑒于 GPT-4 是目前能力最強(qiáng)的 LLM,因此作者基于以上分析給出了三個(gè)主要結(jié)論:
1. 在軟件開發(fā)中使用生成式 AI,除了對(duì)于一些繁瑣的任務(wù)外(作為一種對(duì)知識(shí)密集型編碼問題的加速自動(dòng)補(bǔ)全),充滿了風(fēng)險(xiǎn)。在這些領(lǐng)域,規(guī)范性和正確性至關(guān)重要,而當(dāng)前的 LLM 無法達(dá)到這些標(biāo)準(zhǔn)。
2. 隨著 LLM 推理能力的不斷提高,嚴(yán)格的證明檢查會(huì)變得越來越重要。這種方法可以通過要求 LLM 將其推理形式化,或者通過訓(xùn)練其他 LLM,來檢查用自然語言表達(dá)的推理。
3. 就目前而言,AI 征服人類或人類利用 AI 達(dá)到邪惡目的這種反烏托邦情景,都極為牽強(qiáng),甚至到了荒謬的地步。當(dāng)最先進(jìn)的 AI 系統(tǒng)連左右都分不清時(shí),呼吁制定政策來保護(hù)人類免受它的傷害,往好里說是為時(shí)過早,往大了說就是對(duì)資源的浪費(fèi)。
不可避免地,一些人可能會(huì)說這些結(jié)果是「挑選數(shù)據(jù)」。但這是因?yàn)樗麄儗?duì)什么是挑選數(shù)據(jù)存在著誤解。根據(jù)相關(guān)命題的邏輯結(jié)構(gòu)和整體背景,挑選數(shù)據(jù)有時(shí)甚至是必要的。
通過對(duì)計(jì)算機(jī)程序進(jìn)行調(diào)試來發(fā)現(xiàn)和理解其弱點(diǎn),試圖證偽科學(xué)理論,試駕新車,試圖找到一個(gè)假定的定理的反模型等等,從根本上來說都是「挑刺」。
舉個(gè)例子,比如你發(fā)現(xiàn)自己新買的汽車有一個(gè)輪胎漏氣,這時(shí)經(jīng)銷商就可以抗議稱你是在「挑選數(shù)據(jù)」。畢竟,就整輛車來說,輪胎的完好率高達(dá) 75%。
同樣,科學(xué)、醫(yī)學(xué)和工程領(lǐng)域的應(yīng)用,尤其是軟件工程,都有嚴(yán)格的標(biāo)準(zhǔn)。
就像我們不想要一座在 90% 的情況下能立柱的橋梁一樣,我們需要對(duì)所有輸入都有效的排序算法,而不僅僅是大部分;我們需要購物車每次都能收取正確的費(fèi)用,而不僅僅是大多數(shù)時(shí)間,等等。
而這些計(jì)算和推理密集型的應(yīng)用,與推薦引擎不同,它們必須非??煽俊?/p>
作者介紹
Konstantine Arkoudas
直到去年,Konstantine Arkoudas 還是 RPI 認(rèn)知科學(xué)系的研究員,也是麻省理工學(xué)院 CSAIL 的研究員。
目前,他是 Telcordia 研究實(shí)驗(yàn)室的高級(jí)研究科學(xué)家,主要研究 AI,以及在電信和網(wǎng)絡(luò)行業(yè)應(yīng)用正式方法解決現(xiàn)實(shí)世界的問題。
他曾在 2000 年獲得了 MIT 的計(jì)算機(jī)科學(xué)博士學(xué)位。在此之前,還獲得了計(jì)算機(jī)科學(xué)碩士學(xué)位,哲學(xué)碩士學(xué)位,以及計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,輔修哲學(xué)。
大學(xué)數(shù)理化,GPT-4 得分 35.8%
UCLA 的研究中,主要評(píng)估了 GPT-4,以及 GPT-3.5 在數(shù)學(xué)、化學(xué)、物理方面的推理能力。
當(dāng)前,為了增強(qiáng) LLM 解決數(shù)學(xué)等任務(wù)的能力,有人提出了思維連 CoT 策略,指導(dǎo)大模型逐步生成答案,從而更深入思考問題。
然而,即使這樣的方法有其特定的優(yōu)勢,也難以完全解決復(fù)雜的科學(xué)問題。
如下,是大學(xué)物理化學(xué)的一個(gè)示例問題,以及在兩種提示策略下生成的解決方案。
有 CoT 加持的 GPT-4 出現(xiàn)明顯的計(jì)算錯(cuò)誤,而提示用 Python 作為外部工具的 GPT-4,也會(huì)誤解數(shù)學(xué)方程。
對(duì)此,研究中引入了一個(gè)大學(xué)水平的科學(xué)問題基準(zhǔn) SCIBENCH。
其中,「開放數(shù)據(jù)集」包括從大學(xué)課程廣泛使用的教科書中收集的 5 個(gè)問題,涵蓋了基礎(chǔ)物理、熱力學(xué)、經(jīng)典力學(xué)、量子化學(xué)、物理化學(xué)、微積分、統(tǒng)計(jì)學(xué)和微分方程。
另一個(gè)是「封閉數(shù)據(jù)集」,為了模擬真實(shí)世界的評(píng)估,其中包含了計(jì)算機(jī)科學(xué)和數(shù)學(xué)三門大學(xué)課程的 7 套期中和期末考試題。
與現(xiàn)有基準(zhǔn)不同,SCIBENCH 中的所有問題都是,開放式、自由回答的問題。
數(shù)據(jù)集中有了,研究重點(diǎn)評(píng)估了兩個(gè)具有代表性的 LLM,GPT-3.5 和 GPT-4,并采用了不同的提示策略,包括 CoT、零樣本學(xué)習(xí)、少樣本學(xué)習(xí)。
另外,研究人員還提示模型使用外部工具,比如 Python 和 Wolfram 語言。
實(shí)驗(yàn)結(jié)果表明,在沒有任何復(fù)雜提示、或使用外部工具的情況下,GPT-3.5 和 GPT-4 在開放數(shù)據(jù)集中平均準(zhǔn)確率分別為 10.62% 和 16.81%。
那么,在加入 CoT 和外部工具后,在同一數(shù)據(jù)集上最高準(zhǔn)確率也僅僅是 35.8%。不過,相較之前,很大程度提高了準(zhǔn)確率。
在使用 CoT 提示 + 外部工具最強(qiáng)配置下,GPT-4 在開放式數(shù)據(jù)集上取得了 35.80% 的平均分,在封閉數(shù)據(jù)集上取得了 51.57% 的平均分。
這些結(jié)果表明,在未來的 LLM 中,GPT-4 有相當(dāng)大的改進(jìn)潛力。
為了全面了解 LLM 在科學(xué)問題解決中的局限性,研究人員提出了一種全新的「自我完善」的方法,以發(fā)現(xiàn) LLM 所做解答中的不足之處。
便是如下的「評(píng)估協(xié)議」。
首先,將正確的解決方案與 LLM 生成的解決方案進(jìn)行比較,并在人工標(biāo)注員的協(xié)助下,總結(jié)出成功解決科學(xué)問題所需的 10 項(xiàng)基本技能。
具體包括:邏輯分解和分析能力;識(shí)別假設(shè);空間感知;因果推理;問題演繹;抽象推理;科學(xué)素養(yǎng);代碼轉(zhuǎn)換;邏輯推理;計(jì)算能力。
隨后,團(tuán)隊(duì)采用了一種由 LLM 驅(qū)動(dòng)的自我評(píng)價(jià)方法,對(duì)每個(gè)實(shí)驗(yàn)配置下基準(zhǔn) LLM 所做的解決方案中,缺乏的技能進(jìn)行自動(dòng)分類。
6 種設(shè)置下 GPT-3.5 在文本數(shù)據(jù)集上的錯(cuò)誤概況,揭示了其 10 種基本解決問題能力的缺陷分布
最后,通過分析發(fā)現(xiàn):
雖然 CoT 顯著提高了計(jì)算能力,但在其他方面的效果較差;
使用外部工具的提示可能會(huì)損害其他基本技能;
少樣本學(xué)習(xí)并不能普遍提高科學(xué)問題解決能力。
總之,研究結(jié)果表明,當(dāng)前大型語言模型在解決問題能力方面依舊很弱,并且在各種工具幫助下,依舊存在局限性。
參考資料:
廣告聲明:文內(nèi)含有的對(duì)外跳轉(zhuǎn)鏈接,用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。