版權(quán)聲明:文章觀點(diǎn)僅代表作者觀點(diǎn),作為參考,不代表本站觀點(diǎn)。部分文章來源于網(wǎng)絡(luò),如果網(wǎng)站中圖片和文字侵犯了您的版權(quán),請(qǐng)聯(lián)系我們及時(shí)刪除處理!轉(zhuǎn)載本站內(nèi)容,請(qǐng)注明轉(zhuǎn)載網(wǎng)址、作者和出處,避免無謂的侵權(quán)糾紛。



作者:佚名 來源于:家長(zhǎng)學(xué)院
2024年全國(guó)高考甫一結(jié)束,上海人工智能實(shí)驗(yàn)室旗下的大模型開源開放評(píng)測(cè)體系司南(OpenCompass)選取國(guó)內(nèi)外7個(gè)AI大模型進(jìn)行高考全科目測(cè)試,7名AI考生的試卷,由具有高考評(píng)卷經(jīng)驗(yàn)的教師在不知考生身份的情況下判分。
日前,測(cè)試結(jié)果出爐:書生·浦語2.0系列文曲星大語言模型、阿里通義千問大模型Qwen2-72B以及GPT-4o的成績(jī)?cè)谒蠥I考生中位列前三。以今年河南省分?jǐn)?shù)線為參考,這三名AI考生的文科成績(jī)均超“一本線”,理科成績(jī)穩(wěn)居“二本線”之上。
分析AI考生們交上的答卷,業(yè)內(nèi)認(rèn)為,在現(xiàn)階段,大模型在解決記憶類和邏輯類難題時(shí)與人類有著天差地別的思考軌跡,但這也為此后AI的進(jìn)化指明了方向。
語言類考試表現(xiàn)不俗,數(shù)學(xué)簡(jiǎn)答題成“越不過去的坎”
此次測(cè)試結(jié)果顯示,AI考生都有些偏科,且貌似都是“文科生”。
7個(gè)大模型中,有4個(gè)在新課標(biāo)I卷的英語測(cè)試中取得130以上的高分,其中GPT-4o拔得英語測(cè)試頭籌,還在作文上得到了一位英語閱卷老師的欣賞,稱其“句型豐富,語言無瑕疵”,只是字?jǐn)?shù)稍少,所以酌情扣1分。
此外,AI考生的語文新課標(biāo)I卷答題表現(xiàn)也不錯(cuò):在現(xiàn)代文閱讀、古詩文閱讀、名句默寫和作文上均有高于70%的平均得分率。
AI通常被認(rèn)為應(yīng)該在邏輯思維方面有著出色能力,但此次測(cè)試中,AI考生面對(duì)數(shù)學(xué)新課標(biāo)I卷幾乎“全軍覆沒”,得分均未達(dá)到總分的一半(即75分)。數(shù)學(xué)簡(jiǎn)答題更成了這群考生“越不過去的坎”,五道簡(jiǎn)答題的平均得分率僅為18.9%。
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授張軍平介紹,此次參加測(cè)試的AI考生都是語言類大模型,接受過語料庫訓(xùn)練,因此在作答語言類試卷時(shí)較有優(yōu)勢(shì)。而在數(shù)理類科目的考查中,由于要求考生具有一定推理能力,而這項(xiàng)能力一直以來都是大模型的短板。
“快系統(tǒng)”思維模式,讓AI考生不會(huì)“打草稿”
為啥AI考生會(huì)偏科,還偏得如此厲害?多位深耕人工智能領(lǐng)域的研究者指出,這和現(xiàn)階段大模型的“思考”方式有很大關(guān)系。
“做題時(shí),人一般是先形成解題思路,然后再作答。但AI則不然,不管三七二十一,直接硬做,做不出來再‘亂湊’。”上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人告訴記者,數(shù)理類題目的解題過程有極高的不確定性,因此,人類考生通常會(huì)先在草稿紙上理清思路,再開始答題。而大模型則是依次生成文本,缺乏一種“打草稿”的能力,答題時(shí)如果它們一開始思路走偏,基本就沒有挽回余地。
“AI考生和人類考生的這兩種思維模式,分別可以類比為丹尼爾·卡尼曼在《思考,快與慢》中提出的‘快系統(tǒng)’和‘慢系統(tǒng)’。”張軍平解釋說,AI總是快速輸出答案,運(yùn)用概率運(yùn)算模擬推理過程,而人類對(duì)問題的認(rèn)識(shí)往往依賴經(jīng)驗(yàn)積累,可以整體、宏觀地看事物,所以也看得更深入些。
試卷上暴露的問題,也是AI發(fā)展的“新考卷”
在高考這場(chǎng)選拔賽上,人類暫時(shí)還是遠(yuǎn)超AI的。“組織AI大模型參加高考,是為了評(píng)測(cè)當(dāng)前大模型的真實(shí)水平,找準(zhǔn)問題,持續(xù)推進(jìn)技術(shù)進(jìn)步。”上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人強(qiáng)調(diào),AI考生的成績(jī)同時(shí)暴露了大模型的優(yōu)勢(shì)及軟肋,也為其未來的發(fā)展提出了許多值得思考的方向。
上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人告訴記者,大部分模型尚不存在自行糾錯(cuò)的能力,做錯(cuò)了也要“硬闖”到底,甚至通過“胡說八道”圓回來。所以,提升糾錯(cuò)能力或許是未來大模型訓(xùn)練中需要格外注意的。
此外,大模型的“幻覺”仍然存在,它們會(huì)“一本正經(jīng)”地虛構(gòu)內(nèi)容。“此次測(cè)試中,有的大模型會(huì)杜撰詩句,讓部分閱卷老師誤以為真的存在它們編出的某首詩,只是自己不知道。”人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人補(bǔ)充,如何提升AI的可信度,仍然在路上。
作者:張菲埡
下一篇: 記者暗訪“游”多“研”少研學(xué)游
標(biāo)簽:
【相關(guān)文章】
版權(quán)聲明:文章觀點(diǎn)僅代表作者觀點(diǎn),作為參考,不代表本站觀點(diǎn)。部分文章來源于網(wǎng)絡(luò),如果網(wǎng)站中圖片和文字侵犯了您的版權(quán),請(qǐng)聯(lián)系我們及時(shí)刪除處理!轉(zhuǎn)載本站內(nèi)容,請(qǐng)注明轉(zhuǎn)載網(wǎng)址、作者和出處,避免無謂的侵權(quán)糾紛。
Copyright © 2008 www.nanjingbohai.com Inc. All rights reserved. | 家長(zhǎng)學(xué)院 版權(quán)所有

