农村野外性bbw,亚洲精品欧美综合四区

AI大模型“高考”成績(jī)公布：幾乎都偏文，數(shù)學(xué)有點(diǎn)差，解題思路特別“軸”

2024年全國(guó)高考甫一結(jié)束，上海人工智能實(shí)驗(yàn)室旗下的大模型開(kāi)源開(kāi)放評(píng)測(cè)體系司南（OpenCompass）選取國(guó)內(nèi)外7個(gè)AI大模型進(jìn)行高考全科目測(cè)試，7名AI考生的試卷，由具有高考評(píng)卷經(jīng)驗(yàn)的教師在不知考生身份的情況下判分。

日前，測(cè)試結(jié)果出爐：書(shū)生·浦語(yǔ)2.0系列文曲星大語(yǔ)言模型、阿里通義千問(wèn)大模型Qwen2-72B以及GPT-4o的成績(jī)?cè)谒蠥I考生中位列前三。以今年河南省分?jǐn)?shù)線為參考，這三名AI考生的文科成績(jī)均超“一本線”，理科成績(jī)穩(wěn)居“二本線”之上。

分析AI考生們交上的答卷，業(yè)內(nèi)認(rèn)為，在現(xiàn)階段，大模型在解決記憶類和邏輯類難題時(shí)與人類有著天差地別的思考軌跡，但這也為此后AI的進(jìn)化指明了方向。

語(yǔ)言類考試表現(xiàn)不俗，數(shù)學(xué)簡(jiǎn)答題成“越不過(guò)去的坎”

此次測(cè)試結(jié)果顯示，AI考生都有些偏科，且貌似都是“文科生”。

7個(gè)大模型中，有4個(gè)在新課標(biāo)I卷的英語(yǔ)測(cè)試中取得130以上的高分，其中GPT-4o拔得英語(yǔ)測(cè)試頭籌，還在作文上得到了一位英語(yǔ)閱卷老師的欣賞，稱其“句型豐富，語(yǔ)言無(wú)瑕疵”，只是字?jǐn)?shù)稍少，所以酌情扣1分。

此外，AI考生的語(yǔ)文新課標(biāo)I卷答題表現(xiàn)也不錯(cuò)：在現(xiàn)代文閱讀、古詩(shī)文閱讀、名句默寫(xiě)和作文上均有高于70%的平均得分率。

AI通常被認(rèn)為應(yīng)該在邏輯思維方面有著出色能力，但此次測(cè)試中，AI考生面對(duì)數(shù)學(xué)新課標(biāo)I卷幾乎“全軍覆沒(méi)”，得分均未達(dá)到總分的一半（即75分）。數(shù)學(xué)簡(jiǎn)答題更成了這群考生“越不過(guò)去的坎”，五道簡(jiǎn)答題的平均得分率僅為18.9%。

復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授張軍平介紹，此次參加測(cè)試的AI考生都是語(yǔ)言類大模型，接受過(guò)語(yǔ)料庫(kù)訓(xùn)練，因此在作答語(yǔ)言類試卷時(shí)較有優(yōu)勢(shì)。而在數(shù)理類科目的考查中，由于要求考生具有一定推理能力，而這項(xiàng)能力一直以來(lái)都是大模型的短板。

“快系統(tǒng)”思維模式，讓AI考生不會(huì)“打草稿”

為啥AI考生會(huì)偏科，還偏得如此厲害？多位深耕人工智能領(lǐng)域的研究者指出，這和現(xiàn)階段大模型的“思考”方式有很大關(guān)系。

“做題時(shí)，人一般是先形成解題思路，然后再作答。但AI則不然，不管三七二十一，直接硬做，做不出來(lái)再‘亂湊’。”上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人告訴記者，數(shù)理類題目的解題過(guò)程有極高的不確定性，因此，人類考生通常會(huì)先在草稿紙上理清思路，再開(kāi)始答題。而大模型則是依次生成文本，缺乏一種“打草稿”的能力，答題時(shí)如果它們一開(kāi)始思路走偏，基本就沒(méi)有挽回余地。

“AI考生和人類考生的這兩種思維模式，分別可以類比為丹尼爾·卡尼曼在《思考，快與慢》中提出的‘快系統(tǒng)’和‘慢系統(tǒng)’。”張軍平解釋說(shuō)，AI總是快速輸出答案，運(yùn)用概率運(yùn)算模擬推理過(guò)程，而人類對(duì)問(wèn)題的認(rèn)識(shí)往往依賴經(jīng)驗(yàn)積累，可以整體、宏觀地看事物，所以也看得更深入些。

試卷上暴露的問(wèn)題，也是AI發(fā)展的“新考卷”

在高考這場(chǎng)選拔賽上，人類暫時(shí)還是遠(yuǎn)超AI的。“組織AI大模型參加高考，是為了評(píng)測(cè)當(dāng)前大模型的真實(shí)水平，找準(zhǔn)問(wèn)題，持續(xù)推進(jìn)技術(shù)進(jìn)步。”上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人強(qiáng)調(diào)，AI考生的成績(jī)同時(shí)暴露了大模型的優(yōu)勢(shì)及軟肋，也為其未來(lái)的發(fā)展提出了許多值得思考的方向。

上海人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人告訴記者，大部分模型尚不存在自行糾錯(cuò)的能力，做錯(cuò)了也要“硬闖”到底，甚至通過(guò)“胡說(shuō)八道”圓回來(lái)。所以，提升糾錯(cuò)能力或許是未來(lái)大模型訓(xùn)練中需要格外注意的。

此外，大模型的“幻覺(jué)”仍然存在，它們會(huì)“一本正經(jīng)”地虛構(gòu)內(nèi)容。“此次測(cè)試中，有的大模型會(huì)杜撰詩(shī)句，讓部分閱卷老師誤以為真的存在它們編出的某首詩(shī)，只是自己不知道。”人工智能實(shí)驗(yàn)室相關(guān)負(fù)責(zé)人補(bǔ)充，如何提升AI的可信度，仍然在路上。

作者：張菲埡

上一篇：余建祥：中西方文化最本質(zhì)的區(qū)別

下一篇：記者暗訪“游”多“研”少研學(xué)游

　　標(biāo)簽：

　【相關(guān)文章】

沉迷在“社交利器”中的小孩

高中重點(diǎn)班女孩焦慮研學(xué) 心理專家教家長(zhǎng)怎樣“精神富養(yǎng)”

推動(dòng)教育強(qiáng)國(guó)建設(shè)行穩(wěn)致遠(yuǎn)

記者暗訪“游”多“研”少研學(xué)游

AI大模型“高考”成績(jī)公布：幾乎都偏文，數(shù)學(xué)有點(diǎn)差，解題思路特別“軸”

余建祥：中西方文化最本質(zhì)的區(qū)別

余建祥：兩個(gè)民族之間的競(jìng)爭(zhēng)說(shuō)到底是兩種文化的競(jìng)爭(zhēng)

余建祥：教育生態(tài)與鄉(xiāng)村振興

余建祥：西方文明的悲歌

余建祥：教育生態(tài)與城市發(fā)展戰(zhàn)略

版權(quán)聲明：文章觀點(diǎn)僅代表作者觀點(diǎn)，作為參考，不代表本站觀點(diǎn)。部分文章來(lái)源于網(wǎng)絡(luò)，如果網(wǎng)站中圖片和文字侵犯了您的版權(quán)，請(qǐng)聯(lián)系我們及時(shí)刪除處理！轉(zhuǎn)載本站內(nèi)容，請(qǐng)注明轉(zhuǎn)載網(wǎng)址、作者和出處，避免無(wú)謂的侵權(quán)糾紛。

（掃一掃打開(kāi)手機(jī)版網(wǎng)站）

（掃一掃關(guān)注《卓越父母家長(zhǎng)學(xué)苑》）

（掃一掃關(guān)注《兒童文學(xué)大本營(yíng)公眾號(hào)》）

AI大模型“高考”成績(jī)公布：幾乎都偏文，數(shù)學(xué)有點(diǎn)差，解題思路特別“軸”

最新內(nèi)容

熱點(diǎn)內(nèi)容

猜你喜歡

友情鏈接

（掃一掃打開(kāi)手機(jī)版網(wǎng)站）

（掃一掃關(guān)注《卓越父母家長(zhǎng)學(xué)苑》）

（掃一掃關(guān)注《兒童文學(xué)大本營(yíng)公眾號(hào)》）

AI大模型“高考”成績(jī)公布：幾乎都偏文，數(shù)學(xué)有點(diǎn)差，解題思路特別“軸”

最新內(nèi)容

推薦內(nèi)容

熱點(diǎn)內(nèi)容

猜你喜歡

友情鏈接

　（掃一掃關(guān)注《卓越父母家長(zhǎng)學(xué)苑》）

　（掃一掃關(guān)注《兒童文學(xué)大本營(yíng)公眾號(hào)》）

AI大模型“高考”成績(jī)公布：幾乎都偏文，數(shù)學(xué)有點(diǎn)差，解題思路特別“軸”