新聞中心

了(le/liǎo)解最新公司動态及行業資訊

當前位置:首頁>新聞中心
全部 471 公司動态 136 行業動态 173

OpenAI 最新研究:當前 AI 模型仍無法媲美人(rén)類程序員雲南德宏一(yī / yì /yí)蜂猴闖入火鍋店,眼大(dà)而(ér)凸起,會自制毒液,有兩條舌頭(程序員)

時(shí)間:2025-02-27   訪問量:1009

IT之(zhī)家 2 月 24 日消息,盡管 OpenAI 首席執行官薩姆・奧爾特曼(Sam Altman)堅稱,到(dào)今年年底,人(rén)工智能模型将能夠超越“低級别”軟件工程師,但該公司研究人(rén)員的(de)最新研究卻表明,即使是(shì)目前最先進的(de) AI 模型,仍無法與人(rén)類程序員相媲美。

研究人(rén)員在(zài)一(yī / yì /yí)篇新論文中指出(chū),即使是(shì)前沿模型 —— 即那些最具創新性和(hé / huò)突破性的(de) AI 系統 ——“仍然無法解決大(dà)多數”編程任務。爲(wéi / wèi)此,研究人(rén)員開發了(le/liǎo)一(yī / yì /yí)個(gè)名爲(wéi / wèi) SWE-Lancer 的(de)新基準測試工具,該工具基于(yú)自由職業者網站 Upwork 上(shàng)的(de) 1400 多個(gè)軟件工程任務。通過這(zhè)一(yī / yì /yí)基準測試,OpenAI 對三款大(dà)型語言模型(LLMs)進行了(le/liǎo)測試,分别是(shì)其自身的(de) o1 推理模型、旗艦産品 GPT-4o,以(yǐ)及 Anthropic 公司的(de) Claude 3.5 Sonnet。

具體而(ér)言,這(zhè)一(yī / yì /yí)新基準測試評估了(le/liǎo)這(zhè)些 LLMs 在(zài)處理 Upwork 上(shàng)的(de)兩類任務時(shí)的(de)表現:一(yī / yì /yí)類是(shì)個(gè)體任務,涉及修複漏洞并實施修複措施;另一(yī / yì /yí)類是(shì)管理任務,要(yào / yāo)求模型從更宏觀的(de)角度做出(chū)更高層次的(de)決策。值得注意的(de)是(shì),在(zài)測試過程中,這(zhè)些模型被禁止訪問互聯網,因此它們無法直接抄襲網上(shàng)已有的(de)類似答案。

這(zhè)些模型所承擔的(de)任務在(zài) Upwork 上(shàng)的(de)價值累計可達數十萬美元,但它們僅能解決一(yī / yì /yí)些表面的(de)軟件問題,卻無法在(zài)大(dà)型項目中真正找到(dào)漏洞及其根源。這(zhè)種“半成品”的(de)解決方案,對于(yú)與 AI 有過合作經驗的(de)人(rén)來(lái)說(shuō)并不(bù)陌生 ——AI 擅長輸出(chū)聽起來(lái)自信滿滿的(de)信息,但在(zài)仔細審查時(shí)往往漏洞百出(chū)。

盡管論文指出(chū),這(zhè)三款 LLMs 通常能夠“遠快于(yú)人(rén)類”地(dì / de)完成任務,但它們卻無法理解漏洞的(de)廣泛性及其背景,從而(ér)導緻解決方案“錯誤或不(bù)夠全面”。

研究人(rén)員解釋稱,Claude 3.5 Sonnet 的(de)表現優于(yú)另外兩款 OpenAI 模型,并且在(zài)測試中“賺取”的(de)金額也(yě)超過了(le/liǎo) o1 和(hé / huò) GPT-4o。然而(ér),其大(dà)多數答案仍然是(shì)錯誤的(de)。研究人(rén)員指出(chū),任何模型若想被真正用于(yú)實際編程任務,都需要(yào / yāo)具備“更高的(de)可靠性”。

簡而(ér)言之(zhī),該論文似乎表明,盡管這(zhè)些前沿模型能夠快速地(dì / de)處理一(yī / yì /yí)些細節任務,但它們在(zài)處理這(zhè)些任務時(shí)的(de)技能水平,仍遠遠不(bù)及人(rén)類工程師。

盡管近年來(lái)這(zhè)些大(dà)型語言模型取得了(le/liǎo)快速的(de)發展,并且未來(lái)還會繼續進步,但它們目前在(zài)軟件工程領域的(de)技能水平仍不(bù)足以(yǐ)取代人(rén)類。然而(ér)IT之(zhī)家注意到(dào),這(zhè)似乎并未阻止一(yī / yì /yí)些首席執行官解雇人(rén)類程序員,轉而(ér)使用這(zhè)些尚未成熟的(de) AI 模型。

上(shàng)一(yī / yì /yí)篇:谷歌宣布AI編程助手全球免費!每月18萬次代碼補全,爽翻程序員家裏還剩2盒牛奶,往鍋裏一(yī / yì /yí)倒,擀面杖一(yī / yì /yí)攪,又香又甜孩子(zǐ)超愛吃(程序員)

下一(yī / yì /yí)篇:月入幾萬的(de)程序員,要(yào / yāo)被AI取代了(le/liǎo)?蒙古西征結束,拔都連續15年沒打仗,原因何在(zài)(程序員)

在(zài)線咨詢

點擊這(zhè)裏給我發消息 售前咨詢專員

點擊這(zhè)裏給我發消息 售後服務專員

在(zài)線咨詢

免費通話

24小時(shí)免費咨詢

請輸入您的(de)聯系電話,座機請加區号

免費通話

微信掃一(yī / yì /yí)掃

微信聯系
返回頂部