OpenAI 最新研究：當前 AI 模型仍無法媲美人(rén)類程序員雲南德宏一(yī / yì ／yí)蜂猴闖入火鍋店，眼大(dà)而(ér)凸起，會自制毒液，有兩條舌頭（程序員）-新聞中心-邗江區怡越電子(zǐ)商務工作室-怡越電子(zǐ)商務工作室

IT之(zhī)家 2 月 24 日消息，盡管 OpenAI 首席執行官薩姆・奧爾特曼（Sam Altman）堅稱，到(dào)今年年底，人(rén)工智能模型将能夠超越“低級别”軟件工程師，但該公司研究人(rén)員的(de)最新研究卻表明，即使是(shì)目前最先進的(de) AI 模型，仍無法與人(rén)類程序員相媲美。

研究人(rén)員在(zài)一(yī / yì ／yí)篇新論文中指出(chū)，即使是(shì)前沿模型 —— 即那些最具創新性和(hé / huò)突破性的(de) AI 系統 ——“仍然無法解決大(dà)多數”編程任務。爲(wéi / wèi)此，研究人(rén)員開發了(le／liǎo)一(yī / yì ／yí)個(gè)名爲(wéi / wèi) SWE-Lancer 的(de)新基準測試工具，該工具基于(yú)自由職業者網站 Upwork 上(shàng)的(de) 1400 多個(gè)軟件工程任務。通過這(zhè)一(yī / yì ／yí)基準測試，OpenAI 對三款大(dà)型語言模型（LLMs）進行了(le／liǎo)測試，分别是(shì)其自身的(de) o1 推理模型、旗艦産品 GPT-4o，以(yǐ)及 Anthropic 公司的(de) Claude 3.5 Sonnet。

具體而(ér)言，這(zhè)一(yī / yì ／yí)新基準測試評估了(le／liǎo)這(zhè)些 LLMs 在(zài)處理 Upwork 上(shàng)的(de)兩類任務時(shí)的(de)表現：一(yī / yì ／yí)類是(shì)個(gè)體任務，涉及修複漏洞并實施修複措施；另一(yī / yì ／yí)類是(shì)管理任務，要(yào / yāo)求模型從更宏觀的(de)角度做出(chū)更高層次的(de)決策。值得注意的(de)是(shì)，在(zài)測試過程中，這(zhè)些模型被禁止訪問互聯網，因此它們無法直接抄襲網上(shàng)已有的(de)類似答案。

這(zhè)些模型所承擔的(de)任務在(zài) Upwork 上(shàng)的(de)價值累計可達數十萬美元，但它們僅能解決一(yī / yì ／yí)些表面的(de)軟件問題，卻無法在(zài)大(dà)型項目中真正找到(dào)漏洞及其根源。這(zhè)種“半成品”的(de)解決方案，對于(yú)與 AI 有過合作經驗的(de)人(rén)來(lái)說(shuō)并不(bù)陌生 ——AI 擅長輸出(chū)聽起來(lái)自信滿滿的(de)信息，但在(zài)仔細審查時(shí)往往漏洞百出(chū)。

盡管論文指出(chū)，這(zhè)三款 LLMs 通常能夠“遠快于(yú)人(rén)類”地(dì / de)完成任務，但它們卻無法理解漏洞的(de)廣泛性及其背景，從而(ér)導緻解決方案“錯誤或不(bù)夠全面”。

研究人(rén)員解釋稱，Claude 3.5 Sonnet 的(de)表現優于(yú)另外兩款 OpenAI 模型，并且在(zài)測試中“賺取”的(de)金額也(yě)超過了(le／liǎo) o1 和(hé / huò) GPT-4o。然而(ér)，其大(dà)多數答案仍然是(shì)錯誤的(de)。研究人(rén)員指出(chū)，任何模型若想被真正用于(yú)實際編程任務，都需要(yào / yāo)具備“更高的(de)可靠性”。

簡而(ér)言之(zhī)，該論文似乎表明，盡管這(zhè)些前沿模型能夠快速地(dì / de)處理一(yī / yì ／yí)些細節任務，但它們在(zài)處理這(zhè)些任務時(shí)的(de)技能水平，仍遠遠不(bù)及人(rén)類工程師。

盡管近年來(lái)這(zhè)些大(dà)型語言模型取得了(le／liǎo)快速的(de)發展，并且未來(lái)還會繼續進步，但它們目前在(zài)軟件工程領域的(de)技能水平仍不(bù)足以(yǐ)取代人(rén)類。然而(ér)IT之(zhī)家注意到(dào)，這(zhè)似乎并未阻止一(yī / yì ／yí)些首席執行官解雇人(rén)類程序員，轉而(ér)使用這(zhè)些尚未成熟的(de) AI 模型。

新聞中心

OpenAI 最新研究：當前 AI 模型仍無法媲美人(rén)類程序員雲南德宏一(yī / yì ／yí)蜂猴闖入火鍋店，眼大(dà)而(ér)凸起，會自制毒液，有兩條舌頭（程序員）

邗江區怡越電子(zǐ)商務工作室

聯系我們

在(zài)線咨詢

免費通話

微信掃一(yī / yì ／yí)掃