了(le/liǎo)解最新公司動态及行業資訊
IT之(zhī)家 2 月 24 日消息,盡管 OpenAI 首席執行官薩姆・奧爾特曼(Sam Altman)堅稱,到(dào)今年年底,人(rén)工智能模型将能夠超越“低級别”軟件工程師,但該公司研究人(rén)員的(de)最新研究卻表明,即使是(shì)目前最先進的(de) AI 模型,仍無法與人(rén)類程序員相媲美。
研究人(rén)員在(zài)一(yī / yì /yí)篇新論文中指出(chū),即使是(shì)前沿模型 —— 即那些最具創新性和(hé / huò)突破性的(de) AI 系統 ——“仍然無法解決大(dà)多數”編程任務。爲(wéi / wèi)此,研究人(rén)員開發了(le/liǎo)一(yī / yì /yí)個(gè)名爲(wéi / wèi) SWE-Lancer 的(de)新基準測試工具,該工具基于(yú)自由職業者網站 Upwork 上(shàng)的(de) 1400 多個(gè)軟件工程任務。通過這(zhè)一(yī / yì /yí)基準測試,OpenAI 對三款大(dà)型語言模型(LLMs)進行了(le/liǎo)測試,分别是(shì)其自身的(de) o1 推理模型、旗艦産品 GPT-4o,以(yǐ)及 Anthropic 公司的(de) Claude 3.5 Sonnet。
具體而(ér)言,這(zhè)一(yī / yì /yí)新基準測試評估了(le/liǎo)這(zhè)些 LLMs 在(zài)處理 Upwork 上(shàng)的(de)兩類任務時(shí)的(de)表現:一(yī / yì /yí)類是(shì)個(gè)體任務,涉及修複漏洞并實施修複措施;另一(yī / yì /yí)類是(shì)管理任務,要(yào / yāo)求模型從更宏觀的(de)角度做出(chū)更高層次的(de)決策。值得注意的(de)是(shì),在(zài)測試過程中,這(zhè)些模型被禁止訪問互聯網,因此它們無法直接抄襲網上(shàng)已有的(de)類似答案。
這(zhè)些模型所承擔的(de)任務在(zài) Upwork 上(shàng)的(de)價值累計可達數十萬美元,但它們僅能解決一(yī / yì /yí)些表面的(de)軟件問題,卻無法在(zài)大(dà)型項目中真正找到(dào)漏洞及其根源。這(zhè)種“半成品”的(de)解決方案,對于(yú)與 AI 有過合作經驗的(de)人(rén)來(lái)說(shuō)并不(bù)陌生 ——AI 擅長輸出(chū)聽起來(lái)自信滿滿的(de)信息,但在(zài)仔細審查時(shí)往往漏洞百出(chū)。
盡管論文指出(chū),這(zhè)三款 LLMs 通常能夠“遠快于(yú)人(rén)類”地(dì / de)完成任務,但它們卻無法理解漏洞的(de)廣泛性及其背景,從而(ér)導緻解決方案“錯誤或不(bù)夠全面”。
研究人(rén)員解釋稱,Claude 3.5 Sonnet 的(de)表現優于(yú)另外兩款 OpenAI 模型,并且在(zài)測試中“賺取”的(de)金額也(yě)超過了(le/liǎo) o1 和(hé / huò) GPT-4o。然而(ér),其大(dà)多數答案仍然是(shì)錯誤的(de)。研究人(rén)員指出(chū),任何模型若想被真正用于(yú)實際編程任務,都需要(yào / yāo)具備“更高的(de)可靠性”。
簡而(ér)言之(zhī),該論文似乎表明,盡管這(zhè)些前沿模型能夠快速地(dì / de)處理一(yī / yì /yí)些細節任務,但它們在(zài)處理這(zhè)些任務時(shí)的(de)技能水平,仍遠遠不(bù)及人(rén)類工程師。
盡管近年來(lái)這(zhè)些大(dà)型語言模型取得了(le/liǎo)快速的(de)發展,并且未來(lái)還會繼續進步,但它們目前在(zài)軟件工程領域的(de)技能水平仍不(bù)足以(yǐ)取代人(rén)類。然而(ér)IT之(zhī)家注意到(dào),這(zhè)似乎并未阻止一(yī / yì /yí)些首席執行官解雇人(rén)類程序員,轉而(ér)使用這(zhè)些尚未成熟的(de) AI 模型。