电竞比分网-中国电竞赛事及体育赛事平台

分享

DeepCode: 開源智能體編程,把論文直接轉(zhuǎn)換成可以執(zhí)行的代碼

 東西二王 2025-11-16 發(fā)布于重慶

2025-11-08 06:58·人工智能研究所

當我們回顧最近幾年編程領(lǐng)域的變革,從自動補全、代碼補丁、聊天式編程助手,到今天這種“從文本描述直達可執(zhí)行系統(tǒng)架構(gòu)+生成測試”的系統(tǒng),似乎一個新的時代正在悄然來臨。DeepCode 的發(fā)布,就是這一波浪潮里的標志性事件。

香港大學(xué)數(shù)據(jù)智能實驗室(HKUDS)推出的DeepCode如一匹黑馬,橫空出世。這款開源的多代理AI編碼平臺,不僅能將復(fù)雜的研究論文轉(zhuǎn)化為生產(chǎn)就緒代碼,還能從簡單文本描述生成前端Web界面和后端服務(wù)。

DeepCode在OpenAI的PaperBench基準測試上刷新紀錄,超越人類專家和頂級商業(yè)AI工具,標志著AI在軟件工程領(lǐng)域的重大突破。

根據(jù)其公開信息,DeepCode 在 PaperBench Code?Dev(由 OpenAI 發(fā)布的嚴苛測試集)中,取得以下成績:

  • 超越人類專家(頂級機器學(xué)習(xí)博士):75.9% vs 72.4%。

  • 超越最先進商業(yè)代碼智能體:84.8% vs 商用助手約 58.7%。

  • 超越科學(xué)編程智能體:73.5% vs 51.1%。

  • 超越基于大型語言模型 (LLM) 智能體:73.5% vs 43.3%。

這些數(shù)字足夠醒目,意味著 DeepCode 不僅在“寫代碼”范疇里搶跑,更可能在“造出系統(tǒng)/框架級代碼”上開創(chuàng)新局。

DeepCode的核心:多代理架構(gòu),自動化從概念到代碼

DeepCode不是簡單的代碼生成器,而是一個自主的多代理系統(tǒng),專為解決開發(fā)痛點設(shè)計。它能處理多模態(tài)輸入,包括研究論文、自然語言提示、URL和文檔(如PDF、DOC),輸出高質(zhì)量、可部署的代碼。

核心功能包括:

Paper2Code:自動從學(xué)術(shù)論文中提取算法邏輯、數(shù)學(xué)模型,生成優(yōu)化實現(xiàn),加速科研復(fù)現(xiàn)。

Text2Web:將文本描述轉(zhuǎn)為視覺美觀、功能完整的前端Web代碼。

Text2Backend:生成高效、可擴展的后端代碼,包括API端點和數(shù)據(jù)庫模式。

其多代理架構(gòu)像一支高效團隊:中央編排代理協(xié)調(diào)一切,意圖理解代理解析用戶需求,文檔解析代理處理論文,代碼規(guī)劃代理設(shè)計架構(gòu),參考挖掘和索引代理搜索最佳庫,生成代理合成代碼。 這種設(shè)計基于Model Context Protocol (MCP),無縫集成工具如搜索引擎、文件操作和GitHub下載,確保可靠的AI-外部系統(tǒng)交互。

DeepCode還內(nèi)置CodeRAG系統(tǒng),利用語義嵌入和圖依賴分析,從海量代碼庫中挖掘模式;高效內(nèi)存機制處理大規(guī)模上下文;質(zhì)量保障模塊自動生成測試和文檔,確保代碼可靠。

多智能體架構(gòu):系統(tǒng)工程,而非單模型孤島

從其公開說明來看,DeepCode 采用了“多智能體”系統(tǒng):包括意圖理解智能體、文檔解析智能體、代碼規(guī)劃智能體、代碼生成智能體、代碼索引智能體等等。從策略協(xié)調(diào)、依賴分析、記憶壓縮、高效生成到測試/驗證,整個流程都被架構(gòu)化、模塊化。

這種設(shè)計意味著:它并不是單純拋一個更大的 LLM 而已,而是在“怎么用模型+怎么組織任務(wù)”上下功夫。

重視流程、測試與 “可交付”

DeepCode 不僅生成代碼,也強調(diào)質(zhì)量保證:靜態(tài)分析、自動單元測試、文檔合成、依賴分析等等。換言之,它試圖縮短從“生成代碼”到“可以交付運行”的距離,而不是停留在“生成一個片段”即可的階段。

PaperBench基準炸裂:超越人類,碾壓商業(yè)巨頭

PaperBench是由OpenAI發(fā)布的嚴格基準,要求AI代理從頭復(fù)現(xiàn)20篇ICML 2024論文,包括8316個可評分組件,通過分層權(quán)重的SimpleJudge評估。代理需理解論文、開發(fā)代碼、執(zhí)行實驗,并匹配結(jié)果,一切在隔離環(huán)境中進行。

DeepCode在這里大放異彩:

整體得分:73.5%,遠超基線。

  • vs 人類專家:在3篇論文子集上,75.9% vs 頂級ML博士的72.4%(+3.5%),證明AI已超越專家級復(fù)現(xiàn)。

  • vs 商業(yè)代碼代理:在5篇子集上,84.8% vs 最佳(如Claude Code 58.7%),提升26.1%。Cursor 58.4%、Codex 40.0% 均被甩開。

  • vs 科學(xué)代碼代理:73.5% vs PaperCoder 51.1%(+22.4%),多模塊架構(gòu)勝過簡單管道。

  • vs LLM代理:73.5% vs 最佳o1 BasicAgent 43.3%(+30.2%)。Claude 3.5 Sonnet + IterativeAgent僅27.5%。

這些結(jié)果強調(diào),DeepCode的架構(gòu)而非基礎(chǔ)模型,是性能躍升的關(guān)鍵

類別,DeepCode得分,對比對象,提升
人類專家,75.9%,72.4%,+3.5%
商業(yè)代理,84.8%,58.7%,+26.1%
科學(xué)代理,73.5%,51.1%,+22.4%LLM代理,73.5%,43.3%,+30.2%

DeepCode 的出現(xiàn)對我而言,是一個信號 — 編程工具從“工具助手”進入“工具代理”階段?!澳銓懘a”→“你指令生成代碼”這種模式正在漸漸成為可能。

但值得強調(diào)的是:革命從來不是瞬間完成的。雖然在基準測試中 DeepCode 看起來很強,但落地實際產(chǎn)品、復(fù)雜系統(tǒng)、真實迭代中的表現(xiàn),仍須時間檢驗。

如何上手:簡單安裝,立即體驗

DeepCode開源在GitHub(
https://github.com/HKUDS/DeepCode),支持Web(Streamlit)、CLI和API接口。安裝只需pip install deepcode-hku,配置API密鑰(OpenAI/Anthropic),即可啟動。

舉報

評論 23

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多