DeepCode: 開源智能體編程，把論文直接轉(zhuǎn)換成可以執(zhí)行的代碼

東西二王 2025-11-16 發(fā)布于重慶

展開全文

2025-11-08 06:58·人工智能研究所

當我們回顧最近幾年編程領(lǐng)域的變革，從自動補全、代碼補丁、聊天式編程助手，到今天這種“從文本描述直達可執(zhí)行系統(tǒng)架構(gòu)＋生成測試”的系統(tǒng)，似乎一個新的時代正在悄然來臨。DeepCode 的發(fā)布，就是這一波浪潮里的標志性事件。

香港大學(xué)數(shù)據(jù)智能實驗室（HKUDS）推出的DeepCode如一匹黑馬，橫空出世。這款開源的多代理AI編碼平臺，不僅能將復(fù)雜的研究論文轉(zhuǎn)化為生產(chǎn)就緒代碼，還能從簡單文本描述生成前端Web界面和后端服務(wù)。

DeepCode在OpenAI的PaperBench基準測試上刷新紀錄，超越人類專家和頂級商業(yè)AI工具，標志著AI在軟件工程領(lǐng)域的重大突破。

根據(jù)其公開信息，DeepCode 在 PaperBench Code?Dev（由 OpenAI 發(fā)布的嚴苛測試集）中，取得以下成績：

超越人類專家（頂級機器學(xué)習(xí)博士）：75.9% vs 72.4%。
超越最先進商業(yè)代碼智能體：84.8% vs 商用助手約 58.7%。
超越科學(xué)編程智能體：73.5% vs 51.1%。
超越基于大型語言模型 (LLM) 智能體：73.5% vs 43.3%。

這些數(shù)字足夠醒目，意味著 DeepCode 不僅在“寫代碼”范疇里搶跑，更可能在“造出系統(tǒng)／框架級代碼”上開創(chuàng)新局。

DeepCode的核心：多代理架構(gòu)，自動化從概念到代碼

DeepCode不是簡單的代碼生成器，而是一個自主的多代理系統(tǒng)，專為解決開發(fā)痛點設(shè)計。它能處理多模態(tài)輸入，包括研究論文、自然語言提示、URL和文檔（如PDF、DOC），輸出高質(zhì)量、可部署的代碼。

核心功能包括：

Paper2Code：自動從學(xué)術(shù)論文中提取算法邏輯、數(shù)學(xué)模型，生成優(yōu)化實現(xiàn)，加速科研復(fù)現(xiàn)。

Text2Web：將文本描述轉(zhuǎn)為視覺美觀、功能完整的前端Web代碼。

Text2Backend：生成高效、可擴展的后端代碼，包括API端點和數(shù)據(jù)庫模式。

其多代理架構(gòu)像一支高效團隊：中央編排代理協(xié)調(diào)一切，意圖理解代理解析用戶需求，文檔解析代理處理論文，代碼規(guī)劃代理設(shè)計架構(gòu)，參考挖掘和索引代理搜索最佳庫，生成代理合成代碼。這種設(shè)計基于Model Context Protocol (MCP)，無縫集成工具如搜索引擎、文件操作和GitHub下載，確保可靠的AI-外部系統(tǒng)交互。

DeepCode還內(nèi)置CodeRAG系統(tǒng)，利用語義嵌入和圖依賴分析，從海量代碼庫中挖掘模式；高效內(nèi)存機制處理大規(guī)模上下文；質(zhì)量保障模塊自動生成測試和文檔，確保代碼可靠。

多智能體架構(gòu)：系統(tǒng)工程，而非單模型孤島

從其公開說明來看，DeepCode 采用了“多智能體”系統(tǒng)：包括意圖理解智能體、文檔解析智能體、代碼規(guī)劃智能體、代碼生成智能體、代碼索引智能體等等。從策略協(xié)調(diào)、依賴分析、記憶壓縮、高效生成到測試／驗證，整個流程都被架構(gòu)化、模塊化。

這種設(shè)計意味著：它并不是單純拋一個更大的 LLM 而已，而是在“怎么用模型＋怎么組織任務(wù)”上下功夫。

重視流程、測試與 “可交付”

DeepCode 不僅生成代碼，也強調(diào)質(zhì)量保證：靜態(tài)分析、自動單元測試、文檔合成、依賴分析等等。換言之，它試圖縮短從“生成代碼”到“可以交付運行”的距離，而不是停留在“生成一個片段”即可的階段。

PaperBench基準炸裂：超越人類，碾壓商業(yè)巨頭

PaperBench是由OpenAI發(fā)布的嚴格基準，要求AI代理從頭復(fù)現(xiàn)20篇ICML 2024論文，包括8316個可評分組件，通過分層權(quán)重的SimpleJudge評估。代理需理解論文、開發(fā)代碼、執(zhí)行實驗，并匹配結(jié)果，一切在隔離環(huán)境中進行。

DeepCode在這里大放異彩：

整體得分：73.5%，遠超基線。

vs 人類專家：在3篇論文子集上，75.9% vs 頂級ML博士的72.4%（+3.5%），證明AI已超越專家級復(fù)現(xiàn)。
vs 商業(yè)代碼代理：在5篇子集上，84.8% vs 最佳（如Claude Code 58.7%），提升26.1%。Cursor 58.4%、Codex 40.0% 均被甩開。
vs 科學(xué)代碼代理：73.5% vs PaperCoder 51.1%（+22.4%），多模塊架構(gòu)勝過簡單管道。
vs LLM代理：73.5% vs 最佳o1 BasicAgent 43.3%（+30.2%）。Claude 3.5 Sonnet + IterativeAgent僅27.5%。

這些結(jié)果強調(diào)，DeepCode的架構(gòu)而非基礎(chǔ)模型，是性能躍升的關(guān)鍵

類別,DeepCode得分,對比對象,提升
人類專家,75.9%,72.4%,+3.5%
商業(yè)代理,84.8%,58.7%,+26.1%
科學(xué)代理,73.5%,51.1%,+22.4%LLM代理,73.5%,43.3%,+30.2%

DeepCode 的出現(xiàn)對我而言，是一個信號 — 編程工具從“工具助手”進入“工具代理”階段?！澳銓懘a”→“你指令生成代碼”這種模式正在漸漸成為可能。

但值得強調(diào)的是：革命從來不是瞬間完成的。雖然在基準測試中 DeepCode 看起來很強，但落地實際產(chǎn)品、復(fù)雜系統(tǒng)、真實迭代中的表現(xiàn)，仍須時間檢驗。

如何上手：簡單安裝，立即體驗

DeepCode開源在GitHub（
https://github.com/HKUDS/DeepCode），支持Web（Streamlit）、CLI和API接口。安裝只需pip install deepcode-hku，配置API密鑰（OpenAI/Anthropic），即可啟動。

舉報

評論 23

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報。

电竞比分网-中国电竞赛事及体育赛事平台

DeepCode: 開源智能體編程，把論文直接轉(zhuǎn)換成可以執(zhí)行的代碼

DeepCode的核心：多代理架構(gòu)，自動化從概念到代碼

多智能體架構(gòu)：系統(tǒng)工程，而非單模型孤島

重視流程、測試與 “可交付”

PaperBench基準炸裂：超越人類，碾壓商業(yè)巨頭

如何上手：簡單安裝，立即體驗

DeepCode的核心：多代理架構(gòu)，自動化從概念到代碼

多智能體架構(gòu)：系統(tǒng)工程，而非單模型孤島

PaperBench基準炸裂：超越人類，碾壓商業(yè)巨頭