|
深度求索(DeepSeek)這家公司可謂是一舉成名,迅速在人工智能領(lǐng)域引起了廣泛關(guān)注。不過(guò),我在訪問(wèn)官網(wǎng)時(shí)發(fā)現(xiàn),在 DeepSeek 的官網(wǎng)上,展示的模型是 V3:
然而,真正讓 DeepSeek 聲名大噪的,卻是 R1 這一模型。根據(jù)發(fā)布記錄,V3 要早于 R1 發(fā)布。R1 開(kāi)源發(fā)布,難道是 V3 的精簡(jiǎn)版本?就像很多商業(yè)軟件的做法。就這個(gè)問(wèn)題,我問(wèn)了一問(wèn) DeepSeek,得到如下答案:
后面一個(gè)答案是開(kāi)啟了深度思考模式下的答案。這種深度思考模式也是 DeepSeek 引起轟動(dòng)的原因之一,它會(huì)將分析過(guò)程展現(xiàn)出來(lái),而不像之前的 GPT,就如同一個(gè)黑盒,只給出一個(gè)答案。 那么,DeepSeek V3 和 R1 之間到底有什么區(qū)別?為此,我專門去搜了一下資料,進(jìn)行了總結(jié)。由于水平有限,不一定正確,如有錯(cuò)漏,還望指正。 模型目標(biāo)與設(shè)計(jì)理念
DeepSeek R1 主要針對(duì)需要復(fù)雜邏輯推理的任務(wù)進(jìn)行優(yōu)化,并利用強(qiáng)化學(xué)習(xí)技術(shù)來(lái)提升推理能力。該模型特別適用于涉及邏輯推理和問(wèn)題求解的應(yīng)用場(chǎng)景。
DeepSeek V3 采用混合專家(MoE)架構(gòu),主要面向自然語(yǔ)言處理(NLP)任務(wù),旨在提供高效、可擴(kuò)展的解決方案。其廣泛的應(yīng)用涵蓋了客戶服務(wù)、文本摘要、內(nèi)容生成等多個(gè)領(lǐng)域。 模型架構(gòu)解析
DeepSeek V3 采用混合專家(Mixture-of-Experts, MoE)架構(gòu),這一設(shè)計(jì)極大地提升了大型語(yǔ)言模型的計(jì)算效率和性能。其關(guān)鍵特點(diǎn)如下:
2. DeepSeek R1 利用 V3 的架構(gòu)優(yōu)化推理 DeepSeek R1 充分利用了 V3 的架構(gòu),但在設(shè)計(jì)上針對(duì)推理任務(wù)進(jìn)行了優(yōu)化:
DeepSeek R1 依靠動(dòng)態(tài)門控機(jī)制,使其在推理任務(wù)中表現(xiàn)出色。它可以根據(jù)查詢內(nèi)容選擇性激活相關(guān)專家,從而在保證計(jì)算效率的同時(shí),提供精準(zhǔn)的邏輯推理能力。此外,該模型結(jié)合了負(fù)載均衡策略,確保專家間的合理分工,避免單個(gè)專家成為計(jì)算瓶頸。 結(jié)語(yǔ)DeepSeek V3 和 R1 各自擅長(zhǎng)不同的任務(wù)領(lǐng)域:
現(xiàn)在 DeepSeek 的 Chat 應(yīng)用,應(yīng)該是結(jié)合了兩個(gè)模型的優(yōu)勢(shì)。在對(duì)話框中如果開(kāi)啟了深度思考模式,就會(huì)啟用 R1模型。想必其它 AI 廠商很快就會(huì)跟進(jìn),也會(huì)加入深度思考模式。 如何學(xué)習(xí)大模型 AI ?由于新崗位的生產(chǎn)效率,要優(yōu)于被取代崗位的生產(chǎn)效率,所以實(shí)際上整個(gè)社會(huì)的生產(chǎn)效率是提升的。 但是具體到個(gè)人,只能說(shuō)是: “最先掌握AI的人,將會(huì)比較晚掌握AI的人有競(jìng)爭(zhēng)優(yōu)勢(shì)”。 這句話,放在計(jì)算機(jī)、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的開(kāi)局時(shí)期,都是一樣的道理。 我在一線互聯(lián)網(wǎng)企業(yè)工作十余年里,指導(dǎo)過(guò)不少同行后輩。幫助很多人得到了學(xué)習(xí)和成長(zhǎng)。 我意識(shí)到有很多經(jīng)驗(yàn)和知識(shí)值得分享給大家,也可以通過(guò)我們的能力和經(jīng)驗(yàn)解答大家在人工智能學(xué)習(xí)中的很多困惑,所以在工作繁忙的情況下還是堅(jiān)持各種整理和分享。但苦于知識(shí)傳播途徑有限,很多互聯(lián)網(wǎng)行業(yè)朋友無(wú)法獲得正確的資料得到學(xué)習(xí)提升,故此將并將重要的AI大模型資料包括AI大模型入門學(xué)習(xí)思維導(dǎo)圖、精品AI大模型學(xué)習(xí)書籍手冊(cè)、視頻教程、實(shí)戰(zhàn)學(xué)習(xí)等錄播視頻免費(fèi)分享出來(lái)。
第一階段(10天):初階應(yīng)用該階段讓大家對(duì)大模型 AI有一個(gè)最前沿的認(rèn)識(shí),對(duì)大模型 AI 的理解超過(guò) 95% 的人,可以在相關(guān)討論時(shí)發(fā)表高級(jí)、不跟風(fēng)、又接地氣的見(jiàn)解,別人只會(huì)和 AI 聊天,而你能調(diào)教 AI,并能用代碼將大模型和業(yè)務(wù)銜接。
第二階段(30天):高階應(yīng)用該階段我們正式進(jìn)入大模型 AI 進(jìn)階實(shí)戰(zhàn)學(xué)習(xí),學(xué)會(huì)構(gòu)造私有知識(shí)庫(kù),擴(kuò)展 AI 的能力??焖匍_(kāi)發(fā)一個(gè)完整的基于 agent 對(duì)話機(jī)器人。掌握功能最強(qiáng)的大模型開(kāi)發(fā)框架,抓住最新的技術(shù)進(jìn)展,適合 Python 和 JavaScript 程序員。
第三階段(30天):模型訓(xùn)練恭喜你,如果學(xué)到這里,你基本可以找到一份大模型 AI相關(guān)的工作,自己也能訓(xùn)練 GPT 了!通過(guò)微調(diào),訓(xùn)練自己的垂直大模型,能獨(dú)立訓(xùn)練開(kāi)源多模態(tài)大模型,掌握更多技術(shù)方案。 到此為止,大概2個(gè)月的時(shí)間。你已經(jīng)成為了一名“AI小子”。那么你還想往下探索嗎?
第四階段(20天):商業(yè)閉環(huán)對(duì)全球大模型從性能、吞吐量、成本等方面有一定的認(rèn)知,可以在云端和本地等多種環(huán)境下部署大模型,找到適合自己的項(xiàng)目/創(chuàng)業(yè)方向,做一名被 AI 武裝的產(chǎn)品經(jīng)理。
學(xué)習(xí)是一個(gè)過(guò)程,只要學(xué)習(xí)就會(huì)有挑戰(zhàn)。天道酬勤,你越努力,就會(huì)成為越優(yōu)秀的自己。 如果你能在15天內(nèi)完成所有的任務(wù),那你堪稱天才。然而,如果你能完成 60-70% 的內(nèi)容,你就已經(jīng)開(kāi)始具備成為一名大模型 AI 的正確特征了。
|
|
|
來(lái)自: instl > 《deepseek》