【原】MLMs之Claude：Claude 3.5 Sonnet的簡介、安裝和使用方法、案例應(yīng)用之詳細攻略

處女座的程序猿 2024-06-24 發(fā)布于上海

展開全文

MLMs之Claude：Claude 3.5 Sonnet的簡介、安裝和使用方法、案例應(yīng)用之詳細攻略

Claude 3.5 Sonnet的簡介

2024年6月21日，Claude?AI團隊重磅發(fā)布Claude 3.5 Sonnet。Claude 3.5 Sonnet 是 Claude 3.5 模型家族中的首個版本，旨在提高智能水平，超越競爭對手和之前的模型。

Claude 3.5 Sonnet在廣泛的評估中表現(xiàn)出色，超越了競爭對手模型和Claude 3 Opus，成為行業(yè)新標(biāo)桿，同時保持了中端模型Claude 3 Sonnet的速度和成本。

Claude 3.5 Sonnet現(xiàn)已在Claude.ai和Claude iOS應(yīng)用程序上免費提供，而Claude Pro和Team計劃訂閱者可以在更高的速率限制下訪問。此外，它還通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI提供。該模型的費用為每百萬輸入標(biāo)記$3，每百萬輸出標(biāo)記$15，具有200K標(biāo)記的上下文窗口。

官方地址：Introducing Claude 3.5 Sonnet \ Anthropic

1、功能

>> 免費訪問：在 Claude.ai 和 iOS 應(yīng)用上免費提供，Pro 和 Team 訂閱者有更高的速率限制。
>> 多平臺支持：通過 Anthropic API、Amazon Bedrock 和 Google Cloud’s Vertex AI 提供。
>> 視覺能力：改進圖表解釋和不完美圖像的文本轉(zhuǎn)錄。

2、核心技術(shù)點

>> 速度提升：運行速度是 Claude 3 Opus 的兩倍。
>> 編程能力：在內(nèi)部評估中解決64%的問題，顯著優(yōu)于 Claude 3 Opus。
>> 新功能：Artifacts 功能，提供實時生成和編輯工作空間。

3、官方文章解讀

前沿智能，速度提升2倍

Claude模型家族

Claude 3.5 Sonnet在研究生水平的推理（GPQA）、本科水平的知識（MMLU）和編碼能力（HumanEval）方面設(shè)立了新的行業(yè)基準(zhǔn)。它在理解細微差別、幽默和復(fù)雜指令方面表現(xiàn)出顯著改進，并且在以自然、親切的語氣撰寫高質(zhì)量內(nèi)容方面表現(xiàn)出色。

Claude 3.5 Sonnet的運行速度是Claude 3 Opus的兩倍。這一性能提升結(jié)合成本效益，使Claude 3.5 Sonnet成為處理復(fù)雜任務(wù)（如上下文敏感的客戶支持和多步驟工作流程協(xié)調(diào)）的理想選擇。

在內(nèi)部的代理編碼評估中，Claude 3.5 Sonnet解決了64%的問題，超越了解決38%問題的Claude 3 Opus。我們的評估測試了模型在給定自然語言描述的期望改進情況下，修復(fù)錯誤或添加功能到開源代碼庫的能力。通過指示和提供相關(guān)工具，Claude 3.5 Sonnet能夠獨立編寫、編輯和執(zhí)行代碼，具有復(fù)雜的推理和故障排除能力。它可以輕松處理代碼轉(zhuǎn)換，使其在更新遺留應(yīng)用程序和遷移代碼庫方面特別有效。

Claude 3.5 Sonnet基準(zhǔn)測試

最先進的視覺

Claude 3.5 Sonnet是我們迄今為止最強大的視覺模型，在標(biāo)準(zhǔn)視覺基準(zhǔn)測試中超越了Claude 3 Opus。這些顯著的改進在需要視覺推理的任務(wù)中最為明顯，如解釋圖表和圖形。Claude 3.5 Sonnet還可以準(zhǔn)確地從不完美的圖像中轉(zhuǎn)錄文本，這在零售、物流和金融服務(wù)中至關(guān)重要，因為AI可以從圖像、圖形或插圖中獲取比單純文本更多的見解。

Claude 3.5 Sonnet視覺評估

Artifacts——使用Claude的新方式

今天，我們還在Claude.ai上引入了一項新功能Artifacts，擴展了用戶與Claude互動的方式。當(dāng)用戶要求Claude生成代碼片段、文本文檔或網(wǎng)站設(shè)計等內(nèi)容時，這些Artifacts會出現(xiàn)在對話旁邊的專用窗口中。這創(chuàng)造了一個動態(tài)工作空間，用戶可以實時查看、編輯和基于Claude的創(chuàng)作進行構(gòu)建，無縫整合AI生成的內(nèi)容到他們的項目和工作流程中。

這項預(yù)覽功能標(biāo)志著Claude從對話式AI向協(xié)作工作環(huán)境的演變。這只是Claude.ai更廣闊愿景的開始，不久將擴展支持團隊協(xié)作。在不久的將來，團隊——甚至整個組織——將能夠在一個共享空間中安全地集中他們的知識、文檔和正在進行的工作，Claude將作為按需的團隊成員提供支持。

安全和隱私的承諾

我們的模型經(jīng)過嚴格測試，并經(jīng)過訓(xùn)練以減少濫用。盡管Claude 3.5 Sonnet的智能水平有所提升，我們的紅隊評估結(jié)果表明Claude 3.5 Sonnet仍保持在ASL-2。更多詳細信息可以在模型卡附錄中找到。

作為我們安全和透明度承諾的一部分，我們邀請了外部專家測試和完善該最新模型中的安全機制。我們最近向英國人工智能安全研究所（UK AISI）提供了Claude 3.5 Sonnet進行部署前的安全評估。英國AISI完成了3.5 Sonnet的測試，并根據(jù)今年早些時候宣布的英美AISI合作備忘錄，將結(jié)果分享給了美國人工智能安全研究所（US AISI）。

我們整合了外部主題專家的政策反饋，以確保我們的評估是穩(wěn)健的，并考慮到了濫用的新趨勢。這種參與幫助我們的團隊擴大了評估3.5 Sonnet應(yīng)對各種濫用類型的能力。例如，我們使用來自Thorn的兒童安全專家的反饋來更新我們的分類器并微調(diào)我們的模型。

指導(dǎo)我們AI模型開發(fā)的核心憲法原則之一是隱私。我們不會在沒有用戶明確許可的情況下使用用戶提交的數(shù)據(jù)來訓(xùn)練我們的生成模型。迄今為止，我們尚未使用任何客戶或用戶提交的數(shù)據(jù)來訓(xùn)練我們的生成模型。