[情報] Claude 3.5 Sonnet新增操作電腦能力
https://www.ithome.com.tw/news/165639
陳曉莉
Anthropic更新Claude 3.5 Sonnet,新增操作電腦能力
Anthropic更新中階模型Claude 3.5 Sonnet,打造了一個API讓Claude能夠感知電腦介面並與之互動
AI模型開發業者Anthropic周二(10/22)更新了Claude 3.5 Sonnet,新版Claude 3.5
Sonnet首度開放使用者測試其電腦操作能力,也特別改善了程式碼撰寫及工具使用任務,並宣布將在10月底釋出Claude 3.5 Haiku。
Claude Sonnet為Anthropic所開發的中階模型,著重在取得智力與速度的平衡,Claude
Haiku則是最小也最低階的模型,主打即時回應,而最大的模型Claude Opus則是用來處理更複雜的任務,目前Anthropic僅發表Sonnet 3.5及Haiku 3.5,並未提及Opus 3.5。
為了訓練Claude使用電腦,Anthropic打造了一個API以讓Claude能夠感知電腦介面並與之互動,開發人員即可整合該API,要求Claude將指令(例如:利用我電腦上的資料來填入表格)轉成電腦命令(檢查試算表,移動游標以開啟瀏覽器,導航至最相關的頁面,以及填入表格等)。
Anthropic說,現代的大量工作都是透過電腦進行的,令AI能夠像人類一樣與電腦互動,將解鎖這一代AI助手無法處理的大量應用。這幾年AI有許多重要的發展,像是執行複雜邏輯推理的能力,以及查看與理解圖像的能力,而下一個重要領域則是使用電腦,讓AI模型可直接按照指示使用各種軟體,而不必再透過特製的軟體與電腦互動。開發人員可利用此一功能來自動化重複的流程,建置與測試軟體,或是執行諸如研究等開放式任務。
有一個OSWorld標準是用來評測模型使用電腦的能力,在理解螢幕截圖(Screenshot)上,Claude 3.5 Sonnet取得了14.9%的成績,雖然尚遠不及人類水準(70~75%),卻已高於第二名Cradle BAAI的7.8%,以及OpenAI GPT-4 Vision的7.7%,倘若可以執行更多的步驟,Claude 3.5 Sonnet還能達到22%。
不過,Anthropic坦承Claude目前操作電腦的能力並不完美,人們可以輕鬆執行的滾動、拖曳或縮放對Claude而言都是挑戰,在實驗中,它還停止了正在長時間運作的螢幕錄製,導致所有內容都不見。
目前包括Asana、Canva、Cognition、DoorDash、Replit與The Browser Company都已在測試Claude 3.5 Sonnet的電腦執行能力,其中,線上程式開發平臺Replit利用它來建置
Replit Agent的新功能,可在開發人員建置應用程式的過程中,自動檢查並評估應用程式的表現。
除了操作電腦的能力之外,Claude 3.5 Sonnet在許多評測都有長足的進步,包括GPQA、MMLU Pro、HummaEval、MATH、AIME 2024、MMMU、SWE-bench Verified及TAU-bench等,除了MATH略遜Gemini 1.5 Pro之外,其它評測都勝過Gemini 1.5 Pro、Gemini 1.5 Flash、GPT-4o與GPT-4o mini。
在與撰寫程式相關的HummaEval及SWE-bench Verified評測中,Claude 3.5 Sonnet分別奪得了93.7%及49%的成績,高過前一個版本的88.1%與40.6%。
另一個TAU-bench是用來測試AI代理工具於真實世界場景中的表現,衡量能否處理複雜且多步驟的任務,並與使用者進行自然對話,Claude 3.5 Sonnet在零售領域的表現達到
69.2%,在航空領域的表現為46%,高於前一版的62.6%與36%。
至於速度最快的Claude 3.5 Haiku特別擅長撰寫程式碼,它在HummaEval的得分為88.1%,而在評估解決實際軟體問題能力的SWE-bench Verified上得分亦有40.6%。
Anthropic表示,Claude 3.5 Haiku具備低延遲,更好的指令遵循能力,以及更準確的工具使用,非常適合面向使用者的產品、專門的子代理任務,以及從大量資料生成個人體驗的服務,例如購買歷史紀錄、定價或庫存紀錄等。
不管是Claude 3.5 Sonnet或Claude 3.5 Haiku都可藉由API、Amazon Bedrock及Google
Cloud的Vertex AI存取,只是Claude 3.5 Haiku尚未上線,而且初期僅支援文字,之後才會支援圖像輸入。
心得:連先幫AI輸入資料和手動測試程式碼都不需要了 沒人類工程師的事了
--
爆
[閒聊] AI偏好在所有戰爭遊戲模擬中主動使用核武原來AI都有內建甘地的核平人格... 美國康奈爾大學(Cornell University)一項新研究發現,大型語言模型(LLMs)人工智 慧(AI)在模擬情境中充當外交代表時,時常展現出「難以預測的局勢升級行為,往往會 偏好直接以核攻擊作為結束」。50
[Vtub] 10/28同接鬥蟲金牌 羊 獅羊姬座人生ゲーム 銀牌 Claude Clawmark 出道 銅牌 35 MGS3 齁又贏的一天9
[問卦] Google在AI是如何一次就扳回一城的?在Chatgpt跟Claude大放異彩時 Google在AI領域卻是默默無名 後來退出Bard迎戰 還因為回答錯了被嘲笑 結果現在推出新的語言模型Gemini9
[問卦] claude還是chatgpt如標題 會員都是20鎂 最近刷電學兩個都偶爾會算錯 但是大部分claude的過程比較看得懂 chatgpt會霹靂啪啦跑出一堆算式 不過claude目前好像還沒有安卓版==9
[問卦] gpt根本不能解100%leetcode hard問題吧小弟剛才使用gpt4o跟claude 3.5 sonnet解UVa的protecting Zong 對應leetcode大概是med ium -Hard的等級。 我給gpt他們至少各5次測資跟編譯錯誤資訊,結果還是沒通過,我靠網路上的解答才通過, gpt4o/claude 3.5 sonnet 根本過譽了吧 有無gpt被過度神話的八卦?7
[問卦] 工作買ChatGPT還是Claude會員?目前在金融業打工 有買Claude會員 幫我寫績效報告啥的 基本上丟財報進去 出來的東西可以用6
[問卦] Claude 3.5 Sonnet & ChatGPT-4o,都幾Claude 3.5 Sonnet莫名上線了 發現速度是真的比 Claude 3 Opus快 也沒有該死的中文半形逗點 假如要繼續課金 要選Claude 3.5 Sonnet?2
[問卦] 大家都講AI,結果chatGPT和claude都當機靠北啊 我花錢買的chatGPT和claude都掛掉了啦 明天要交作業怎麼辦? 有沒有其他模型可以用啊 不要推薦免費的1
[問卦] Claude 3 Opus V.S. ChatGPT-4o最近工作常用到生成式AI寫報告 也月租了Claude 3 Opus 每個月大概650新台幣 最近ChatGPT-4o橫空出世 如果只花一份錢X
[問卦] 有沒有chatGPT對手 Claude的八卦?如題 很強大的AI平台,但好像沒什麼人知道? 一次可以丟五篇pdf,也可以丟論文叫他概述 回答的內容也還可以 問他什麼是命定論,扯到量子力學