0已點贊

OpenAI推出重磅o3推理模型！展現強大推理能力

產業報道 2025年01月01日 10:41:29來源：化工儀器網 17384

摘要近日，美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。

　　【儀表網產業報道】近日，美國開放人工智能研究中心(OpenAI)介紹了其最新的人工智能(AI)推理模型——o3及其輕量版o3-mini。

　　o3能夠進行復雜任務的推理，在科學、編碼、數學等領域的表現要優于前一代o1模型，同時花費的處理時間也會更長。以一項評估AI高級數學推理能力的測試EpochAI Frontier Math為例，以往所有模型都未達到2%的準確率，而o3準確率達到了創紀錄的25%。

　　在2024年美國數學邀請賽中，o3模型的準確率高達96.7%，僅答錯了一個問題。而在OpenAI研究人員認為最嚴格的基準測試之一——Frontier Math中，o3也解決了25.2%的問題。盡管這一得分看似不高，但此前其他大型語言模型曾在此“集體翻車”，正確率均未超過2%。

　　在對科學知識的掌握方面，o3的表現也超出一般博士水平。在GPQA Diamond(衡量模型在博士級科學問題上的表現，涵蓋化學、物理和生物學方面的專業知識)基準測試中，o3的準確率達到87.7%，超過了人類博士的70%，也比之前o1表現高近10%。

　　此外，o3的編碼能力也比之前的o1系列更勝一籌。在 SWE-bench Verified(衡量AI模型解決現實世界軟件問題的能力)基準上，o3的準確率約為71.7%，比o1高20%以上。在Codeforces編碼競賽平臺中，o3的得分為2727，相當于榜單上第175名人類編程員的水平，而o1得分僅為1891。

　　o3模型讓OpenAI在通往AGI的道路上又邁前了一步。在相關基準測試ARC-AGI中，高配版o3得分為87.5%，低計算設置下o3得分為75.7%，是o1模型的三倍。但高計算模式需要花費極其昂貴的成本，每個任務高達數千美元，低計算模式則需要20美元左右。

我要評論

昵稱

匿名

文明上網，理性發言。（您還可以輸入200個字符)

表情

所有評論僅代表網友意見，與本站立場無關。

儀表網首頁資訊首頁

延伸閱讀

版權與免責聲明

凡本網注明"來源：儀表網"的所有作品，版權均屬于儀表網，未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的，應在授權范圍內使用，并注明"來源：儀表網"。違反上述聲明者，本網將追究其相關法律責任。
本網轉載并注明自其它來源的作品，目的在于傳遞更多信息，并不代表本網贊同其觀點或證實其內容的真實性，不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時，必須保留本網注明的作品來源，并自負版權等法律責任。
如涉及作品內容、版權等問題，請在作品發表之日起一周內與本網聯系，否則視為放棄相關權利。
合作、投稿、轉載授權等相關事宜，請聯系本網。聯系電話：0571-87759945，QQ：1103027433。