您現在的位置：首頁圍場科技 OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相！

OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相！

冷南小哥哥 2024-12-21 圍場科技 195 次瀏覽 3個評論

　　財聯社12月21日訊（編輯瀟湘）OpenAI將其最為重要的尖端產品，放在了為期12天的技術分享直播活動的最后一天！

　　周五，OpenAI發布了下一代的推理模型o3，這是今年早些時候發布的o1推理模型的升級版本。更準確地說，o3是一個模型系列——就像o1一樣，同時有o3和o3-mini兩個版本，后者是一款更小的精簡版模型，針對特定任務進行了微調。

　　OpenAI聲稱，至少在某些條件下，o3模型可以接近實現AGI。

　　AGI是“通用人工智能”（artificial general intelligence）的縮寫，泛指能完成人類所能完成的任何任務的人工智能。OpenAI對此有著自己的定義：“在最具經濟價值的工作上勝過人類的高度自主系統”。

　　實現AGI將是一個大膽的宣言。對于OpenAI來說，其背后也將具有現實意義。根據OpenAI與其親密合作伙伴和投資方微軟的協議條款，一旦OpenAI達到AGI，就沒有義務再讓微軟使用其最先進的技術（即那些符合OpenAI AGI定義的技術）。

　　OpenAI首席執行官山姆·奧爾特曼（Sam Altman）介紹稱，OpenAI計劃在1月底前正式推出o3 mini，之后推出完整版的o3。該公司期待更強大的大型語言模型可以超越現有模型，吸引新的投資和用戶。

　　OpenAI在一篇博客文章中表示，o1模型已經能夠推理復雜的任務，與以前的科學、編碼和數學模型相比，它能解決更具挑戰性的問題。而OpenAI新推出的o3和o3 mini模型目前正在進行內部安全測試，它們將比之前推出的o1模型更加強大。

　　OpenAI兩年前發布了ChatGPT，拉開了AI軍備競賽的序幕。ChatGPT是一款聊天機器人，最初由版本為GPT-3.5的大型語言模型驅動。OpenAI 隨后在2023年推出了GPT-4，并稱其更準確、更具創造性。最近，OpenAI又推出了其首個推理模型o1。

　　該公司發言人表示，OpenAI決定不將下一代新模型命名為o2，“是出于對同名英國電信運營商o2的尊重”。奧爾特曼當天在直播中也調侃稱，“按照OpenAI非常非常不擅長命名的偉大傳統，它將被命名為o3。”

　　o3有多強大？

　　那么，o3具體的表現究竟能有多強大呢？

　　根據OpenAI的介紹，o3模型在ARC-AGI基準上獲得了破紀錄的分數。ARC-AGI由Keras之父Fran ? ois Chollet開發，主要是通過圖形邏輯推理來測試模型的推理能力。以100%為最高分的ARC-AGI評估結果顯示，在低計算場景中，o3得分為75.7%，而在高計算測試中，它達到了87.5%。

　　這標志著，o3的最佳成績超過了標志著達到人類水平的門檻85%。作為對比，目前開放的o1模型的得分僅在25%到32%之間。o3的表現幾乎是o1的逾三倍。

　　在其他基準測試中，o3也明顯脫穎而出。

　　在衡量編程能力的Codeforces Elo評分中，o3取得了2727的Elo評分，而o1評分僅為1891。事實上，o3 mini在中等推理時間模式的表現也已足以超越o1。

　　在OpenAI于8月推出的SWE-bench Verified代碼生成評估基準中，o3的準確率為71.7%，比o1高出了22.8個百分點。

　　o3還在2024年美國AIME數學競賽中取得了96.7%準確率的高分，只缺了一道題，并在GPQA Diamond（一套研究生水平的生物、物理和化學試題）中取得了87.7%準確率的高分。

　　尤為值得一提的是，o3在EpochAI的“FrontierMath”基準測試中創造了新紀錄，解決了25.2%的問題——在該項測試中沒有其他模型能超過2%。

　　Epoch AI此前聯合六十余位全世界的數學家，其中包括教授、IMO命題人、菲爾茲獎獲得者，共同推出了全新的數學基準FrontierMath。這些數學問題從奧賽難度到當今的數學前沿，包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題。

　　行業競爭與風險

　　毫無疑問，o3模型在上述測試中的表現，足以令人感到驚艷。無論在軟件工程、編寫代碼，還是競賽數學、掌握人類博士級別的自然科學知識能力方面，o3都明顯高出o1一籌。

　　OpenAI總裁Greg Brockman表示，“我們最新的推理模型o3是一個突破，在我們最困難的基準上有了階躍函數的改進。我們現在開始安全測試和紅隊演練。”

　　而邁向類人智能的大跨步突破，顯然也會引發一些人士對AI安全性的擔心。

　　風險可能確實存在。人工智能安全測試人員發現，與傳統的“非推理”模型相比，o1的推理能力便已使其試圖欺騙人類用戶的比例更高，而在這方面，Meta、Anthropic和谷歌的領先人工智能模型也是如此。

　　o3試圖欺騙用戶的比例可能比它的前身更高；一旦未來OpenAI的紅隊測試結果出爐，人們或許便能知道具體情況。奧爾特曼對此也表示，在OpenAI發布新的推理模型之前，他更希望有一個聯邦測試框架來指導監控和降低這些模型的風險。

　　在公開發布o3模型之前，OpenAI也將開放外部研究人員測試o3模型的申請流程，申請將于1月10日截止。

　　近期，在OpenAI首批推理模型o1發布之后，一些該公司的主要競爭對手也已紛紛推出了推理模型。在本月早些時候，谷歌就發布了其旗艦模型Gemini的新版本，據稱其速度是上一代模型的兩倍，可以“思考、記憶、計劃，甚至代表你采取行動”。Meta首席執行官馬克·扎克伯格最近也透露，計劃于明年推出Llama 4。

　　這些動向表明人工智能領域的競爭目前正日益激烈，各方都在努力創造能夠解決復雜問題的更為智能的模型。

　　而OpenAI周五o3模型的最新亮相，也為其為期12天的直播產品發布會畫上了圓滿句號。在早前的直播中，這家初創公司推出了更昂貴的新 ChatGPT Pro訂閱選項（每月200月），并正式對外推出了AI視頻生成模型Sora Turbo以及其他新產品。ChatGPT搜索功能也全面升級，新增地圖集成、實時搜索等功能，向所有用戶開放。

你可能想看：

看了今天OpenAI的新品發布直播，我感覺被奧特曼耍了

隔夜要聞：美股收跌納指金龍大漲逾8.5% 英偉達涉嫌違反反壟斷法 OpenAI發布視頻模型Sora 蘋果創歷史新高

黃仁勛CES 2025演講“王炸”不斷：全球最快GeForce GPU、3000美元個人AI超算、世界基礎模型

郭晶晶、惠若琪新身份亮相奧運會！她們都是人生的冠軍

芯片業已經著眼英偉達下一代芯片：Rubin

微軟“松口”：允許OpenAI使用其他云服務

6萬股民遭“悶殺”！這只股最后3分12秒驚魂跳水，從漲停板回撤9個點

東亞銀行杯“NEXT下一代金融素養大賽”正式啟動

甲骨文盤前大漲超10% 將與OpenAI、軟銀成立合資公司投資高達5000億美元

通脹“最后一英里”難題重現，2025年歐美央行僅將緩慢降息？

轉載請注明來自服裝零售_服裝批發_服裝貿易，本文標題：《OpenAI直播最后一天放出“王炸”：下一代推理模型o3亮相！》