国产高清色诱视频在线播放_视频一区视频二区中文字幕_日韩精彩视频_亚洲精品卡一卡二_久久久久久国产一级毛片..._一区在线观看

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相!

OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相!

冷南小哥哥 2024-12-21 圍場科技 195 次瀏覽 3個評論

  財聯社12月21日訊(編輯 瀟湘)OpenAI將其最為重要的尖端產品,放在了為期12天的技術分享直播活動的最后一天!

  周五,OpenAI發布了下一代的推理模型o3,這是今年早些時候發布的o1推理模型的升級版本。更準確地說,o3是一個模型系列——就像o1一樣,同時有o3和o3-mini兩個版本,后者是一款更小的精簡版模型,針對特定任務進行了微調。

  OpenAI聲稱,至少在某些條件下,o3模型可以接近實現AGI。

  AGI是“通用人工智能”(artificial general intelligence)的縮寫,泛指能完成人類所能完成的任何任務的人工智能。OpenAI對此有著自己的定義:“在最具經濟價值的工作上勝過人類的高度自主系統”。

  實現AGI將是一個大膽的宣言。對于OpenAI來說,其背后也將具有現實意義。根據OpenAI與其親密合作伙伴和投資方微軟的協議條款,一旦OpenAI達到AGI,就沒有義務再讓微軟使用其最先進的技術(即那些符合OpenAI AGI定義的技術)。

  OpenAI首席執行官山姆·奧爾特曼(Sam Altman)介紹稱,OpenAI計劃在1月底前正式推出o3 mini,之后推出完整版的o3。該公司期待更強大的大型語言模型可以超越現有模型,吸引新的投資和用戶。

  OpenAI在一篇博客文章中表示,o1模型已經能夠推理復雜的任務,與以前的科學、編碼和數學模型相比,它能解決更具挑戰性的問題。而OpenAI新推出的o3和o3 mini模型目前正在進行內部安全測試,它們將比之前推出的o1模型更加強大。

  OpenAI兩年前發布了ChatGPT,拉開了AI軍備競賽的序幕。ChatGPT是一款聊天機器人,最初由版本為GPT-3.5的大型語言模型驅動。OpenAI 隨后在2023年推出了GPT-4,并稱其更準確、更具創造性。最近,OpenAI又推出了其首個推理模型o1。

  該公司發言人表示,OpenAI決定不將下一代新模型命名為o2,“是出于對同名英國電信運營商o2的尊重”。奧爾特曼當天在直播中也調侃稱,“按照OpenAI非常非常不擅長命名的偉大傳統,它將被命名為o3。”

  o3有多強大?

  那么,o3具體的表現究竟能有多強大呢?

  根據OpenAI的介紹,o3模型在ARC-AGI基準上獲得了破紀錄的分數。ARC-AGI由Keras之父Fran ? ois Chollet開發,主要是通過圖形邏輯推理來測試模型的推理能力。以100%為最高分的ARC-AGI評估結果顯示,在低計算場景中,o3得分為75.7%,而在高計算測試中,它達到了87.5%。

  這標志著,o3的最佳成績超過了標志著達到人類水平的門檻85%。作為對比,目前開放的o1模型的得分僅在25%到32%之間。o3的表現幾乎是o1的逾三倍。

  在其他基準測試中,o3也明顯脫穎而出。

  在衡量編程能力的Codeforces Elo評分中,o3取得了2727的Elo評分,而o1評分僅為1891。事實上,o3 mini在中等推理時間模式的表現也已足以超越o1。

  在OpenAI于8月推出的SWE-bench Verified代碼生成評估基準中,o3的準確率為71.7%,比o1高出了22.8個百分點。

  o3還在2024年美國AIME數學競賽中取得了96.7%準確率的高分,只缺了一道題,并在GPQA Diamond(一套研究生水平的生物、物理和化學試題)中取得了87.7%準確率的高分。

  尤為值得一提的是,o3在EpochAI的“FrontierMath”基準測試中創造了新紀錄,解決了25.2%的問題——在該項測試中沒有其他模型能超過2%。

  Epoch AI此前聯合六十余位全世界的數學家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出了全新的數學基準FrontierMath。這些數學問題從奧賽難度到當今的數學前沿,包含了目前數學研究的所有主要分支——從數論和實數分析中的計算密集型問題到代數幾何和群論中的抽象問題。

  行業競爭與風險

  毫無疑問,o3模型在上述測試中的表現,足以令人感到驚艷。無論在軟件工程、編寫代碼,還是競賽數學、掌握人類博士級別的自然科學知識能力方面,o3都明顯高出o1一籌。

  OpenAI總裁Greg Brockman表示,“我們最新的推理模型o3是一個突破,在我們最困難的基準上有了階躍函數的改進。我們現在開始安全測試和紅隊演練。”

  而邁向類人智能的大跨步突破,顯然也會引發一些人士對AI安全性的擔心。

  風險可能確實存在。人工智能安全測試人員發現,與傳統的“非推理”模型相比,o1的推理能力便已使其試圖欺騙人類用戶的比例更高,而在這方面,Meta、Anthropic和谷歌的領先人工智能模型也是如此。

  o3試圖欺騙用戶的比例可能比它的前身更高;一旦未來OpenAI的紅隊測試結果出爐,人們或許便能知道具體情況。奧爾特曼對此也表示,在OpenAI發布新的推理模型之前,他更希望有一個聯邦測試框架來指導監控和降低這些模型的風險。

  在公開發布o3模型之前,OpenAI也將開放外部研究人員測試o3模型的申請流程,申請將于1月10日截止。

  近期,在OpenAI首批推理模型o1發布之后,一些該公司的主要競爭對手也已紛紛推出了推理模型。在本月早些時候,谷歌就發布了其旗艦模型Gemini的新版本,據稱其速度是上一代模型的兩倍,可以“思考、記憶、計劃,甚至代表你采取行動”。Meta首席執行官馬克·扎克伯格最近也透露,計劃于明年推出Llama 4。

  這些動向表明人工智能領域的競爭目前正日益激烈,各方都在努力創造能夠解決復雜問題的更為智能的模型。

  而OpenAI周五o3模型的最新亮相,也為其為期12天的直播產品發布會畫上了圓滿句號。在早前的直播中,這家初創公司推出了更昂貴的新 ChatGPT Pro訂閱選項(每月200月),并正式對外推出了AI視頻生成模型Sora Turbo以及其他新產品。ChatGPT搜索功能也全面升級,新增地圖集成、實時搜索等功能,向所有用戶開放。

你可能想看:

轉載請注明來自服裝零售_服裝批發_服裝貿易,本文標題:《OpenAI直播最后一天放出“王炸”:下一代推理模型o3亮相!》

每一天,每一秒,你所做的決定都會改變你的人生!

發表評論

快捷回復:

評論列表 (有 3 條評論,195人圍觀)參與討論
網友昵稱:溥虹影
溥虹影游客 沙發
24-12-21 回復
流浪地球展現了人類團結應對災難的勇氣與智慧,是一部充滿科幻色彩與家國情懷的佳作。
網友昵稱:么如彤
么如彤游客 椅子
24-12-22 回復
流浪地球是一部充滿想象力的科幻巨作,展現了中國科幻電影的崛起,視覺效果震撼,情感真摯,令人深思。
網友昵稱:宓雨
宓雨游客 地板
03-17 回復
哪吒之魔童降世以其獨特的中國元素和深刻的文化內涵,成功點燃了國漫新篇章,讓人回味無窮。
Top
網站統計代碼
主站蜘蛛池模板: 亚洲国产精品推荐 | 国产亚洲精彩久久 | 成人a级大片 | 亚洲欧美日韩高清一区二区一 | 国产亚洲AV无码乱码在线观看 | 亚洲黄网在线观看 | 99久久精品一区二区成人 | 黑色极品jk撕破丝袜自慰喷白浆 | 人成免费视频人成免费网 | 久久久久久国产一级毛片清晰版 | 免费一级肉体全黄毛片高清 | 99激情视频| 欧美综合一区二区 | 国产爆乳尤妮丝在线播放 | 久久国产精品色av免费观看 | 国产69精品久久久久按摩 | 西西444WWW无码视频软件 | 成人国产片免费 | 男啪女视频免费观看网站 | 久久99日韩 | 国产一区二区三区精品久久久无广告 | 日韩成人一区二区三区在线观看 | 国产精品色区在线观看 | 国产96精品久久久 | 欧美一级做a爰片免费视频 日韩在线理论 | 日韩不卡在线观看视频 | 在线播放av网址 | 一二三四五社区在线高清观看 | 久久久久人妻综合免费无码 | 伊人网视频在线 | 久在线观看福利视频69 | 国产日产一区二区三区四区五区 | 成年无码aⅴ片在线观看 | 99re热精品视频 | 国产高清久久 | 国产极品粉嫩福利在线观看 | 久久久久国产精品人妻AⅤ网址一 | 欧美精品一区二区久久 | 777米奇色8888狠狠俺去了 | 欧美激情A∨在线视频播放 特黄特色三级在线观看 | 爽爽色 |