您的當前位置:首頁 > 知識 > 馬斯克發布Grok3:多項測試超越DeepSeek,展現強勁競爭力 正文
時間:2025-05-15 12:59:34 來源:網絡整理 編輯:知識
xAI今日發布新一代大語言模型Grok-3及其精簡版Grok-3 mini。最新基準測試顯示,Grok-3在與DeepSeek的直接對比中展現出顯著優勢。在數學能力測試AIME'24)中,Grok-3
xAI今日發布新一代大語言模型Grok-3及其精簡版Grok-3 mini。最新基準測試顯示,試超Grok-3在與DeepSeek的展爭力直接對比中展現出顯著優勢。
在數學能力測試(AIME'24)中,勁競Grok-3獲得52分,項測現強明顯超過DeepSeek-V3的試超39分。科學知識評估(GPQA)方麵,展爭力Grok-3以75分的勁競成績領先,而DeepSeek-V3為65分。項測現強在編程能力測試(LCB Oct-Feb)中,試超Grok-3同樣以57分超過DeepSeek-V3的展爭力36分。
最新公布的AIME 2025性能測試中,Grok-3 Reasoning Beta版本在推理和計算時間複合評分上取得93分的項測現強優異成績,其精簡版本Grok-3 mini也達到了90分。試超相比之下,展爭力DeepSeek-R1的得分為75分,而Gemini-2 Flash Thinking僅為54分。這一結果進一步凸顯了Grok-3在複雜數學推理和計算效率方麵的突出優勢。
特別值得注意的是,DeepSeek近期發布的DeepSeek-R1在其他推理能力測試中也未能趕超Grok-3。在數學推理中,Grok-3獲得93分,DeepSeek-R1為73分;科學推理中,Grok-3得分85分,DeepSeek-R1為74分;編程推理中,Grok-3達到79分,而DeepSeek-R1為65分。
此外,在LMSYS聊天機器人競技場評估中,Grok-3的得分約為1400分,不僅超過了DeepSeek係列,也領先於其他主流大模型,包括GPT-4、Claude等。
這些數據表明,盡管DeepSeek在過去幾個月展現出強勁的發展勢頭,但Grok-3的整體性能仍然保持領先地位。特別是在數學推理和計算效率方麵的優勢更為明顯,這不僅體現了xAI在模型研發上的技術實力,也顯示出AI領域競爭的白熱化程度。
© AI範兒
要進“交流群”,請關注公眾號獲取進群方式
投稿、需求合作或報道請添加公眾號獲取聯係方式
點這裏關注我,記得標星哦~
傳張藝興為首位茅台代言人,業內人士:茅台不可能聘請形象代言人2025-05-15 12:54
巴基斯坦副總理兼外長證實:使用殲2025-05-15 12:42
總決賽MVP評定值:傑曼領跑北京隊 廣廈胡金秋第一2025-05-15 12:37
肖飛出軌醜聞引發“協和4+4”危機 三甲醫院醫生:臨床醫學需跨學科人才2025-05-15 12:36
中航(成都)無人機係統股份有限公司 關於召開2025年第一季度業績說明會的公告2025-05-15 12:16
《無畏契約》"瓦ONLY"線下狂歡:遊戲生態與玩家共創的盛宴2025-05-15 11:47
穗台同胞共植“同心林” 攜手繪就綠美生態新畫卷——廣州市舉辦“兩岸同心 綠美廣州”植樹活動2025-05-15 11:27
反轉!廣東錯失2大爭冠拚圖,朱芳雨杜鋒難辭其咎,球迷:錢都花哪了2025-05-15 10:55
今天下午!傳來遼籃的重磅消息,楊鳴將召回吳昌澤馳援球隊2025-05-15 10:51
時政91抖音成人APP眼丨訪俄第一天,習近平為何強調這三個關鍵詞?2025-05-15 10:14
學習急救知識迎接世界紅十字日2025-05-15 12:36
洛克·外灘源打造上海文化藝術目的地,街區內美術館免費開放2025-05-15 12:31
巴空軍雖然6:0大勝印度,但從攔截作戰角度看,完全失敗了2025-05-15 12:29
上海國際花展2025-05-15 12:04
經營現金流大增80%,這家白酒龍頭如何穿越周期?2025-05-15 11:06
桂林裝修公司是怎麽報價的?深度空間裝飾分享過程2025-05-15 10:53
TA:五大戰術問題或將決定歐冠半決賽次回合的走向2025-05-15 10:53
Bye,英偉達!華為NPU,跑出了準萬億參數大模型2025-05-15 10:46
成都市發展改革委嚴正聲明→2025-05-15 10:45
5月開始不再勞碌,事業和生意變輕鬆,賺錢不停歇的四個生肖2025-05-15 10:37