久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区

首頁(yè) > 科技創(chuàng)作 > 科技創(chuàng)作 > 阿聯(lián)酋開(kāi)源“最快推理模型”,撞名Kimi,基于阿里Qwen,用上全球最大芯片

阿聯(lián)酋開(kāi)源“最快推理模型”,撞名Kimi,基于阿里Qwen,用上全球最大芯片

發(fā)布時(shí)間:2025-09-13 19:00:33 來(lái)源: 18638159832

9月10日消息,今日上午,阿布扎比穆罕默德·本·扎耶德人工智能大學(xué)(MBZUAI)聯(lián)合AI創(chuàng)企G42推出的新低成本推理模型K2 Think,相關(guān)論文已a(bǔ)rXiv預(yù)印本平臺(tái)發(fā)表,昨天下午模型在Hugging Face、GitHub上開(kāi)源。

K2 Think有320億個(gè)參數(shù),基于阿里巴巴的開(kāi)源模型Qwen 2.5構(gòu)建性能超過(guò)參數(shù)規(guī)模是其20倍的OpenAI和DeepSeek旗艦推理模型

復(fù)雜數(shù)學(xué)任務(wù)基準(zhǔn)測(cè)試中,研究人員計(jì)算了K2 Think在AIME24、AIME25、HMMT25和OMNI-Math-HARD中的平均得分,超過(guò)GPT-OSS、DeepSeek V3.1、Qwen3 235B-A22B等一眾開(kāi)源模型

技術(shù)報(bào)告中,研究人員提到K2 Think背后有六大技術(shù)創(chuàng)新協(xié)同,研究人員通過(guò)監(jiān)督微調(diào)擴(kuò)展基礎(chǔ)模型的思維鏈能力,然后通過(guò)可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)增強(qiáng)推理性能、利用推理時(shí)間技術(shù)增強(qiáng)模型,最后在部署K2-Think時(shí)進(jìn)行兩項(xiàng)速度優(yōu)化,包括推測(cè)解碼Cerebras的晶圓級(jí)芯片,同時(shí)使用公開(kāi)可用的開(kāi)源數(shù)據(jù)集訓(xùn)練。

值得一提的是,研究人員將K2-Think部署在Cerebras晶圓級(jí)芯片WSE系統(tǒng),WSE每秒可交付約2000個(gè)token,相比在NVIDIA H100/H200 GPU等常規(guī)部署環(huán)境中觀測(cè)到的標(biāo)稱每秒200個(gè)token,性能提升了10倍

K2-Think背后有兩大強(qiáng)力推手:一方是穆罕默德?本?扎耶德人工智能大學(xué)(MBZUAI),這是阿拉伯聯(lián)合酋長(zhǎng)國(guó)專(zhuān)門(mén)設(shè)立、聚焦AI研究的機(jī)構(gòu);另一方是阿布扎比支持的科技集團(tuán)G42,不僅在2024年拿到微軟15億美元投資,還在阿聯(lián)酋建造OpenAI、軟銀等企業(yè)聯(lián)合投資的AI基建 “星際之門(mén)”。

該模型的權(quán)重、訓(xùn)練數(shù)據(jù)、部署代碼和測(cè)試時(shí)優(yōu)化代碼已經(jīng)在Hugging Face、GitHub上開(kāi)源。

Hugging Face地址:

GitHub地址:

K2 Think主頁(yè):

技術(shù)報(bào)告:

https://arxiv.org/abs/2509.07604

一、數(shù)學(xué)性能領(lǐng)先OpenAI、DeepSeek旗下開(kāi)源模型,要為數(shù)學(xué)、科學(xué)提供特定用途服務(wù)

MBZUAI校長(zhǎng)兼首席AI研究員Eric Xing在接受外媒WIRED采訪時(shí)透露,K2 Think是使用數(shù)千個(gè)GPU開(kāi)發(fā)的,最終的訓(xùn)練過(guò)程涉及200到300塊芯片

K2 Think并非一個(gè)完整的大語(yǔ)言模型,是專(zhuān)門(mén)用于推理的模型,能夠通過(guò)模擬推理方式來(lái)回答復(fù)雜問(wèn)題,而不是快速綜合信息來(lái)提供信息輸出,Xing提到,他們?cè)谖磥?lái)幾個(gè)月將K2 Think整合到一個(gè)完整的大模型中。

復(fù)雜數(shù)學(xué)領(lǐng)域,K2 Think在AIME 2024、AIME 2025、HMMT 2025 和 Omni-MATH-HARD四個(gè)基準(zhǔn)測(cè)試中的平均得分為67.99分,超過(guò)規(guī)模更大的DeepSeek V3.1 671B、GPT-OSS 120B模型。

編程能力上,K2-Think在開(kāi)源代碼能力基準(zhǔn)LiveCodeBench上獲得63.97分,超越了規(guī)模相近的同類(lèi)模型GPT-OSS 20B、Qwen3-30B-A3B。

在用于評(píng)估大模型將復(fù)雜科學(xué)問(wèn)題轉(zhuǎn)化為可執(zhí)行代碼能力的SciCode基準(zhǔn)測(cè)試中,K2-Think獲得39.2分排名第二,與第一名的Qwen3 235BA22B僅有0.1分之差。

科學(xué)推理方面,模型在GPQA-Diamond基準(zhǔn)測(cè)試中的表現(xiàn)為71.08,表現(xiàn)優(yōu)于除OpenReasoning-Nemotron-32B、GPT-OSS 120B之外的大多數(shù)開(kāi)源模型。

MBZUAI基礎(chǔ)模型研究所所長(zhǎng)Hector Liu提到,K2-Think的特別之處在于,他們將其視為一個(gè)系統(tǒng),他們的目標(biāo)不是構(gòu)建類(lèi)似ChatGPT的聊天機(jī)器人,而是為數(shù)學(xué)和科學(xué)等領(lǐng)域的特定用途提供服務(wù)。

二、六項(xiàng)系統(tǒng)級(jí)創(chuàng)新,全訓(xùn)練過(guò)程均采用開(kāi)源數(shù)據(jù)集

K2-Think的技術(shù)報(bào)告顯示,其背后有六大技術(shù)創(chuàng)新,包括思維鏈監(jiān)督微調(diào)、可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)、推理前的Agent規(guī)劃、測(cè)試時(shí)擴(kuò)展、推測(cè)解碼和推理優(yōu)化硬件、僅使用公開(kāi)可用的開(kāi)源數(shù)據(jù)集訓(xùn)練

基于這種系統(tǒng)化的技術(shù)創(chuàng)新,K2-Think通過(guò)長(zhǎng)鏈?zhǔn)剿季S監(jiān)督微調(diào)增強(qiáng)了邏輯深度、可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)提高了解決難題的準(zhǔn)確率、Agent式規(guī)劃使模型能夠在推理前分解復(fù)雜挑戰(zhàn)、測(cè)試時(shí)擴(kuò)展技術(shù)進(jìn)一步提升了模型的適應(yīng)性,最終實(shí)現(xiàn)性能對(duì)標(biāo)更大參數(shù)規(guī)模模型。這使得模型能夠提供強(qiáng)大的思維鏈推理能力和近乎即時(shí)的響應(yīng)時(shí)間

監(jiān)督微調(diào)階段,K2-Think使用思維鏈對(duì)基礎(chǔ)模型進(jìn)行監(jiān)督微調(diào)。研究人員采用了現(xiàn)有的AM-Thinking-v1-Distilled數(shù)據(jù)集,該數(shù)據(jù)集由CoT推理痕跡和指令/響應(yīng)對(duì)組成,提示來(lái)自數(shù)學(xué)推理、代碼生成、科學(xué)推理、指令遵循和一般聊天等任務(wù)。他們?cè)u(píng)估發(fā)現(xiàn),SFT模型在各個(gè)采樣預(yù)算下均優(yōu)于基礎(chǔ)模型。

可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)階段,可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)通過(guò)直接優(yōu)化模型生成的正確性,降低了基于人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)基于偏好對(duì)齊的復(fù)雜性和成本。因此研究人員使用了Guru數(shù)據(jù)集,該數(shù)據(jù)集包含數(shù)學(xué)、編程、科學(xué)、邏輯、模擬和表格六個(gè)領(lǐng)域任務(wù)、近92000個(gè)可驗(yàn)證問(wèn)題。

測(cè)試時(shí)間改進(jìn)階段,為了進(jìn)一步提升模型性能,研究人員開(kāi)發(fā)了測(cè)試時(shí)框架,為訓(xùn)練后的推理模型提供結(jié)構(gòu)化輸入,包括推理前的Agent規(guī)劃,即“先計(jì)劃后思考”,以及使用Best-of-N采樣的測(cè)試時(shí)擴(kuò)展。

▲模型從輸入到最終響應(yīng)的信息流

從輸入到最終響應(yīng)時(shí),模型會(huì)重構(gòu)提示以概述總體規(guī)劃、突出相關(guān)概念。然后這一增強(qiáng)的提示將通過(guò)K2-Think模型生成多個(gè)響應(yīng),最后對(duì)候選響應(yīng)進(jìn)行兩兩比較,最終選出最佳生成結(jié)果作為推理系統(tǒng)的最終輸出。

第四階段是部署,在具有挑戰(zhàn)性的數(shù)學(xué)證明或多步驟編碼問(wèn)題中,一個(gè)典型復(fù)雜推理任務(wù)一般會(huì)生成32000個(gè)token的響應(yīng)。在NVIDIA H100上,這可以在不到3分鐘的時(shí)間內(nèi)完成,在WSE上,同樣32000個(gè)token的生成任務(wù)只需16秒

這是因?yàn)镚PU必須在每個(gè)token生成時(shí)不斷將權(quán)重從高帶寬內(nèi)存?zhèn)鬏數(shù)紾PU核心,而WSE將所有模型權(quán)重存儲(chǔ)在海量片上內(nèi)存中,充分利用每秒25PB的片上內(nèi)存帶寬,比最新NVIDIA B200 GPU提供的0.008PB/s高出3000多倍

結(jié)語(yǔ):小參數(shù)模型經(jīng)后期訓(xùn)練,可媲美更大參數(shù)模型

K2-Think模型的性能證明,320億參數(shù)規(guī)模的模型經(jīng)過(guò)后期訓(xùn)練,能夠生成較長(zhǎng)的推理思路鏈,并結(jié)合相對(duì)較少的測(cè)試時(shí)間計(jì)算,可以實(shí)現(xiàn)小模型與參數(shù)數(shù)量級(jí)更大的模型相媲美的能力。

MBZUAI基礎(chǔ)模型研究所的總經(jīng)理Richard Morton認(rèn)為,人腦的基本推理是所有思維過(guò)程的基礎(chǔ),K2-Think的應(yīng)用,可以縮短研究人員思考特定任務(wù)、進(jìn)行臨床試驗(yàn)的時(shí)間,從而將先進(jìn)的AI技術(shù)擴(kuò)大到AI基礎(chǔ)設(shè)施稀缺的地區(qū)。

科技創(chuàng)作更多>>

新能源“卷”出新高度:?jiǎn)⒊接?ldquo;硬核三重保”,破解行業(yè)信任困局 自燃包賠“跟車(chē)不跟人”,啟辰汽車(chē)底氣從何而來(lái)? 盤(pán)點(diǎn)2月四大汽車(chē)廠商銷(xiāo)量:吉利破20萬(wàn)領(lǐng)跑,比亞迪奇瑞出口猛漲 放棄純電路線的蘭博基尼 何嘗不是歐洲車(chē)企的人間清醒 2026年的國(guó)內(nèi)車(chē)市被發(fā)揮到了極致,從自主品牌內(nèi)卷,到合資品牌跟進(jìn),再到豪華品牌官降 廣汽豐田2月銷(xiāo)量穩(wěn)步增長(zhǎng) 全新純電旗艦鉑智7即將預(yù)售 《安定洞察》極狐11萬(wàn)級(jí)寬體超跑全新阿爾法S5 瞄準(zhǔn)年輕群體 不同社交平臺(tái)上的用戶都喜歡看什么汽車(chē)內(nèi)容? 情人節(jié)的快樂(lè)秘訣,都藏在瑞虎8 PLUS這個(gè)約會(huì)“神器”里了! 重磅!獲港交所原則性同意 嵐圖汽車(chē)或?qū)⒂?月19日正式登陸港股 別搞錯(cuò)了,車(chē)價(jià)20萬(wàn)以內(nèi)的車(chē)主,你們才是多數(shù)車(chē)企該服務(wù)的VIP 堅(jiān)守品質(zhì) 彰顯實(shí)力|東風(fēng)標(biāo)致、東風(fēng)雪鐵龍亮相央視新春特別欄目 2026款奔馳S級(jí)作為重磅新品首次對(duì)外展示,作為W223的中期改款型號(hào),氣質(zhì)一如既往的令人心動(dòng) 地平線向星途ET5用戶推送HSD V1.5,多項(xiàng)功能優(yōu)化與新增 東風(fēng)標(biāo)致與東風(fēng)雪鐵龍的央視通關(guān)記:硬核實(shí)力筑底 五心守護(hù)升維 日產(chǎn)Formula E車(chē)隊(duì)即將在吉達(dá)的燈光下展開(kāi)激戰(zhàn) 佑駕創(chuàng)新與易達(dá)資本攜手進(jìn)軍中東 西班牙公共電動(dòng)汽車(chē)充電樁數(shù)量達(dá)5萬(wàn)個(gè) 法國(guó)汽車(chē)制造商雷諾集團(tuán)公布,2025年其全球銷(xiāo)量同比增長(zhǎng)3.2%,全年共售出234萬(wàn)輛汽車(chē) 2025年,對(duì)BBA而言是艱難的一年,這不僅體現(xiàn)在中國(guó)市場(chǎng)的集體失速,還有在全球范圍內(nèi)的疲軟態(tài)勢(shì) 全球智能駕駛行業(yè)已從“技術(shù)驗(yàn)證”邁入“規(guī)模化落地”的關(guān)鍵階段 小鵬X9超級(jí)增程用戶畫(huà)像發(fā)布:近六成用戶為90后 近三成美國(guó)車(chē)主換車(chē)時(shí)負(fù)債超車(chē)輛價(jià)值 最高超1.5萬(wàn)美元 麥瑞克與國(guó)家體育總局訓(xùn)練局共建聯(lián)合研發(fā)中心 暗潮涌動(dòng)的2025,比亞迪“抗住了”風(fēng)浪 印度電動(dòng)車(chē)政策瀕死,鈴木為何瘋狂擴(kuò)張 A股開(kāi)年七日:從“連板”狂歡到停牌自查 誰(shuí)在“熱炒”誰(shuí)在“退燒”? 外資機(jī)構(gòu):中國(guó)資產(chǎn)吸引力正在提升,建議超配A股 多只概念股公告“降溫”、兩家公司被上交所警示,商業(yè)航天板塊連跌兩日 寶能集團(tuán)姚振華舉報(bào)觀致汽車(chē)被賤賣(mài),估價(jià)報(bào)告顯示行政樓每平米單價(jià)2千元
久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区
久久国产精品亚洲77777| av资源亚洲| 欧美a级片一区| 日韩欧美中文| 最新中文字幕在线播放| 国产一区二区三区黄网站| 欧美伊人久久| 国产日韩高清一区二区三区在线 | 亚洲夜间福利| 国产一区2区| 国产传媒在线| 日韩国产在线| 欧美国产91| 老司机久久99久久精品播放免费| 好看的亚洲午夜视频在线| 免费精品国产的网站免费观看| 成人av动漫在线观看| aⅴ色国产欧美| 午夜国产精品视频免费体验区| 欧美日韩国产传媒| 亚洲午夜国产成人| 日韩成人精品一区二区三区| 青青草91视频| 久久女人天堂| 日韩另类视频| 免费在线欧美视频| 国产探花一区| 在线手机中文字幕| 亚洲午夜电影| 中文字幕一区二区av| 国产日韩视频| 高清一区二区| 国产一区观看| 亚洲资源网站| 国产欧美日韩在线观看视频| 国产精成人品2018| 秋霞影视一区二区三区| 久久国产精品99国产| 国产日韩一区二区三免费高清| 91亚洲成人| 欧美专区在线| 国产精品www.| 久久精品电影| 日韩欧美中文字幕电影| 韩日一区二区| 欧美肉体xxxx裸体137大胆| 蜜桃伊人久久| 久久女人天堂| 亚洲国产成人精品女人| 深夜日韩欧美| 久久一区视频| 国产色综合网| 久久精品日韩欧美| 99国产精品私拍| 国产精品igao视频网网址不卡日韩| 午夜精品久久久久久久久久蜜桃| 亚洲一区二区三区高清| 欧美国产不卡| 一区在线观看| 欧美成人精品一级| 在线观看免费一区二区| 欧美欧美黄在线二区| 99成人在线视频| 国产欧美一区二区色老头| 日韩欧美午夜| 日韩激情一区二区| 欧美日韩一二三四| 免费在线亚洲欧美| 爽好多水快深点欧美视频| 国产一区二区久久久久| 中文字幕日韩高清在线| 亚洲深夜视频| 日本91福利区| 黄色亚洲大片免费在线观看| 精品三级av| 亚洲2区在线| 亚洲高清久久| 高清av一区| 奇米狠狠一区二区三区| 亚洲成人不卡| 国产精品亚洲欧美日韩一区在线 | 欧美中文一区二区| 国产欧美日本| 国产精品日韩欧美一区| 日韩成人a**站| 日本视频中文字幕一区二区三区| 欧美综合另类| 91偷拍一区二区三区精品| 日本aⅴ亚洲精品中文乱码| 好看的av在线不卡观看| 麻豆视频在线看| 国产日韩欧美三级| 国产精品毛片一区二区三区| 超碰成人av| 国产精品va视频| 日韩一二三区在线观看| 欧美特黄a级高清免费大片a级| 四虎成人av| 久久国产精品免费一区二区三区| 亚洲欧美日韩国产一区二区| 精品日韩视频| 国产 日韩 欧美 综合 一区| 国产欧美高清视频在线| 蜜桃av一区二区三区电影| 国产韩日影视精品| 日韩一区电影| 国产精品久久久久久久免费观看| 欧美日韩午夜| 亚洲精品伊人| 一区二区国产在线| 蜜臀av在线播放一区二区三区| 亚洲国产日韩欧美在线| 色爱av综合网| 国产v综合v| 特黄毛片在线观看| 黄色在线观看www| 精品精品99| 国产精品成人a在线观看| 国产精品午夜av| 亚洲精品无吗| 亚洲精品日韩久久| 免费在线观看成人| 好吊日精品视频| 图片区亚洲欧美小说区| 国产一区观看| 日韩一区二区免费看| 国产午夜精品一区二区三区欧美| 一本一道久久a久久精品蜜桃| 黑丝美女一区二区| 欧美日韩视频| 蜜臀久久99精品久久久久宅男 | 婷婷精品进入| 国产精品日本| 一级欧美视频| 青青伊人久久| 国产免费av一区二区三区| 免费在线看一区| 综合干狼人综合首页| 婷婷精品在线| 国产日产精品_国产精品毛片| 国产免费播放一区二区| 免费看久久久| 蜜桃精品在线| 久久国产精品亚洲77777| 亚洲aⅴ网站| 国产毛片久久久| 精品国产aⅴ| 欧洲av一区二区| 日韩亚洲在线| 日韩高清一区| 国产精品久久乐| 成人午夜毛片| 99精品网站| 亚洲中字黄色| 日韩精品一区二区三区中文字幕| 国产欧美日韩一级| 伊人网在线播放| 亚洲激情偷拍| 青青青国产精品| 精品国产欧美日韩| www成人在线视频| 首页亚洲欧美制服丝腿| 日韩av一级片| 国产aⅴ精品一区二区三区久久| 日韩欧美另类一区二区| 99xxxx成人网| 青青草国产成人99久久| 国产精品毛片久久久| 欧美日韩视频免费观看| 99国内精品| 国产乱子精品一区二区在线观看| 国产一区三区在线播放| 免费观看久久av| 7777精品| 亚洲爱爱视频| 日韩国产在线一| 激情综合五月| 精品一区免费| 欧美日本不卡| 日韩在线中文| 亚洲乱亚洲高清| 国产一区丝袜| 欧美日韩一区二区综合 | 91精品一区二区三区综合在线爱| 亚洲一区日韩| 欧美日韩亚洲一区| 一区二区小说| 国产精品亚洲一区二区在线观看| 秋霞影视一区二区三区| 日本不卡视频一二三区| 久久久久久久欧美精品| 亚洲狼人精品一区二区三区| 国产第一亚洲| 欧洲毛片在线视频免费观看| 日韩av中文字幕一区二区| 国产成人久久精品一区二区三区| 亚洲免费黄色| 精品国产91| 日韩手机在线| 国产91精品对白在线播放|