Kimi視覺思考模型k1發(fā)布:數(shù)理化超越OpenAI o1、GPT-4o
12月16日消息,今日,月之暗面國產(chǎn)大模型Kimi發(fā)布視覺思考模型k1,k1基于強(qiáng)化學(xué)習(xí)技術(shù)打造,原生支持端到端圖像理解和思維鏈技術(shù),并將能力擴(kuò)展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。
k1已陸續(xù)上線最新版Kimi智能助手的Android和iPhone APP以及網(wǎng)頁版kimi.com。
在最新版手機(jī)APP或網(wǎng)頁版Kimi+頁面找到Kimi視覺思考版,即可拍照或傳圖體驗(yàn)。
據(jù)了解,在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)能力測試中,初代k1模型的表現(xiàn)超過了全球標(biāo)桿模型OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。
官方表示,K1模型真正意義上實(shí)現(xiàn)了端到端的圖像理解和思考能力,模型可以直接處理用戶輸入的圖像信息并進(jìn)行思考得出答案,不需要借助外部的OCR或額外視覺模型進(jìn)行信息處理。
從模型訓(xùn)練的角度看,k1的訓(xùn)練分為兩個(gè)階段,先通過預(yù)訓(xùn)練得到基礎(chǔ)模型,再在基礎(chǔ)模型上進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練。