1月25日,中國(guó)電信人工智能研究院(TeleAI)“復(fù)雜推理大模型”TeleAI-t1-preview正式發(fā)布。TeleAI-t1-preview使用了強(qiáng)化學(xué)習(xí)訓(xùn)練方法,通過(guò)引入探索、反思等思考范式,提升模型在數(shù)學(xué)推導(dǎo)、邏輯推理等復(fù)雜問(wèn)題的準(zhǔn)確性。在美國(guó)數(shù)學(xué)競(jìng)賽AIME 2024、MATH500兩項(xiàng)數(shù)學(xué)基準(zhǔn)評(píng)測(cè)中,TeleAI-t1-preview分別以60和93.8分的成績(jī),超過(guò)OpenAI o1-preview、GPT-4o等標(biāo)桿模型。在研究生級(jí)別問(wèn)答測(cè)試GPQA Diamond中,TeleAI-t1-preview得分超過(guò) GPT-4o。(科創(chuàng)板日?qǐng)?bào))