8月28日的2025百度云智大會(huì)上,百度智能云對(duì)AI計(jì)算基礎(chǔ)設(shè)施進(jìn)行了全面升級(jí),正式發(fā)布百舸AI計(jì)算平臺(tái)5.0全新版本,在網(wǎng)絡(luò)、算力、推理系統(tǒng),以及訓(xùn)推一體系統(tǒng)等四大方向上,實(shí)現(xiàn)了能力提升。算力方面,昆侖芯超節(jié)點(diǎn)上線(xiàn),超級(jí)算力正式可用。
9月25日,2024百度云智大會(huì)上,百度智能云宣布將百舸AI異構(gòu)計(jì)算平臺(tái)全面升級(jí)至4.0版本。為了解決算力資源短缺的問(wèn)題,百舸4.0對(duì)“多芯混訓(xùn)”能力進(jìn)行了重點(diǎn)升級(jí),實(shí)現(xiàn)了在萬(wàn)卡規(guī)模集群上95%的多芯混合訓(xùn)練效能。針對(duì)大模型訓(xùn)練過(guò)程中故障頻發(fā)的問(wèn)題,百舸4.0全面升級(jí)了故障檢測(cè)手段和自動(dòng)容錯(cuò)機(jī)制,可以有效降低故障發(fā)生頻次,大幅減少集群故障處置時(shí)間,在萬(wàn)卡集群上實(shí)現(xiàn)了超過(guò)99.5%的有效訓(xùn)練時(shí)長(zhǎng)。