9月25日,2024百度云智大會上,百度智能云宣布將百舸AI異構計算平臺全面升級至4.0版本。為了解決算力資源短缺的問題,百舸4.0對“多芯混訓”能力進行了重點升級,實現(xiàn)了在萬卡規(guī)模集群上95%的多芯混合訓練效能。針對大模型訓練過程中故障頻發(fā)的問題,百舸4.0全面升級了故障檢測手段和自動容錯機制,可以有效降低故障發(fā)生頻次,大幅減少集群故障處置時間,在萬卡集群上實現(xiàn)了超過99.5%的有效訓練時長。