3月31日下午消息,在百度AI DAY上,百度發(fā)布首個(gè)基于全新互相關(guān)注意力(Cross-Attention)的端到端語(yǔ)音語(yǔ)言大模型,宣布實(shí)現(xiàn)超低時(shí)延與超低成本,在電話語(yǔ)音頻道的語(yǔ)音問(wèn)答場(chǎng)景中,調(diào)用成本較行業(yè)均值下降約50%-90%。
當(dāng)日,文小言宣布品牌煥新,率先接入該模型,還帶來(lái)多模型融合調(diào)度、圖片問(wèn)答等功能升級(jí)。接入該模型后,文小言不僅能支持更擬真的語(yǔ)聊效果,而且支持重慶、廣西、河南、廣東、山東等特色方言。據(jù)介紹,語(yǔ)音大模型具備極低的訓(xùn)練和使用成本,極快的推理響應(yīng)速度,語(yǔ)音交互時(shí),可將用戶等待時(shí)長(zhǎng)從行業(yè)常見的3-5秒降低至1秒左右。
更新后的文小言還支持“多模型融合調(diào)度”,整合了百度自研的文心X1、文心4.5等頂尖模型,并接入DeepSeek-R1等第三方優(yōu)質(zhì)模型,實(shí)現(xiàn)了多模型間的智能協(xié)同。用戶可以選擇“自動(dòng)模式”,一鍵調(diào)用最優(yōu)模型組合,也可根據(jù)需求靈活選擇單一模型完成特定任務(wù),大幅提升響應(yīng)速度與任務(wù)處理能力。
同時(shí),文小言還加強(qiáng)了圖片問(wèn)答功能,用戶拍攝或上傳圖片,以文字或語(yǔ)音提問(wèn)即可直接獲取深度解析。例如,拍攝一道數(shù)學(xué)題可實(shí)時(shí)生成解題思路與視頻解析;上傳多款商品圖可對(duì)比參數(shù)、價(jià)格,輔助購(gòu)物決策。