2025年1月22日,火山引擎視頻云RTC聯(lián)合樂(lè)鑫、移遠(yuǎn)等廠商,推出「實(shí)時(shí)對(duì)話式AI嵌入式硬件」解決方案,致力于讓用戶擁有流暢、自然、真實(shí)的AI互動(dòng)。
一、“萬(wàn)物皆可AI”的當(dāng)下,初涉大模型和硬件結(jié)合的廠商,在將AI實(shí)時(shí)語(yǔ)音功能與硬件結(jié)合時(shí)遇到多種挑戰(zhàn):
技術(shù)復(fù)雜變化快,研發(fā)成本高;
3-5s的反饋,響應(yīng)延遲優(yōu)化棘手;
交流像用“對(duì)講機(jī)”,交互體驗(yàn)有待提升。
二、該方案的AI語(yǔ)音交互框架可讓硬件設(shè)備無(wú)縫對(duì)接火山引擎RTC的實(shí)時(shí)通信能力和云端智能體服務(wù),實(shí)現(xiàn)與豆包大模型超低時(shí)延、流暢的交互:
在端側(cè),芯片集成自動(dòng)喚醒功能和音頻3A等技術(shù),以提升音頻輸入的清晰度。同時(shí),火山引擎RTC提供音視頻傳輸,確保設(shè)備在網(wǎng)絡(luò)不佳的情況下也能穩(wěn)定通話。
在云端,智能體服務(wù)則可提供Functioncalling和知識(shí)庫(kù)支持,讓硬件具備個(gè)性化服務(wù)和智能決策,滿足用戶的深層次需求。
三、方案接入流程簡(jiǎn)單:更新硬件固件-開通火山服務(wù)-跑通聯(lián)合方案-調(diào)用智能體
目前方案已開源,僅一天內(nèi)即可完成集成跑通。
四、此外,字節(jié)還于今日發(fā)布了豆包大模型
1.5Pro版本,新模型綜合能力顯著增強(qiáng),低訓(xùn)練/推理成本,高效模型結(jié)構(gòu),全面提升多模態(tài)能力、推理能力,多項(xiàng)公開評(píng)測(cè)基準(zhǔn)上全球領(lǐng)先。
Doubao-1.5-pro現(xiàn)已在豆包APP灰度上線,同時(shí),開發(fā)者也可在火山引擎直接調(diào)用API。
目前「實(shí)時(shí)對(duì)話式AI嵌入式硬件」方案已成功應(yīng)用于IP玩具、AI機(jī)器人、智能家電等諸多硬件,逐步強(qiáng)化終端智能化的共識(shí)。我們認(rèn)為,字節(jié)模型+合作伙伴的終端產(chǎn)品落地將成為2025年AI端側(cè)行業(yè)的主要敘事,建議持續(xù)關(guān)注相關(guān)標(biāo)的:
一、從投資邏輯上來(lái)看,字節(jié)AI硬件方案的推出將加速終端智能化,直接利好品牌商及背后的方案商、代工廠。
方案商:移遠(yuǎn)通信、廣和通、美格智能
代工廠:天鍵股份、國(guó)光電器、歌爾股份、佳禾智能
二、分析硬件供應(yīng)鏈組成,目前端側(cè)的運(yùn)算依舊依賴云端,因此WiFi、藍(lán)牙等連接能力是重中之重;此外,視覺(jué)能力將是后續(xù)端側(cè)多模態(tài)提升的關(guān)鍵,視頻處理相關(guān)的ISP能力有望發(fā)揮至關(guān)重要的作用。
SOC芯片:樂(lè)鑫科技、恒玄科技、瑞芯微、星宸科技、潤(rùn)欣科技、富瀚微、中科藍(lán)訊、全志科技、泰凌微
聯(lián)系客服