| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
對話式 AI 的核心職責(zé)是聽懂人類講話的內(nèi)容和情感,并以語音對話的方式作出回應(yīng), 然后重復(fù)這個(gè)循環(huán)。
當(dāng)前,幾乎所有的J聯(lián)對話式 AI 產(chǎn)品都普遍采用相似的架構(gòu):對話式 AI Agent 服務(wù)部署于云端,協(xié)調(diào)端到端語音對話(Speech-to-Speech)的交互閉環(huán),整體采用 RTC 技術(shù)實(shí)現(xiàn)超低延遲雙全工人機(jī)對話。支持行業(yè)主流 AI 模型接入,并通過 LLM 函數(shù)調(diào)用或結(jié)構(gòu)化輸 出連接后端系統(tǒng)。
整個(gè)循環(huán)流程如下:
◇ 用戶設(shè)備麥克風(fēng)捕獲語音信號,編碼后經(jīng)實(shí)時(shí)傳輸網(wǎng)絡(luò)傳輸至云端代理程序
◇ 將用戶語音實(shí)時(shí)轉(zhuǎn)換(ASR)為高準(zhǔn)確率的文字,作為 LLM 的輸入
◇ 文本被整合為上下文提示(Prompt),由大語言模型(LLM) 進(jìn)行推理生成響應(yīng)。
◇ LLM 生成的文本發(fā)送至文本轉(zhuǎn)語音(TTS) 模型合成音頻
◇ 合成音頻通過實(shí)時(shí)傳輸網(wǎng)絡(luò)傳回用戶設(shè)備完成交互
對話式 AI 的整個(gè)服務(wù)全部在云端運(yùn)行,包括 ASR、LLM 和 TTS。從長遠(yuǎn)來看,人們期望 有更多的 AI 服務(wù)可以在端側(cè)運(yùn)行,但云端仍是未來很長一段時(shí)間的Z佳方案。
◇ 對話式 AI 程序需調(diào)用高性能模型(ASR、LLM、TTS)以實(shí)現(xiàn)低延遲的復(fù)雜流程。當(dāng) 前終端設(shè)備算力不足,無法在可接受延遲內(nèi)運(yùn)行Z優(yōu)模型。
◇ 當(dāng)前,仍有大量商用場景用戶是需要通過電話進(jìn)行呼叫的,在此類場景中,服務(wù)無 法部署到用戶的終端設(shè)備上,也迫使服務(wù)集中于云端。
◇ 對話式 AI 需要跨終端使用,也導(dǎo)致云端部署成為Z高效的方案。
如果你正在開發(fā)一個(gè)對話式 AI 產(chǎn)品或應(yīng)用,你可能已經(jīng)發(fā)現(xiàn)對話式 AI 并沒有想象中的 簡單,我們會面臨并思考以下問題:
◇ 對話式 AI 該選擇哪些大語言模型和 TTS?
◇ 如何降低人機(jī)對話的端到端延遲?
◇ 如何讓 AI 對話與人類一樣自然?
◇ 如何在長會話中管理對話上下文?
◇ 如何將對話式 AI 集成到現(xiàn)有應(yīng)用中?
◇ 如何評估對話式 AI 的性能表現(xiàn)?
![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |