语音 AI 与语音智能体:图解入门指南
原文:Voice AI & Voice Agents: An Illustrated Primer
1. 2025 年的对话式语音 AI
LLM 很擅长对话。
如果你花过不少时间与 ChatGPT 或 Claude 进行自由形式的对话,就会直观地感受到:和 LLM 交谈相当自然,而且在很多场景中都很有用。
LLM 也很擅长把非结构化信息转换为结构化数据1。
新的语音 AI 智能体正是利用了 LLM 的这两项能力——对话,以及从非结构化数据中提取结构——来创造一种新的用户体验。
如今,语音 AI 已经被部署到广泛的商业场景中。例如:
- 在医疗预约前收集患者数据
- 跟进 inbound sales leads(入站销售线索)
- 处理越来越多类型的呼叫中心任务
- 协调公司之间的排期与物流
- 以及为几乎所有类型的小企业接听电话
在消费端,对话式语音(以及视频)AI 也开始进入社交应用和游戏。开发者每天都在 GitHub 和社交媒体上分享个人语音 AI 项目与实验。


