语音交互
通过语音与 AI 员工沟通——语音识别和语音合成。
概述
OpenVort 支持语音交互,让你可以发送语音消息与 AI 员工沟通,AI 也可以用语音回复。底层依赖 ASR(语音识别)和 TTS(语音合成)服务。
核心能力
ASR — 语音转文字
当你通过 IM 平台发送语音消息时,OpenVort 自动将语音转写为文字,然后交给 AI 员工处理。你不需要做任何额外操作——直接发语音就行。
TTS — 文字转语音
AI 员工可以将回复转换为语音消息发送。每个 IM 通道都配备了 send_voice 工具:
| 工具名 | 说明 |
|---|---|
wecom_send_voice | 通过企微发送语音消息 |
dingtalk_send_voice | 通过钉钉发送语音消息 |
feishu_send_voice | 通过飞书发送语音消息 |
支持的服务商
| 服务商 | ASR | TTS | 说明 |
|---|---|---|---|
| 阿里云 DashScope | 支持 | 支持 | 当前默认服务商 |
后续会持续接入更多服务商。
配置方式
- 进入 Web 管理面板 → 语音服务商管理
- 添加服务商(选择类型、填入 API Key)
- 保存后即可使用
IM 平台语音支持
| IM 平台 | 接收语音消息 | 自动 ASR 转写 | AI 语音回复 |
|---|---|---|---|
| 企微 | 支持 | 支持 | 支持 |
| 钉钉 | 支持 | 支持 | 支持 |
| 飞书 | 支持 | 支持 | 支持 |
| Web 面板 | 不支持 | — | — |
使用场景
- 移动端语音指令 — 出门在外用手机语音给 AI 员工布置任务
- 快速沟通 — 不方便打字时直接发语音
- 多语言 — 支持多语言语音识别