语音配置实战
配置语音识别和语音合成——DashScope 接入步骤。
语音配置实战
OpenVort 支持通过 IM 渠道接收语音消息并自动转为文字(ASR),也支持将文字回复转为语音发送给用户(TTS)。当前语音能力基于阿里云 DashScope 实现。
前置条件
- 已配置至少一个 IM 渠道(企微 / 钉钉 / 飞书)
- 已获取 DashScope API Key
获取 DashScope API Key
- 访问 阿里云 DashScope 控制台
- 注册并完成实名认证
- 进入 API-KEY 管理,创建新的 API Key
- 复制 API Key,后续配置使用
DashScope 新用户有免费额度,足够测试使用。正式使用建议开通按量付费。
配置语音 Provider
在 Web 管理面板中配置:
- 进入 系统设置 -> 语音配置
- 选择 Provider 为 DashScope
- 填写 API Key
- 选择 ASR 模型(推荐
paraformer-realtime-v2) - 选择 TTS 模型和音色(推荐
cosyvoice-v1) - 保存配置
各 IM 渠道语音支持
企业微信(WeChat Work)
| 能力 | 说明 |
|---|---|
| 语音接收 | 下载语音媒体文件 -> DashScope ASR 转文字 |
| 语音发送 | 使用 wecom_send_voice 工具 |
企微会将用户的语音消息以 AMR 格式推送给应用,OpenVort 自动下载并发送到 DashScope 进行识别。
钉钉(DingTalk)
| 能力 | 说明 |
|---|---|
| 语音接收 | 下载语音媒体文件 -> DashScope ASR 转文字 |
| 语音发送 | 使用 dingtalk_send_voice 工具 |
钉钉的语音消息通过机器人 Webhook 接收,系统下载音频文件后进行识别。
飞书(Feishu / Lark)
| 能力 | 说明 |
|---|---|
| 语音接收 | 通过飞书 API 下载音频 -> DashScope ASR 转文字 |
| 语音发送 | 使用 feishu_send_voice 工具 |
飞书通过开放平台 API 提供音频文件下载能力,需要确保应用具备消息读取权限。
使用示例
配置完成后,AI 员工会自动处理语音消息:
- 用户在 IM 中发送一段语音
- OpenVort 接收语音文件,调用 DashScope ASR 转为文字
- AI 员工基于文字内容进行理解和回复
- 如需语音回复,AI 可调用对应渠道的
send_voice工具
注意事项
- Web 面板不支持语音输入:语音功能仅在 IM 渠道中可用
- 音频格式:DashScope 支持 WAV / MP3 / AMR 等常见格式,各 IM 平台的原始格式均可直接处理
- 语音时长限制:建议单条语音不超过 60 秒,超长语音识别准确率可能下降
- 网络要求:ASR/TTS 调用需要服务器能访问 DashScope API(国内网络即可)