语音配置实战

配置语音识别和语音合成——DashScope 接入步骤。

语音配置实战

OpenVort 支持通过 IM 渠道接收语音消息并自动转为文字(ASR),也支持将文字回复转为语音发送给用户(TTS)。当前语音能力基于阿里云 DashScope 实现。

前置条件

  • 已配置至少一个 IM 渠道(企微 / 钉钉 / 飞书)
  • 已获取 DashScope API Key

获取 DashScope API Key

  1. 访问 阿里云 DashScope 控制台
  2. 注册并完成实名认证
  3. 进入 API-KEY 管理,创建新的 API Key
  4. 复制 API Key,后续配置使用

DashScope 新用户有免费额度,足够测试使用。正式使用建议开通按量付费。

配置语音 Provider

在 Web 管理面板中配置:

  1. 进入 系统设置 -> 语音配置
  2. 选择 Provider 为 DashScope
  3. 填写 API Key
  4. 选择 ASR 模型(推荐 paraformer-realtime-v2
  5. 选择 TTS 模型和音色(推荐 cosyvoice-v1
  6. 保存配置

各 IM 渠道语音支持

企业微信(WeChat Work)

能力说明
语音接收下载语音媒体文件 -> DashScope ASR 转文字
语音发送使用 wecom_send_voice 工具

企微会将用户的语音消息以 AMR 格式推送给应用,OpenVort 自动下载并发送到 DashScope 进行识别。

钉钉(DingTalk)

能力说明
语音接收下载语音媒体文件 -> DashScope ASR 转文字
语音发送使用 dingtalk_send_voice 工具

钉钉的语音消息通过机器人 Webhook 接收,系统下载音频文件后进行识别。

飞书(Feishu / Lark)

能力说明
语音接收通过飞书 API 下载音频 -> DashScope ASR 转文字
语音发送使用 feishu_send_voice 工具

飞书通过开放平台 API 提供音频文件下载能力,需要确保应用具备消息读取权限。

使用示例

配置完成后,AI 员工会自动处理语音消息:

  1. 用户在 IM 中发送一段语音
  2. OpenVort 接收语音文件,调用 DashScope ASR 转为文字
  3. AI 员工基于文字内容进行理解和回复
  4. 如需语音回复,AI 可调用对应渠道的 send_voice 工具

注意事项

  • Web 面板不支持语音输入:语音功能仅在 IM 渠道中可用
  • 音频格式:DashScope 支持 WAV / MP3 / AMR 等常见格式,各 IM 平台的原始格式均可直接处理
  • 语音时长限制:建议单条语音不超过 60 秒,超长语音识别准确率可能下降
  • 网络要求:ASR/TTS 调用需要服务器能访问 DashScope API(国内网络即可)