语音配置实战

配置语音识别和语音合成——DashScope 接入步骤。

OpenVort 支持通过 IM 渠道接收语音消息并自动转为文字（ASR），也支持将文字回复转为语音发送给用户（TTS）。当前语音能力基于阿里云 DashScope 实现。

前置条件

DashScope 新用户有免费额度，足够测试使用。正式使用建议开通按量付费。

在 Web 管理面板中配置：

能力	说明
语音接收	下载语音媒体文件 -> DashScope ASR 转文字
语音发送	使用 `wecom_send_voice` 工具

企微会将用户的语音消息以 AMR 格式推送给应用，OpenVort 自动下载并发送到 DashScope 进行识别。

能力	说明
语音接收	下载语音媒体文件 -> DashScope ASR 转文字
语音发送	使用 `dingtalk_send_voice` 工具

钉钉的语音消息通过机器人 Webhook 接收，系统下载音频文件后进行识别。

能力	说明
语音接收	通过飞书 API 下载音频 -> DashScope ASR 转文字
语音发送	使用 `feishu_send_voice` 工具

飞书通过开放平台 API 提供音频文件下载能力，需要确保应用具备消息读取权限。

配置完成后，AI 员工会自动处理语音消息：