多格式语音转文字，中文精准识别

speech-recognition

专业技能

收藏 14.6k

下载 4.5k

版本 1.0.1

基于硅基流动 SenseVoice API 的通用语音识别工具，支持多格式音频转文字，中文识别效果优异，适合会议记录、语音消息处理等场景。

基本信息

技能名称?speech-recognition
中文名称?多格式语音转文字，中文精准识别
作者?demo112
分类?专业技能
版本?1.0.1
标签?speech-recognition, asr, chinese-nlp, siliconflow, sensevoice, audio-processing, api-integration, voice-to-text

使用方法

使用说明
核心用法
该 Skill 提供通用语音识别能力，通过调用硅基流动 SenseVoice API 将音频转换为文字。支持 .ogg / .mp3 / .wav / .m4a 等多种格式，用户可通过直接发送语音消息、上传音频文件或主动请求转录来触发。使用前需在 ~/.openclaw/openclaw.json 配置硅基流动 API Key。
显著优点

中文识别精准：采用阿里巴巴通义实验室开源的 SenseVoiceSmall 模型，针对中文场景优化，识别准确率高
格式兼容广泛：原生支持主流音频格式，配合 FFmpeg 可处理 Telegram OGG、iOS M4A 等特殊格式
集成便捷：提供完整的 Python 调用示例和错误处理指南，开发者可快速集成
生态协同：与 douyin-video （视频语音提取）、 cosyvoice-tts （语音合成）形成互补，构建完整语音处理流水线
潜在缺点与局限性
隐私敏感：音频需上传至第三方云服务器（硅基流动），不适合机密内容处理
时长与大小限制：建议音频
单一模型依赖：仅内置 SenseVoiceSmall，无多模型备选或本地部署选项
网络依赖强：API 调用需稳定网络，超时重试机制需自行实现
适合人群
需要快速转录会议、采访、播客的办公人士
处理即时通讯语音消息的自动化工作流开发者
中文内容创作者进行语音字幕生成
常规风险
| 风险类型 | 说明 | 缓解建议 | |---------|------|---------| | 隐私泄露 | 音频上传第三方 | 避免处理敏感、涉密内容 | | API 密钥泄露 | 配置文件存储明文密钥 | 使用环境变量替代，设置最小权限 | | 服务中断 | 依赖单一云服务商 | 实现降级方案或本地 Whisper 备选 | | 识别误差 | 口音、噪声干扰 | 关键场景人工校对复核 |

多格式语音转文字，中文精准识别

基本信息

使用方法

标签

💬 评论 (0)

发表评论