多格式语音转文字,中文精准识别

speech-recognition

收藏 14.6k
下载 4.5k
版本 1.0.1

基于硅基流动 SenseVoice API 的通用语音识别工具,支持多格式音频转文字,中文识别效果优异,适合会议记录、语音消息处理等场景。

基本信息

  • 技能名称?speech-recognition
  • 中文名称?多格式语音转文字,中文精准识别
  • 作者?demo112
  • 分类?专业技能
  • 版本?1.0.1
  • 标签?speech-recognition, asr, chinese-nlp, siliconflow, sensevoice, audio-processing, api-integration, voice-to-text

使用方法

使用说明
核心用法
该 Skill 提供通用语音识别能力,通过调用硅基流动 SenseVoice API 将音频转换为文字。支持 .ogg / .mp3 / .wav / .m4a 等多种格式,用户可通过直接发送语音消息、上传音频文件或主动请求转录来触发。使用前需在 ~/.openclaw/openclaw.json 配置硅基流动 API Key。
显著优点

  1. 中文识别精准 :采用阿里巴巴通义实验室开源的 SenseVoiceSmall 模型,针对中文场景优化,识别准确率高
  2. 格式兼容广泛 :原生支持主流音频格式,配合 FFmpeg 可处理 Telegram OGG、iOS M4A 等特殊格式
  3. 集成便捷 :提供完整的 Python 调用示例和错误处理指南,开发者可快速集成
  4. 生态协同 :与 douyin-video (视频语音提取)、 cosyvoice-tts (语音合成)形成互补,构建完整语音处理流水线
    潜在缺点与局限性
    隐私敏感 :音频需上传至第三方云服务器(硅基流动),不适合机密内容处理
    时长与大小限制 :建议音频
    单一模型依赖 :仅内置 SenseVoiceSmall,无多模型备选或本地部署选项
    网络依赖强 :API 调用需稳定网络,超时重试机制需自行实现
    适合人群
    需要快速转录会议、采访、播客的办公人士
    处理即时通讯语音消息的自动化工作流开发者
    中文内容创作者进行语音字幕生成
    常规风险
    | 风险类型 | 说明 | 缓解建议 | |---------|------|---------| | 隐私泄露 | 音频上传第三方 | 避免处理敏感、涉密内容 | | API 密钥泄露 | 配置文件存储明文密钥 | 使用环境变量替代,设置最小权限 | | 服务中断 | 依赖单一云服务商 | 实现降级方案或本地 Whisper 备选 | | 识别误差 | 口音、噪声干扰 | 关键场景人工校对复核 |

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!