AI 语音转文字，实时精准多语言

Elevenlabs Transcribe

专业技能

收藏 10.7k

下载 2.6k

版本 1.0.1

ElevenLabs 官方语音识别技能，支持 90+ 语言、说话人分离、实时流式转录，适合会议记录、播客字幕和语音交互场景

基本信息

技能名称?Elevenlabs Transcribe
中文名称?AI 语音转文字，实时精准多语言
作者?paulasjes
分类?专业技能
版本?1.0.1
标签?speech-to-text, transcription, elevenlabs, realtime, diarization, multilingual, audio-processing, streaming, voice-input

使用方法

使用说明
核心用法
ElevenLabs Speech-to-Text 是一款基于 ElevenLabs Scribe API 的语音转文本工具，提供三种主要输入方式：本地文件批量处理、 URL 实时流和麦克风实时输入。脚本封装为 Shell 接口，底层依赖 Python 和 ffmpeg 处理音视频格式。
基础命令结构：
{baseDir}/scripts/transcribe.sh [options] # 批量模式
{baseDir}/scripts/transcribe.sh --url # 流式模式
{baseDir}/scripts/transcribe.sh --mic # 麦克风模式关键功能选项：
--diarize ：说话人分离，识别不同说话者
--json ：输出带时间戳的完整 JSON 结构
--events ：标记笑声、音乐、掌声等音频事件
--partials ：实时模式显示中间结果
--quiet ：静默模式，适合 AI Agent 调用
输出格式：默认纯文本， --json 时返回结构化数据包含 words 数组（每个词的起止时间、说话人 ID）。
显著优点

多语言支持：覆盖 90+ 种语言，自动检测语言并返回置信度
格式兼容性广：支持 3GB/10小时以内的 MP3/WAV/M4A/FLAC/OGG 等音频，以及 MP4/AVI/MKV 等视频直接提取
实时场景完善：流媒体 URL 和麦克风输入均可实时转录，延迟可控
专业级标注：说话人分离（diarization）和音频事件标记能力超越基础 ASR 工具
Agent 友好： --quiet 模式仅输出转录内容到 stdout，便于脚本管道化处理
潜在局限
商业 API 依赖：必须持有 ElevenLabs API Key，按用量计费，高频使用成本需评估
网络强依赖：所有处理均走云端 API，离线环境无法使用
隐私边界：音频数据上传至第三方服务器，敏感会议/医疗场景需合规审查
本地资源开销：ffmpeg 和 Python 依赖必须预装，首次运行自动安装 Python 包可能延迟
流控限制：未明确标注速率限制，大文件或高频实时流可能触发限流
适合人群
内容创作者：播客、视频字幕自动化生成
会议效率工具用户：需要说话人分离的会议纪要场景
多语言团队：跨国会议实时翻译预处理
AI Agent 开发者：构建语音交互机器人，需 --mic --quiet 模式获取用户输入
常规风险
| 风险类型 | 说明 | 缓解建议 | |---------|------|---------| | API 密钥泄露 | ELEVENLABS_API_KEY 环境变量暴露 | 使用密钥管理服务，避免 hardcode | | 数据传输隐私 | 音频上传至 ElevenLabs 云端 | 确认服务条款，敏感内容考虑本地 ASR 替代方案 | | 成本失控 | 长音频/高频实时流费用累积 | 设置 API 用量告警，长文件优先用批量模式 | | ffmpeg 安全性 | 处理不可信视频文件时潜在漏洞 | 隔离运行环境，限制输入文件来源 |

AI 语音转文字，实时精准多语言

基本信息

使用方法

标签

💬 评论 (0)

发表评论