CAIO Team

AI 语音朗读，解放双眼双手

Audio Reply

收藏 0

下载 0

版本 1.1.0

基于 MLX Audio TTS 的语音回复技能，可将网页内容朗读或生成对话式语音，适合解放双手获取信息。

基本信息

技能名称?Audio Reply
中文名称?AI 语音朗读，解放双眼双手
作者?matrixy
分类?其他
版本?1.1.0
标签?tts, audio, speech-synthesis, mlx, accessibility, voice, local-ai, content-consumption, macos

使用方法

使用说明
Audio Reply 技能评估
核心用法
Audio Reply 是一款文本转语音（TTS）技能，提供两种主要工作模式：

网页朗读模式：通过 "read it to me [URL]" 触发，抓取公开网页内容并转换为语音播报
对话生成模式：通过 "talk to me [topic]" 触发，生成自然对话风格的语音回复
该技能基于 Apple MLX 框架的 chatterbox-turbo-fp16 模型，通过 uv 包管理器运行，首载约 500MB。
显著优点
本地化执行：依托 MLX 在 Apple Silicon 本地运行，无需云端 API，隐私性较好
自然音质：chatterbox-turbo 模型以对话自然度见长，支持情感调节 ( --exaggeration )
多场景触发：支持 "speak"、"say it"、"voice reply" 等多种口语化唤醒词
自动清理：强制要求删除临时音频文件，减少本地残留
潜在缺点与局限
平台限制：仅支持 macOS (darwin)，依赖 Apple Silicon 的 MLX 生态
语言偏向：官方提示非英语质量可能下降
内容长度：长文本 (>500 词) 需主动摘要，可能影响信息完整性
网络依赖：URL 抓取环节引入外部依赖，存在超时或反爬风险
适合人群
需要通勤、家务时"听"内容的 macOS 用户
偏好本地 AI、反感云端 TTS 隐私风险的用户
视力辅助需求者
常规风险
URL 安全风险：虽配置多项安全护栏（私网 IP 拦截、凭证检测），但公开 URL 仍可能返回恶意内容
音频历史残留：提示中指出客户端聊天记录可能保留音频引用，敏感内容需谨慎
首载带宽：500MB 模型初次下载对网络环境有要求
安全建议
该技能的安全护栏设计较为周全，但 URL 抓取始终是攻击面。建议用户仅提供可信公开链接，避免输入含敏感参数的 URL。

标签

其他

💬 评论 (0)

发表评论

📭 还没有评论，快来抢沙发吧！