网页一键转 Markdown · AI 就绪

Markdown.new Skill

收藏 78.4k
下载 18.2k
版本 1.0.0

通过 Cloudflare markdown.new 将任意公开网页一键转换为 LLM 就绪的 Markdown,支持 AI/浏览器双模式,零依赖、高安全。

基本信息

  • 技能名称?Markdown.new Skill
  • 中文名称?网页一键转 Markdown · AI 就绪
  • 作者?joelchance
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?url-to-markdown, content-extraction, rag-pipeline, web-scraping, zero-dependency, cloudflare-api, token-optimization, archiving

使用方法

使用说明
核心功能
markdown-new 是一款轻量级 URL-to-Markdown 转换工具,专为 AI 工作流(RAG 摄入、摘要、归档、token 压缩)设计。它调用 Cloudflare 官方服务 markdown.new ,将公开网页快速清洗为结构化 Markdown,支持三种转换模式:
auto(默认) :自动选择最快成功的管道
ai :强制使用 Workers AI 进行 HTML-to-Markdown 转换
browser :强制无头浏览器渲染,处理 JS 重载页面
此外提供 --retain-images 保留图片链接、 --deliver-md 强制文件输出等选项,输出包含 x-markdown-tokens 等元数据,便于下游规划。
显著优点
零依赖安全 :仅用 Python 标准库(urllib),无第三方包,供应链攻击面为零
输入验证严格 :强制校验 http/https 协议与 URL 结构,杜绝命令注入
网络行为干净 :仅向官方 https://markdown.new/ 发送 POST,TLS 1.2+ 加密,无数据外泄
多模式兜底 :auto → browser 重试策略,兼顾速度与 JS 页面兼容性
元数据透明 :返回 token 消耗、速率限制余量,便于成本预估
局限性与风险
外部服务依赖 :完全依赖 Cloudflare 服务可用性;有 500 请求/天/IP 的硬限制,高频场景需自建方案
T3 来源级别 :个人开发者维护,未关联知名组织,长期维护稳定性待观察
公开网页限制 :无法处理登录态、私有内容或反爬严格的站点
输出完整性非保证 :复杂动态页面可能转换不全,关键提取需人工校验
适用人群
AI 开发者、研究员:快速将网页知识库注入 RAG 或 Fine-tuning 流程
内容归档者:批量保存公开文档为 Markdown 存档
自动化工作流:需 URL→Markdown 的标准化、可脚本化转换
使用建议
优先使用 auto 模式,遇 JS 渲染问题再切 browser ;关注 429 速率限制;对关键内容务必人工抽查验证。

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!