一键提取 HN 帖子的文章与评论为干净 Markdown,支持本地阅读或喂给 LLM 分析,Python 单脚本零依赖安装
基本信息
- 技能名称?HackerNews Extract
- 中文名称?HN 文章与评论一键提取为 Markdown
- 作者?guoqiao
- 分类?专业技能
- 版本?0.1.5
- 标签?hackernews, web-scraping, markdown, content-extraction, reader, python, uv, automation, llm-input
使用方法
使用说明
核心功能
hn-extract 是一款轻量级 HackerNews 内容提取工具,通过单一 Python 脚本将 HN 帖子的外链文章与评论区整合为一份结构化 Markdown 文档。用户只需提供 HN ID 或完整 URL,工具即自动抓取原文 HTML、清洗格式、提取元数据,并按线程深度缩进排版评论,最终输出适合快速阅读或 LLM 输入的干净文本。
显著优点
零配置即用 :依赖 uv 实现自动虚拟环境与包管理,无需手动安装 Python 依赖
单文件可移植 :单脚本架构,便于嵌入各类 Agent 工作流或本地调用
结构化输出 :文章与评论分离、评论按层级缩进,保留讨论脉络
工具链友好 :支持 -o 指定输出路径,便于下游自动化处理
潜在局限
反爬风险 :部分站点需认证或启用反爬机制,可能导致抓取失败
无内置缓存 :重复提取相同帖子将重新发起 HTTP 请求
格式依赖 :原文 HTML 结构异常时,清洗效果可能不稳定
Python 限定 :依赖 uv 运行时环境,对非 Python 生态用户不够友好
适合人群
需要离线阅读 HN 长文的开发者
构建 AI 摘要、知识库归档的自动化工作流
研究人员批量采集技术社区讨论数据
常规风险
频繁请求可能触发 HN 或目标站点速率限制
提取内容受原站版权约束,商用需注意合规性
评论区内容未经审核,直接用于训练存在偏见风险
使用建议
建议搭配本地 LLM 或 RAG 系统使用,提取后即时摘要而非长期存储原始数据。
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!