HN 文章与评论一键提取为 Markdown

HackerNews Extract

专业技能

收藏 10.3k

下载 2.8k

版本 0.1.5

一键提取 HN 帖子的文章与评论为干净 Markdown，支持本地阅读或喂给 LLM 分析，Python 单脚本零依赖安装

基本信息

技能名称?HackerNews Extract
中文名称?HN 文章与评论一键提取为 Markdown
作者?guoqiao
分类?专业技能
版本?0.1.5
标签?hackernews, web-scraping, markdown, content-extraction, reader, python, uv, automation, llm-input

使用方法

使用说明
核心功能
hn-extract 是一款轻量级 HackerNews 内容提取工具，通过单一 Python 脚本将 HN 帖子的外链文章与评论区整合为一份结构化 Markdown 文档。用户只需提供 HN ID 或完整 URL，工具即自动抓取原文 HTML、清洗格式、提取元数据，并按线程深度缩进排版评论，最终输出适合快速阅读或 LLM 输入的干净文本。
显著优点
零配置即用：依赖 uv 实现自动虚拟环境与包管理，无需手动安装 Python 依赖
单文件可移植：单脚本架构，便于嵌入各类 Agent 工作流或本地调用
结构化输出：文章与评论分离、评论按层级缩进，保留讨论脉络
工具链友好：支持 -o 指定输出路径，便于下游自动化处理
潜在局限
反爬风险：部分站点需认证或启用反爬机制，可能导致抓取失败
无内置缓存：重复提取相同帖子将重新发起 HTTP 请求
格式依赖：原文 HTML 结构异常时，清洗效果可能不稳定
Python 限定：依赖 uv 运行时环境，对非 Python 生态用户不够友好
适合人群
需要离线阅读 HN 长文的开发者
构建 AI 摘要、知识库归档的自动化工作流
研究人员批量采集技术社区讨论数据
常规风险
频繁请求可能触发 HN 或目标站点速率限制
提取内容受原站版权约束，商用需注意合规性
评论区内容未经审核，直接用于训练存在偏见风险
使用建议
建议搭配本地 LLM 或 RAG 系统使用，提取后即时摘要而非长期存储原始数据。

HN 文章与评论一键提取为 Markdown

基本信息

使用方法

标签

💬 评论 (0)

发表评论