AI驱动的学术文献聚合工具,自动抓取arXiv和Hugging Face最新论文,智能分类并生成结构化摘要,支持本地API服务。
基本信息
- 技能名称?Agentic Paper Digest Skill
- 中文名称?AI论文自动聚合与智能摘要
- 作者?matanle51
- 分类?专业技能
- 版本?1.0.0
- 标签?arxiv, hugging-face, paper-digest, literature-review, llm-summarization, research-automation, academic-tools, api-server, cli-tool, sqlite, python
使用方法
使用说明
核心用法
Agentic Paper Digest 是一个自动化的学术论文聚合与摘要系统,主要面向研究人员和AI从业者。其核心工作流包括:
- 多源抓取 :从 arXiv(支持多类别如 cs.CL、cs.AI 等)和 Hugging Face 平台获取最新论文
- 智能筛选 :通过 LLM 进行相关性评分,基于用户定义的 topics.json 主题配置进行分类
- 摘要生成 :对筛选后的论文生成结构化摘要,可选启用 PDF 首页文本提取增强摘要质量
- 输出交付 :支持 CLI JSON 输出或本地 API 服务(端口8000),数据持久化存储于 SQLite
运行模式
CLI 模式 :单次运行,适合定时任务集成
API 模式 :持续服务,支持轮询式工作流,提供 /api/run 、 /api/papers 、 /api/topics 等端点
显著优点
高度可配置 :通过环境变量或 .env 文件灵活控制模型选择、温度参数、抓取窗口、分类主题等
双模型策略 :支持分别为相关性判断和摘要生成配置不同强度的模型,优化成本与质量平衡
机构加权 :affiliations.json 允许对特定研究机构进行加权提升,优先展示权威来源
多源整合 :同时覆盖 arXiv 和 Hugging Face 两大核心学术平台
主题去重 : max_per_topic 机制防止单一主题过度占据结果
潜在缺点与局限性
依赖外部 LLM :必须配置 OpenAI API Key 或兼容的 LiteLLM 代理,存在服务中断和成本风险
Python 环境依赖 :需要 Python 3 及可选的 PyMuPDF,对非技术用户有一定门槛
端口冲突风险 :API 模式固定使用 8000 端口,需手动处理占用情况
配置复杂度 :topics.json 要求主题互斥且 ID 精确匹配,配置不当会导致分类失效
PDF 解析限制 :PDF 文本提取仅首页,且依赖额外依赖安装
无内置持久化调度 :CLI 模式需配合外部 cron/systemd 实现定时运行
适合人群
AI/ML 研究人员需跟踪最新论文动态
技术团队构建内部论文推荐系统
自动化工作流开发者(可与 n8n、Make 等集成)
对 arXiv 特定类别(如 cs.CL、cs.CR)有持续监控需求的从业者
常规风险
API 密钥泄露 : .env 文件或环境变量管理不当可能导致密钥暴露
成本失控 :高频调度配合大模型可能产生意外费用,建议设置预算告警
数据隐私 :论文元数据和摘要流经第三方 LLM API,敏感研究需注意合规
服务可用性 :arXiv/Hugging Face API 变更或 LLM 服务中断会影响功能
SQLite 并发 :API 模式下多进程访问 SQLite 可能存在锁竞争,高并发场景建议迁移至 PostgreSQL
💬 评论 (0)
📭 还没有评论,快来抢沙发吧!