AI论文自动聚合与智能摘要

Agentic Paper Digest Skill

收藏 9.6k
下载 3.3k
版本 1.0.0

AI驱动的学术文献聚合工具,自动抓取arXiv和Hugging Face最新论文,智能分类并生成结构化摘要,支持本地API服务。

基本信息

  • 技能名称?Agentic Paper Digest Skill
  • 中文名称?AI论文自动聚合与智能摘要
  • 作者?matanle51
  • 分类?专业技能
  • 版本?1.0.0
  • 标签?arxiv, hugging-face, paper-digest, literature-review, llm-summarization, research-automation, academic-tools, api-server, cli-tool, sqlite, python

使用方法

使用说明
核心用法
Agentic Paper Digest 是一个自动化的学术论文聚合与摘要系统,主要面向研究人员和AI从业者。其核心工作流包括:

  1. 多源抓取 :从 arXiv(支持多类别如 cs.CL、cs.AI 等)和 Hugging Face 平台获取最新论文
  2. 智能筛选 :通过 LLM 进行相关性评分,基于用户定义的 topics.json 主题配置进行分类
  3. 摘要生成 :对筛选后的论文生成结构化摘要,可选启用 PDF 首页文本提取增强摘要质量
  4. 输出交付 :支持 CLI JSON 输出或本地 API 服务(端口8000),数据持久化存储于 SQLite
    运行模式
    CLI 模式 :单次运行,适合定时任务集成
    API 模式 :持续服务,支持轮询式工作流,提供 /api/run 、 /api/papers 、 /api/topics 等端点
    显著优点
    高度可配置 :通过环境变量或 .env 文件灵活控制模型选择、温度参数、抓取窗口、分类主题等
    双模型策略 :支持分别为相关性判断和摘要生成配置不同强度的模型,优化成本与质量平衡
    机构加权 :affiliations.json 允许对特定研究机构进行加权提升,优先展示权威来源
    多源整合 :同时覆盖 arXiv 和 Hugging Face 两大核心学术平台
    主题去重 : max_per_topic 机制防止单一主题过度占据结果
    潜在缺点与局限性
    依赖外部 LLM :必须配置 OpenAI API Key 或兼容的 LiteLLM 代理,存在服务中断和成本风险
    Python 环境依赖 :需要 Python 3 及可选的 PyMuPDF,对非技术用户有一定门槛
    端口冲突风险 :API 模式固定使用 8000 端口,需手动处理占用情况
    配置复杂度 :topics.json 要求主题互斥且 ID 精确匹配,配置不当会导致分类失效
    PDF 解析限制 :PDF 文本提取仅首页,且依赖额外依赖安装
    无内置持久化调度 :CLI 模式需配合外部 cron/systemd 实现定时运行
    适合人群
    AI/ML 研究人员需跟踪最新论文动态
    技术团队构建内部论文推荐系统
    自动化工作流开发者(可与 n8n、Make 等集成)
    对 arXiv 特定类别(如 cs.CL、cs.CR)有持续监控需求的从业者
    常规风险
    API 密钥泄露 : .env 文件或环境变量管理不当可能导致密钥暴露
    成本失控 :高频调度配合大模型可能产生意外费用,建议设置预算告警
    数据隐私 :论文元数据和摘要流经第三方 LLM API,敏感研究需注意合规
    服务可用性 :arXiv/Hugging Face API 变更或 LLM 服务中断会影响功能
    SQLite 并发 :API 模式下多进程访问 SQLite 可能存在锁竞争,高并发场景建议迁移至 PostgreSQL

标签

专业技能

💬 评论 (0)

发表评论

支持 Markdown

📭 还没有评论,快来抢沙发吧!