CAIO Team

AI论文自动聚合与智能摘要

Agentic Paper Digest Skill

收藏 9.6k

下载 3.3k

版本 1.0.0

AI驱动的学术文献聚合工具，自动抓取arXiv和Hugging Face最新论文，智能分类并生成结构化摘要，支持本地API服务。

基本信息

技能名称?Agentic Paper Digest Skill
中文名称?AI论文自动聚合与智能摘要
作者?matanle51
分类?专业技能
版本?1.0.0
标签?arxiv, hugging-face, paper-digest, literature-review, llm-summarization, research-automation, academic-tools, api-server, cli-tool, sqlite, python

使用方法

使用说明
核心用法
Agentic Paper Digest 是一个自动化的学术论文聚合与摘要系统，主要面向研究人员和AI从业者。其核心工作流包括：

多源抓取：从 arXiv（支持多类别如 cs.CL、cs.AI 等）和 Hugging Face 平台获取最新论文
智能筛选：通过 LLM 进行相关性评分，基于用户定义的 topics.json 主题配置进行分类
摘要生成：对筛选后的论文生成结构化摘要，可选启用 PDF 首页文本提取增强摘要质量
输出交付：支持 CLI JSON 输出或本地 API 服务（端口8000），数据持久化存储于 SQLite
运行模式
CLI 模式：单次运行，适合定时任务集成
API 模式：持续服务，支持轮询式工作流，提供 /api/run 、 /api/papers 、 /api/topics 等端点
显著优点
高度可配置：通过环境变量或 .env 文件灵活控制模型选择、温度参数、抓取窗口、分类主题等
双模型策略：支持分别为相关性判断和摘要生成配置不同强度的模型，优化成本与质量平衡
机构加权：affiliations.json 允许对特定研究机构进行加权提升，优先展示权威来源
多源整合：同时覆盖 arXiv 和 Hugging Face 两大核心学术平台
主题去重： max_per_topic 机制防止单一主题过度占据结果
潜在缺点与局限性
依赖外部 LLM ：必须配置 OpenAI API Key 或兼容的 LiteLLM 代理，存在服务中断和成本风险
Python 环境依赖：需要 Python 3 及可选的 PyMuPDF，对非技术用户有一定门槛
端口冲突风险：API 模式固定使用 8000 端口，需手动处理占用情况
配置复杂度：topics.json 要求主题互斥且 ID 精确匹配，配置不当会导致分类失效
PDF 解析限制：PDF 文本提取仅首页，且依赖额外依赖安装
无内置持久化调度：CLI 模式需配合外部 cron/systemd 实现定时运行
适合人群
AI/ML 研究人员需跟踪最新论文动态
技术团队构建内部论文推荐系统
自动化工作流开发者（可与 n8n、Make 等集成）
对 arXiv 特定类别（如 cs.CL、cs.CR）有持续监控需求的从业者
常规风险
API 密钥泄露： .env 文件或环境变量管理不当可能导致密钥暴露
成本失控：高频调度配合大模型可能产生意外费用，建议设置预算告警
数据隐私：论文元数据和摘要流经第三方 LLM API，敏感研究需注意合规
服务可用性：arXiv/Hugging Face API 变更或 LLM 服务中断会影响功能
SQLite 并发：API 模式下多进程访问 SQLite 可能存在锁竞争，高并发场景建议迁移至 PostgreSQL

标签

专业技能

💬 评论 (0)

发表评论

📭 还没有评论，快来抢沙发吧！