网淘吧来吧,欢迎您!

Agentic Paper Digest Skill技能使用说明

2026-03-29 新闻来源:网淘吧 围观:23
电脑广告
手机广告

智能体论文摘要工具

使用场景

  • 从arXiv和Hugging Face获取最新论文摘要。
  • 生成JSON格式输出供下游智能体使用。
  • 需要轮询工作流时运行本地API服务器。

环境要求

  • 需要Python 3和网络连接。
  • 通过以下方式访问LLM:OPENAI_API_KEY或通过OpenAI兼容服务商:LITELLM_API_BASELITELLM_API_KEY
  • git为可选的初始化工具;否则使用curlwget(或Python)下载代码库。

获取代码并安装

  • 推荐方式:运行初始化辅助脚本。该脚本优先使用git,若不支持则自动回退至压缩包下载方式。
bash "{baseDir}/scripts/bootstrap.sh"
  • 通过设置PROJECT_DIR来覆盖克隆位置。
PROJECT_DIR="$HOME/agentic_paper_digest" bash "{baseDir}/scripts/bootstrap.sh"

运行(推荐使用CLI)

bash "{baseDir}/scripts/run_cli.sh"
  • 根据需要传递CLI标志。
bash "{baseDir}/scripts/run_cli.sh" --window-hours 24 --sources arxiv,hf

运行(API可选)

bash "{baseDir}/scripts/run_api.sh"
  • 触发运行并读取结果。
curl -X POST http://127.0.0.1:8000/api/run
curl http://127.0.0.1:8000/api/status
curl http://127.0.0.1:8000/api/papers
  • 如果需要,停止API服务器。
bash "{baseDir}/scripts/stop_api.sh"

输出

  • CLI--json打印run_idseenkeptwindow_startwindow_end
  • 数据存储:data/papers.sqlite3(位于PROJECT_DIR).
  • API:POST /api/run,GET /api/status,GET /api/papers,GET/POST /api/topics,GET/POST /api/settings.

配置

配置文件位于PROJECT_DIR/config目录下。环境变量可以在shell中设置,或通过.env文件设置。这里的包装器会自动从PROJECT_DIR目录加载.env文件(可通过ENV_FILE=/path/to/.env覆盖此路径)。

环境变量(.env 文件或导出的变量)

Agentic Paper Digest Skill

  • OPENAI_API_KEYOpenAI模型所需项(litellm会读取此配置)。
  • LITELLM_API_BASELITELLM_API_KEY:使用兼容OpenAI的代理/服务提供商。
  • LITELLM_MODEL_RELEVANCELITELLM_MODEL_SUMMARY:用于相关性判断和摘要生成的模型(若未设置摘要模型,则默认使用相关性模型)。
  • LITELLM_TEMPERATURE_RELEVANCELITELLM_TEMPERATURE_SUMMARY:较低值可使输出更具确定性。
  • LITELLM_MAX_RETRIES:LLM调用的重试次数。
  • LITELLM_DROP_PARAMS=1:丢弃不支持的参数以避免提供商错误。
  • WINDOW_HOURSAPP_TZ:时间窗口(小时)和时区设置。
  • ARXIV_CATEGORIES逗号分隔的类别(默认包含cs.CL,cs.AI,cs.LG,stat.ML,cs.CR)。
  • ARXIV_API_BASEHF_API_BASE:如有需要,可覆盖源端点。
  • ARXIV_MAX_RESULTSARXIV_PAGE_SIZE:arXiv 分页限制。
  • MAX_CANDIDATES_PER_SOURCE:在 LLM 过滤前,每个源的候选数量上限。
  • FETCH_TIMEOUT_SREQUEST_TIMEOUT_S:源获取和每个请求的超时时间。
  • ENABLE_PDF_TEXT=1:在摘要中包含第一页 PDF 文本;需要PyMuPDFpip install pymupdf)。
  • DATA_DIR位置papers.sqlite3
  • CORS_ORIGINS:API服务器允许的逗号分隔的源(供UI使用)。
  • 路径覆盖:TOPICS_PATHSETTINGS_PATHAFFILIATION_BOOSTS_PATH

配置文件

  • config/topics.json:包含idlabeldescriptionmax_per_topickeywords的主题列表。相关性分类器必须严格按照此处定义的格式输出主题ID。每个主题的最大数量同时限制结果数量GET /api/papersapply_topic_caps=1
  • config/settings.json:覆盖获取限制(arxiv_max_resultsarxiv_page_sizefetch_timeout_smax_candidates_per_source)。通过POST /api/settings更新
  • config/affiliations.json:包含{pattern, weight}模式的列表,通过子字符串匹配应用于机构名称以进行权重提升。权重累加并上限为1.0。无效的JSON会禁用权重提升,因此请保持文件为严格的JSON格式(无尾随逗号)。

强制性工作流程(请逐步遵循)

  1. 你首先必须打开并读取来自GitHub仓库的配置:https://github.com/matanle51/agentic_paper_digest你已下载
    • 加载config/topics.jsonconfig/settings.json以及config/affiliations.json(如果存在)。
    • 在请求用户更改之前,注意当前的主题ID、上限和获取限制。
  2. 请用户提供以下偏好设置(协助用户)
    • 感兴趣的主题→ 更新config/topics.jsontopics[].id/label/description/keywordsmax_per_topic)。
      显示当前默认值,并询问是保留还是更改它们。
    • 时间窗口(小时)→ 设置WINDOW_HOURS(或通过CLI传递--window-hours参数)仅在用户关注此设置时;否则默认保持为24小时。
    • 请用户填写以下参数(向用户解释其用途):ARXIV_CATEGORIESARXIV_MAX_RESULTSARXIV_PAGE_SIZEMAX_CANDIDATES_PER_SOURCE
      询问是否保持默认值并显示当前值。
    • 模型/提供商→ 设置OPENAI_API_KEY LITELLM_API_KEY(加上LITELLM_API_BASE如果设置了代理),并设置LITELLM_MODEL_RELEVANCE/LITELLM_MODEL_SUMMARY
    • 默认情况下不要询问:时区、质量与成本、超时设置、PDF文本、机构偏好、来源列表。除非用户要求更改,否则使用默认值。
  3. 确认工作空间路径:询问克隆/运行的位置。默认设置为PROJECT_DIR="$HOME/agentic_paper_digest"如果用户不介意。永远不要硬编码/Users/...这样的路径。
  4. 引导仓库:运行引导脚本(除非仓库已存在且用户要求跳过)。
  5. 创建或验证.env文件:
    • 如果.env文件缺失,则根据.env.example(在仓库中),然后请用户填写密钥和任何请求的偏好设置。
    • 确保在运行前至少设置了OPENAI_API_KEYLITELLM_API_KEY中的一个。
  6. 应用配置更改
    • 直接编辑JSON文件(或如果运行API,使用POST /api/topicsPOST /api/settings)。
  7. 运行流程
    • 对于一次性JSON输出,推荐使用scripts/run_cli.sh
    • 仅当用户明确要求UI/API访问或轮询时,才使用scripts/run_api.sh
  8. 报告结果
    • 如果结果稀疏,建议增加窗口小时数,arXiv最大结果数,或拓展主题范围。

获取良好结果

  • 帮助用户定义并保持主题聚焦且互斥,以便分类器能选择正确的ID。
  • 如果质量很重要,为摘要使用比相关性更强的模型。
  • 如果使用OpenAI的模型,默认选择gpt-5-mini以获得良好的权衡效果。
  • 增加窗口小时数arXiv最大结果数当结果稀疏时,或在结果过于嘈杂时降低它们。
  • 调整arXiv类别以适应您的研究领域。
  • 当摘要内容过于单薄时,启用PDF文本(ENABLE_PDF_TEXT=1)。
  • 使用适度的隶属关系权重来偏置排名,而不淹没相关性。
  • 积极主动,帮助用户调整技能以获得良好结果!

故障排除

  • 端口8000被占用:运行bash "{baseDir}/scripts/stop_api.sh"或向API命令传递--port参数。
  • 结果为空:增加WINDOW_HOURS或验证.env文件中的API密钥。
  • 缺少API密钥错误:在运行前于终端中导出OPENAI_API_KEYLITELLM_API_KEY环境变量。

免责申明
部分文章来自各大搜索引擎,如有侵权,请与我联系删除。
打赏
文章底部电脑广告
手机广告位-内容正文底部

相关文章

您是本站第336813名访客 今日有635篇新文章/评论