readpaper - 论文阅读报告生成器（v7.7 简化版）

简介

readpaper 是一个智能论文分析工具，能够从 PDF 文件中提取结构化内容，供 AI 直接生成全中文阅读报告。

方案B工作流程

用户运行 /readpaper → Python提取PDF内容 → 保存为结构化文件 → AI读取文件 → AI直接生成中文报告

功能特点

智能 PDF 提取：支持多种 PDF 解析库（PyMuPDF、pypdf、pdfplumber），根据文件大小自动选择最优方案
自动库安装：自动检测并安装缺失的 PDF 处理库，无需手动配置环境
结构化输出：将论文内容整理成标准格式，便于 AI 理解和总结
元数据识别：自动提取论文标题、作者、期刊、发表时间、DOI 等
结果缓存：相同文件重复分析时毫秒级响应

使用方法

方式：使用 WorkBuddy 自动调用（推荐）

/readpaper "PDF文件路径"

WorkBuddy 会自动：

提取 PDF 内容并保存为结构化文件 {文件名}_提取内容.txt
AI 读取提取的内容文件
AI 直接生成完整的中文阅读报告

报告结构

生成的中文报告包含以下十个部分：

一、论文基本信息

论文标题（中英文对照）
期刊/会议
作者
作者单位
发表时间
DOI

二、摘要总结

中文摘要总结（400-600字）
涵盖研究背景、目的、方法、主要发现和意义

三、研究背景

研究问题的科学背景和重要性
该领域已有的研究进展
本研究要解决的具体科学问题

四、研究方法

数据来源和范围
研究方法和模型
关键分析步骤
便于复现实验的技术细节

五、图表分析

对每个主要图表的中文解读
图表展示的核心内容
关键发现和规律
与研究问题的关联

六、主要发现

核心科学发现的详细阐述
关键实验结果和数据分析
与预期结果的对比

七、核心贡献

学术贡献和创新点
对领域的推动作用
实际应用价值

八、批判性思考

8.1 研究优势：优势、亮点和创新之处
8.2 研究局限：局限性或不足之处
8.3 改进建议：具体的改进建议
8.4 未来研究方向：未来深入研究的方向

九、论文总结

综合概括论文的研究目标、方法、主要发现和贡献，突出论文的核心价值。

十、方法复现

10.1 数据获取：公开数据集名称/来源、API接口、下载方式；无法公开的数据如何获取或替代
10.2 代码实现要点：核心算法伪代码或流程图、关键超参数设置、数据预处理步骤
10.3 复现步骤：按时间顺序的实验步骤、可选的简化复现路径
10.4 潜在问题与解决方案：常见复现失败原因及对应解决方法

技术实现

文件结构

readpaper/
├── SKILL.md              # 技能说明文档
├── scripts/
│   ├── read_paper_main.py    # 主执行脚本
│   └── report_generator.py   # 内容提取器

工作流程

PDF 提取：根据文件大小选择最优提取方法
内容解析：提取元数据、摘要、背景、方法、图表、结论
结构化保存：将提取的内容保存为文本文件
AI 生成报告：AI 读取内容文件，直接生成中文报告

PDF 提取策略

文件大小	优先方法	备选方法	最后备选
< 10 MB	PyMuPDF	pdfplumber	pypdf
≥ 10 MB	pdfplumber	PyMuPDF	pypdf

策略说明：

PyMuPDF：提取效果最佳，是10MB以下文件的首选
pdfplumber：内存效率高，适合大文件，也是10MB以下文件的备选
pypdf：轻量级纯Python库，作为最后的备选方案

缓存机制

分析缓存：~/.workbuddy/cache/readpaper/cache_index.json
缓存有效期：30 天
相同文件再次分析时直接返回缓存结果

输出文件

运行后会生成以下文件：

提取内容文件：{PDF文件名}_提取内容.txt
- 包含论文的结构化提取内容
- 供 AI 读取并生成中文报告

readpaper

Install via CLI (Recommended)

readpaper - 论文阅读报告生成器（v7.7 简化版）

简介

方案B工作流程

功能特点

使用方法

方式：使用 WorkBuddy 自动调用（推荐）

报告结构

一、论文基本信息

二、摘要总结

三、研究背景

四、研究方法

五、图表分析

六、主要发现

七、核心贡献

八、批判性思考

九、论文总结

十、方法复现

技术实现

文件结构

工作流程

PDF 提取策略

缓存机制

输出文件

Metadata