文档预处理是 RAG 管道的幽灵——没人喜欢聊但效果好不好全看它。MinerU 把 PDF、Office 文档转成 LLM 可直接吃的 Markdown/JSON69509 个 star 不是白来的。这个项目解决什么问题RAG 系统的瓶颈不在 embedding 模型不在向量检索在文档解析这一步。PDF 转文字这个坑够深了双栏布局变成一堆乱序文本、表格识别靠格式猜、公式变成方块字、扫描件 OCR 识别率看天吃饭。传统方案PyPDF2、pdfplumber只能应付最简单的 PDF遇到学术论文、财报、有复杂排版的文档就直接拉胯。MinerU 的核心思路很直接先做版面分析layout analysis再做内容提取。它不是一行行读 PDF而是先理解每个页面上的东西是什么——标题、正文、表格、图片、公式——然后用对应策略提取。核心亮点版面识别引擎基于深度学习做版面元素检测能区分标题、段落、表格、图片、公式数学公式单独提取 LaTeX多格式输入PDF、Word.docx、Excel.xlsx、PPT 都能进统一输出 Markdown 或 JSONOCR 兜底扫描件和多语言文档自动降级到 OCR不做硬性格式要求LLM-ready 输出输出的 Markdown 保留结构章节层级、列表、表格JSON 格式适合直接喂给 AI agentpip install 即用pip install mineru安装不需要编译 C 扩展对比同行PyMuPDFfitz快但格式丢失严重双栏变单栏乱序LlamaParse效果好但私有按页计费Unstructured.io功能全但配置复杂中文支持不完善MinerU开源Apache 2.0中文优先社区活跃快速上手pipinstallmineru# 命令行直接转mineru pdf your-document.pdf-ooutput/# 或者 Python APIfrom mineruimportprocess_document resultprocess_document(paper.pdf)print(result.markdown)不依赖 GPU。几 MB 的小文档秒级出结果。复杂的 100 页 PDF 取决于内容复杂度大概 10-30 秒。⚠️注意首次运行时模型权重会自动下载约 500MB建议提前mineru download-models。我的评价MinerU 是目前开源 PDF 解析里综合完成度最高的选择。OpenDataLab 团队持续维护了两年GitHub 69509 starsPyPI 月下载量过百万。和商业方案比它的版面分析效果已经接近 LlamaParse 的 90%但完全免费、可自托管。对于中文文档它的表现甚至更好——因为训练数据里中文 PDF 的占比够大。不是没有缺点超大 PDF500 页会吃内存到 8GB如果你要实时解析比如 API 场景部署优化还得自己做。但作为 RAG 管道的预处理层MinerU 是这个领域最成熟的开源选择。