第27章:大文件与长文档处理——从摘要到问答
1. 项目背景业务场景某律师事务所的AI合同审查系统(基于第12、20章的RAG)运行稳定,但上周收到一个新需求:审查一份150页的并购合同(约8万字),包括条款摘要、风险点标注和关键信息抽取。技术团队直接把这150页PDF扔给RAG系统,结果令人沮丧:切分成了200多个chunk,检索时返回的chunk分散在各章节,缺乏上下文连贯性。模型只能看到零散的片段,无法理解"第3条的违约责任"和"第15条的终止条款"之间的逻辑关联。最尴尬的是:律师问"这份合同对买方的保护是否充分?"——这个问题需要理解整份合同的结构和条款间关系,任何单个chunk都不包含这个答案。产品经理说:“这不是RAG能解决的问题,这是需要对整份文档做深度理解的任务。”痛点超长文档超出上下文窗口:150页合同≈8万token,远超qwen2.5:7b的默认4096上下文窗口。分段处理丢失全局视角:把合同切成20段分别问答,但"整体风险评估"需要跨越所有段的综合能力。表格和结构化内容难保留:合同中的金额表格、签名栏、章节目录在切分后往往面目全非。PDF解析不完美:从PDF提取出的文本可能包含页眉页脚、水印、分页符等噪声。一句话总结:处理超长文档不

相关新闻