前言

越来越多的大模型支持了超长的上下文 (context length)，例如 Google gemini 一发布就支持 2M。超长上下文的特性大大方便了文档问答应用的开发。而 RAG 作为文档问答的解决方案，是否会被超长上下文 LLM 降维打击甚至完全替代？这篇文章就超长上下文和 RAG 这两种方案做了对比实验，并总结了两种方案的优缺点。

实验文档的选择

这里选择了香港优才计划的申请指引：優秀人才入境計劃申請須知。这个 PDF 包含繁体中文文本，文档段落结构清晰，有标题、有加粗、有编号。除了封面 PDF 里没有图片，不需要使用 OCR 来提取文本。这个 PDF 包含少量的简单表格，可以观察 LLM 或 RAG 方案对表格的解析能力。

这个 PDF 问答总计 26 页，每页有 900～1400 个中文字符，换算成 GPT4 的 token，每页的 token 数目是 1000～1800，整个 PDF 总计有 27k 个 token。

注意：这个 PDF 可能已包含在大模型的训练数据里，因此可能出现大模型不依据文档而基于自身数据自行回答，导致评测结果不够严谨

评测问题的设计

基于文档专门设计了 10 个问题，方便考察某些方面的能力，如：

跨分片总结。即如果使用 RAG 方案，就涉及到文档切片，问题答案在多个分片中
PDF 表格解析。即答案来自表格，需要 RAG 方案能正确解析表格

评测问题	考察点
优才申请的条件	跨分片总结
综合计分制包含哪些方面	跨分片总结
资产数额的要求是多少	无明确答案
哪些学校的学位可以额外加分	无明确答案
需要哪些证明文件，详细列出来	-
35 岁可以计多少分	PDF表格解析
哪些国家不可以申请优才计划	跨分片内容修订
递交的申请需要多长时间审批完成	无明确答案
怎样递交申请材料	-
语言能力需要证明文件吗	跨分片内容修订

评测的模型

这次选择了三种模型（或 RAG 应用），来对比长上下文文档的 QA 问答效果：

kimi chat：官方宣称支持 20 万字的上下文，且 chat 页面就支持上传 pdf 进行文档问答。
字节的 Coze：使用 Coze 的 bot，选择 GPT4-128k 模型，并上传 pdf 文档生存知识库做问答。上传 PDF 文档创建知识库时，分别测试了知识库切片长度为 800 token 和 2000 token 的两种方案。
原生 GPT4-128k：使用我自己的 GPT4-128k api，把整个文档内容放到 prompt 里提问，测试文档不切片时的 GPT4-128k 模型问答效果。

评测结果

对 10 个问题的问答正确与否，汇总如下：

评测问题	对模型的挑战	kimi chat	Coze(800t)	Coze(2000t)	原生 GPT4
优才申请的条件	跨分片总结	✅	❌	❌	✅
综合计分制包含哪些方面	跨分片总结	✅	❌	❌	✅
资产数额的要求是多少	无明确答案	✅	✅	❌	-
哪些学校的学位可以额外加分	无明确答案	✅	✅	❌	✅
需要哪些证明文件，详细列出来	-	✅	✅	✅	✅
35 岁可以计多少分	PDF表格解析	✅	❌	✅	✅
哪些国家不可以申请优才计划	跨分片内容修订	❌	❌	✅	✅
递交的申请需要多长时间审批完成	无明确答案	✅	✅	✅	-
语言能力需要证明文件吗	-	✅	✅	✅	-
怎样递交申请材料	跨分片内容修订	✅	✅	❌	✅