
这项由中国人民大学信息检索实验室联合多位研究人员共同完成的研究,以预印本形式发布于2026年4月28日,论文编号为arXiv:2604.25256。感兴趣的读者可通过该编号在arXiv平台检索完整论文。
近年来,"AI科学家"这个概念从科幻小说走进了现实讨论。各大科技公司和研究机构都在宣传自家的AI系统能够协助甚至独立完成科学研究。然而,真正的科学研究是什么样的?它不是搜一搜新闻就能完成的活儿,而是需要在数百万篇学术论文里,像侦探一样顺着细微线索,逐步锁定那一篇藏有关键证据的论文,或者把所有满足严苛条件的论文一篇不落地找出来。这件事,对人类研究者都是极大的挑战,对AI来说呢?
中国人民大学的研究团队决定用一把尺子量一量。他们设计了一个叫做**AutoResearchBench**的测试基准,专门用来检验AI在这种"真实科研文献发现"场景下的能力。结果令人印象深刻——但不是因为AI表现得好,而恰恰相反:就连当今世界上最强大的几款大模型,在这个测试上的成绩都没有超过10%。
---
一、为什么"搜论文"是一件比你想象中难得多的事
先用一个侦探故事来理解这件事的本质。假设你是一名侦探,需要找到一个特定的嫌疑人,但你手里的线索非常隐晦:这个人曾经在某次会议上提到过一个冷僻的数学公式、他论文的致谢里提到了某个城市的一家咖啡馆、他引用过的某篇文献的附录里有一张特定的数据表。任何一条单独的线索都不足以锁定嫌疑人,但这些线索加在一起,就能精确指向唯一一个人。
这就是真实科研文献发现的难度所在。研究者在查阅文献时,经常需要找的不是"关于某个大话题的论文",而是"同时满足一系列苛刻技术条件的那一篇或那几篇论文"。关键证据藏在论文的方法细节、消融实验表格、图表说明、附录推导过程、参考文献引用链条里,而不是标题或摘要里。普通的网络搜索根本不够用。
更麻烦的是,有时候符合条件的论文根本不存在,研究者需要在充分搜索后得出"没有"这个结论;有时候符合条件的论文有好几篇,研究者需要一篇不落地全部找到。这两种情形都需要非常深入的推理和判断。
以往对AI"上网搜索"能力的测试,比如BrowseComp这类基准,主要考察的是AI在通用网页上找信息的能力。而在通用网页搜索领域,顶尖模型已经能达到80%以上的准确率。但这些测试和真正的科研文献发现相距甚远——文献发现要求读完整篇论文的全文,要理解深度专业知识,要在多篇论文之间来回跳转推理,还要知道什么时候停下来宣布"找到了"或者"没有"。这个能力鸿沟,正是AutoResearchBench试图精确测量的。
---
二、这把"尺子"是怎么设计的
研究团队把科研文献发现拆分成两种典型任务,就像侦探工作有两种基本模式:一种是追踪特定嫌疑人,另一种是列出所有符合某类特征的嫌疑人名单。
第一种任务叫做**深度研究(Deep Research)**。给AI一段精心设计的描述,里面包含多个隐晦而相互咬合的技术线索,要求AI在超过三百万篇论文的语料库里,找出那唯一一篇满足所有条件的论文——或者判断根本没有这样的论文存在。这考察的是精准定位能力。最终的评判标准非常严苛:要么完全答对,要么就是0分,没有部分得分。
第二种任务叫做**广度研究(Wide Research)**。给AI一段包含多个技术约束条件的查询,要求AI把所有满足这些条件的论文都找出来,一篇不能多、一篇不能少。这考察的是系统性覆盖能力。评分使用的是IoU(交并比),简单说就是"你找到的和正确答案的重叠程度除以两者合并的总量"——如果你多找了不该找的,或者少找了该找的,得分都会降低。
整个数据集包含1000道题,其中600道是深度研究题,400道是广度研究题,覆盖计算机视觉、机器学习、自然语言处理、多模态、AI for科学与社会、理论与算法、机器人与AI系统、AI安全与可信AI这八个计算机科学核心领域。
题目怎么来的?这里的构建过程本身就值得细说,因为它直接决定了测试的质量。
深度研究题的构建,团队首先筛选了一批技术含量高但"曝光度适中"的论文——通常是被引用10到100次的作品,排除那些太出名以至于AI可能直接从训练数据里"背"出答案的论文,也排除综述和大型技术报告。接着,标注员仔细阅读论文全文,从方法细节、证明推导、局部实验观察、作者机构关系等地方提取线索,刻意回避标题、数据集名称、主要贡献等显眼信息。线索提取出来之后还要经过两层"模糊化"处理:一层是主题模糊化(不直接透露研究领域),另一层是细节模糊化(把具体表述改写成更通用的描述,减少关键词命中的可能性)。最后还要做"最小充分性剪枝"——反复测试,去掉那些对唯一定位目标论文没有贡献的冗余线索,保留刚好足够唯一确定目标的最少线索集合。
广度研究题的构建则从另一端出发。研究团队先在各个CS领域确定高层次研究主题,用外部搜索工具获取初步候选论文池,然后用AI提炼这些论文的共同属性(方法类型、数据集、评价指标等),构造出一个包含多维约束条件的初始查询。经过人工核验、反复扩充搜索、多模型投票(要三个高级模型全部同意才算通过),最终确定每道题的完整正确答案集合。
验证流程同样严苛,分四个阶段:多种变体搜索测试(看能不能被浅层检索命中)、用Claude和Gemini系列模型做多轮自主搜索压力测试(能被这些模型解决的题目直接淘汰)、人工限时10分钟搜索(人能在10分钟内找到的也淘汰)、唯一性语料库审计(确认确实只有一个正确答案)。只有通过所有四道关卡的题目才能留下来。
这套构建和验证流程耗资巨大:仅构建数据集就花费了约6700美元的API费用,人工专家累计投入约580小时,平均每道深度研究题消耗约17万token、每道广度研究题消耗约26万token。
---
三、顶尖模型的成绩单,令人大开眼界
测试结果出来了。研究团队评测了十几款主流大模型,包括Claude Opus 4.6、Gemini 3.1 Pro Preview、GPT-5.4、Seed 2.0 Pro、Qwen3-Max、DeepSeek-V3.2等一系列当今最强的模型,还有GPT Deep Research、AI Studio Gemini等端到端研究系统。
所有模型统一使用ReAct(推理+行动)框架,连接同一套DeepXiv搜索工具(一个覆盖三百万篇arXiv论文全文的学术搜索工具),最多允许进行30轮搜索交互。
深度研究任务上,表现最好的是Claude Opus 4.6,准确率9.39%,也就是说100道题里大约答对不到10道。排名第二的Gemini 3.1 Pro Preview达到7.93%,GPT-5.4是7.44%,其他模型大多在5%以下,最弱的Qwen3.5-35B-A3B只有1.94%。
广度研究任务上,表现最好的是Gemini 3.1 Pro Preview,IoU为9.31%。GPT-5.4是8.12%,Seed 2.0 Pro是7.87%,DeepSeek-V3.2是7.70%,Claude Opus 4.6只有6.56%。同样,大多数模型在5%以下。
对比一下:这些模型在BrowseComp上的通用网页浏览得分可以超过80%。如此巨大的落差,说明科研文献发现是一种与通用网页浏览截然不同的能力,而且当前AI在这方面远未成熟。
一个有趣的细节是,搜索轮数和成绩之间并没有正比关系。GPT-5.4在深度研究上平均只用6.1轮就达到7.44%,而DeepSeek-V3.2平均用了28.8轮只达到4.21%,Kimi-K2.5平均用了27轮只达到4.69%。用更多轮次搜索并不能带来更好的结果——模型在找不到证据时,往往陷入无效循环,重复检索相似内容,或者在没有新证据的情况下继续发出无意义的搜索请求。这说明真正重要的不是搜索次数,而是有效利用信息的能力。
---
四、用DeepXiv还是用普通网络搜索,差距有多大
研究团队还专门对比了两种搜索工具的效果:专门为学术场景构建的DeepXiv(提供全文检索)和普通的网络搜索(基于Jina搜索工具)。
用同样的四个模型分别接入两种工具,结果显示DeepXiv在深度研究上有显著优势。四个模型的平均准确率从DeepXiv的5.42%跌到网络搜索的3.97%。原因很直接:深度研究题的线索藏在论文内部——方法细节、附录推导、局部数据——这些内容根本不会出现在标题、摘要或网页摘要里,必须读全文才能发现。普通网络搜索触达不了这一层,所以效果更差、更碎片化、对多条件联合验证也更难。广度研究任务上DeepXiv同样表现更好,IoU方面的优势也相当稳定。
---
五、"多想一会儿"有没有用?推理模式的测试
研究团队还测试了"思维链"模式(让模型在回答前做更多显式推理)和"不思考"模式的对比。结论出人意料:开启思维链模式并没有带来稳定的收益,在广度研究上甚至普遍有害,而且思维链模式会大幅增加运行时间。
这个发现揭示了一个关键问题:在文献搜索这个场景里,多想不等于想得对。模型在额外的"思考"时间里,并没有形成更好的证据搜集策略,而是花更多时间在已有的不确定性上打转,消耗计算资源却没有真正减少搜索盲区。推理只有在能直接改善外部证据获取时才有用,否则只是增加延迟。
---
六、多试几次有没有帮助?规模扩展实验
研究团队还做了"test-time scaling"实验:对同一道题,让模型运行多次,看多次尝试能不能提升成功率。对深度研究任务,用的是pass@k(k次里至少有一次答对的概率);对广度研究任务,用的是best@k(k次结果里最好一次的IoU)。
结论是:多试几次确实有帮助,但深度研究的提升远大于广度研究。这个差异很能说明问题:深度研究的失败往往是"轨迹层面的脆弱"——正确的论文是可以找到的,但单次运行可能碰巧走错了路。多次尝试可以覆盖不同的搜索路径,从而提升命中概率。而广度研究的问题更深——多次运行的错误往往是同样的遗漏,说明模型在召回覆盖上存在系统性盲区,单纯增加尝试次数无法弥补。
不同模型的规模扩展行为也有差异:Kimi-K2.5在深度研究上从扩展中受益更多,而Gemini 3.1 Pro在广度研究上始终保持最强。
---
七、错误在哪里?一次深度的失败剖析
为了更精准地理解模型失败的根源,研究团队对三个代表性模型(Gemini 3.1 Pro、Seed 2.0 Pro、Claude Opus 4.5)的错误案例进行了人工标注分析,归纳出一套错误类型分类体系。
深度研究任务上,主要有四类失败模式。第一类是"检索漂移与语义混淆"——模型确实找到了正确的研究领域,但认错了论文,把一篇相关论文(比如目标论文引用的那篇)当成了目标本身,或者把两个高度相似的子领域弄混了。根本问题不是召回不够,而是全部条件的联合验证不够严格。第二类是"工具调用失败"——API请求格式错误、解析出错、执行中断,这些技术性故障消耗了搜索预算,中断了证据积累,迫使模型退回到泛化的猜测而不是有条理的验证。第三类是"证据聚合与终止失败"——模型找到了大量相关线索,但始终没有把它们整合成一个经过充分验证的答案。六条这类轨迹平均进行了22.7轮搜索、检索了119篇论文,最终却以空答案收场,因为模型没有显式地追踪"哪些条件已经满足、哪些还悬而未决"。第四类是"候选排序失败"——目标论文已经出现在候选集里了,但模型给它排了一个错误的名次,最终选了别的论文。
广度研究任务上,失败模式又有所不同。Gemini 3.1 Pro最常见的错误(68%)是"语义边界错位"——找到的论文和正确答案语义上很接近,但并不是同一个研究对象,说明模型的检索和排序机制基本正常,但最后一步的精确语义核查不够。Claude Opus 4.5的错误则几乎全都是"无约束候选扩展"(85.3%)——大量召回却不严格过滤,召回率高但精准度极低,形成了和深度研究任务完全相反的失败模式。Seed 2.0 Pro则主要陷入"约束字面主义"(过于死板地字面匹配条件,把实际满足条件的论文也排除了)和"过早终止"(找到一个看起来不错的候选就停止,不再继续穷举)的双重困境。此外还有"专业知识盲区"——模型碰到专业术语不认识,即使正确的论文出现在搜索结果里也认不出来。
---
八、这些数字背后,藏着什么更深的问题
综合来看,AutoResearchBench揭示的不只是"AI搜论文不准确"这么简单,而是一组环环相扣的深层能力缺陷。
当核心证据被刻意模糊或者深埋在全文深处时,当前的模型缺乏进行长程、严密推理来从海量语料中唯一定位目标的能力——哪怕是平均进行28.1轮搜索的Claude Opus 4.6,也在超过90%的题目上以失败告终。
在广度研究任务上,通用网络搜索倾向于用短关键词,这在专业科研语境下会严重失灵。系统性管理假设空间、维护结果集的完整性,是模型目前明显不擅长的事情。扩张式搜索(Claude Opus 4.6做了27.11轮)可能带来了足够的召回,但精准度低得惊人(IoU仅6.56%),因为它无法严格过滤掉那些违反约束条件的论文。反过来,保守型模型(Seed 2.0 Pro和GPT-5.4只搜了4轮左右)则因为过早停止而错过了大量有效论文。
还有一个被专门人工抽检验证的发现:模型在广度研究任务上提交的那些"多余"答案(超出正确答案集的部分),96%确实是真的错误——它们客观违反了查询中明确说明的约束条件。这个数字排除了"标准答案不完整"的干扰,证明低精准度是模型自身的推理问题,而不是数据集的问题。
---
说到底,这项研究做了一件很重要的事:它把"AI能搜索"和"AI能做科研文献发现"这两件事之间的巨大鸿沟量化展示了出来。
当我们谈论AI辅助科研的未来时,很容易被AI在通用任务上令人印象深刻的表现所迷惑,以为科研辅助只是"稍微难一点的搜索"。AutoResearchBench告诉我们,这个判断低估了真正的难度。科研文献发现需要模型能够读懂深度专业知识,能够在多篇论文之间来回跳转推理,能够判断什么时候证据已经充分、什么时候应该继续搜索,还能够在"找到一篇"和"找全所有"这两种不同的目标之间灵活切换。这组能力,和"在网上找一篇新闻"所需的能力,属于完全不同的层次。
90%的性能差距摆在那里。这不是悲观,而是清醒。下一代真正意义上能辅助科研的AI,还有很长的路要走。对于研究AI推理能力边界的人来说,这份详尽的失败分析,或许比任何一个漂亮的成功案例都更有价值。想要深入了解完整研究细节和实验设置的读者,可以通过arXiv编号2604.25256找到原始论文。
---
Q&A
Q1:AutoResearchBench测试的是什么能力,和普通的AI搜索测试有什么不同?
A:AutoResearchBench专门测试AI在真实科研场景下进行文献发现的能力,分为两类任务:在三百万篇论文里精准找到唯一满足多个技术条件的论文(深度研究),以及把所有满足某组科学约束的论文一篇不落地找出来(广度研究)。与普通搜索测试最大的区别在于,这里的关键线索藏在论文全文的方法细节、附录、图表里,不能靠标题或摘要命中,还需要在多篇论文间来回推理,并且要知道什么时候应该停下来。
Q2:为什么深度研究任务上搜索轮次多的模型反而表现不如轮次少的模型?
A:搜索轮次多并不代表利用信息的能力强。测试发现,GPT-5.4平均用6.1轮达到7.44%准确率,而DeepSeek-V3.2用了28.8轮只达到4.21%。原因在于,当模型找不到有效新证据时,往往陷入无效循环——反复发出相似的搜索请求,或者在没有新信息的情况下继续延伸推理,消耗预算却没有真正缩小不确定性。关键能力不是搜索次数,而是有效整合已有证据并在恰当时机做出判断。
Q3:广度研究任务上模型召回率和精准率为什么很难同时做好?
A:广度研究要求模型既要找全所有满足条件的论文(高召回),又要严格排除不满足条件的论文(高精准)。测试发现,Claude Opus 4.6倾向于大量召回但不过滤,精准率极低;而Seed 2.0 Pro和GPT-5.4则过早停止搜索,召回不足。人工抽检显示股市行情资讯配资平台,模型多提交的"额外"答案中有96%确实违反了查询约束,说明低精准是模型推理问题而非标准答案不完整的问题。在科研文献发现里,同时管好"找全"和"不多找"这两件事,是当前AI的核心瓶颈。
惠红网提示:文章来自网络,不代表本站观点。