华盛顿大学研究发现"乱码前缀"让AI推理能力大幅提升
这项由圣路易斯华盛顿大学研究团队完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.05566,有兴趣深入了解的读者可通过该编号查询完整论文。
(资料图片)
你有没有遇到过这样的场景:一道难题百思不得其解,结果换了张纸、换个地方坐下来,脑子突然就转开了?或者跟朋友聊着聊着,对方说了一句跟问题毫不相关的闲话,你反而突然想通了?这种"转换环境激发灵感"的现象,在人类的日常生活中极为常见。现在,华盛顿大学的研究团队发现,AI大语言模型(也就是像ChatGPT这类会推理的AI)在解题时,竟然也存在类似的现象——而且,用一段毫无意义的拉丁文"乱码"当开场白,居然真的能让AI解出原本百做不出的难题。
这个发现听起来像是魔法,甚至有点荒诞,但背后有一套严密的逻辑支撑。研究团队将这个方法命名为"Lorem Perturbation for Exploration",简称LOPE,意思大致是"用Lorem占位文扰动来拓展探索"。这项研究的核心问题,是解决AI在强化学习训练过程中频繁遭遇的一个顽固障碍——当AI对一道题完全束手无策时,它的训练就会陷入停滞,白白浪费大量计算资源。而LOPE提出的解法,简单到近乎离奇:在题目前面贴上一段随机拼凑的拉丁语废话,然后再让AI重新作答。
一、AI训练中的"死局":当所有尝试都失败时
要理解这项研究的意义,得先了解AI是怎么学会推理的。目前主流的做法叫做"强化学习",具体说是一种叫GRPO(组相对策略优化)的技术。可以把这个过程想象成一位学生在备考:老师出一道题,学生同时写出好几份不同的答案,然后通过对比这些答案的优劣来判断哪种思路更好,并据此调整下次作答的方式。这里有个关键机制——如果学生的多份答案中至少有一份对了,老师就能从对错的对比中给出有意义的反馈;但如果这几份答案全都错了,对比就失去了意义,老师无法提供任何有价值的指导,这道题的训练就等于白做了。
研究团队把这种情况叫做"零优势问题"。当AI面对一道特别难的题,它一连生成的好几个答案全都错误时,相对优势全部归零,训练信号彻底消失。这对整个训练流程是一种很大的浪费——不仅这道题的训练资源打了水漂,连带整个批次的计算成本都浪费了。
面对这个问题,最直接的补救方法是"多试几次":既然一次生成8个答案全错了,那就再生成24个,总有概率撞上一个对的。不少研究也沿着这条路走,探索如何"聪明地分配重试预算",比如对难题多分配尝试次数。但问题在于,对于那些真正超出AI当前能力范围的题目,无论重试多少次,样本都从同一个"思路池子"里捞,重复失败的概率依然很高。就像一个学生在同一张草稿纸上反复演算同一种思路,换再多张同样的纸也没用,因为卡点根本不在"次数"上。
华盛顿大学的研究团队换了一个角度:既然问题是AI陷在了同一条思路里跳不出来,能不能通过改变"环境"——也就是改变输入的上下文——来迫使AI走一条不同的路?
二、"换个环境"的实验:乱码竟然有效
在正式提出LOPE之前,研究团队先做了一个颇为有趣的初步实验,目的是验证他们的核心猜想:改变输入上下文,能否让AI走出原有的思维定势?
他们设计了三种条件进行对比。第一种是正常作答,用标准的题目提示词,温度参数设为0.6(温度可以理解为AI作答时的"发散程度",越高越随机)。第二种是提高温度参数到1.2,让AI生成更随机的答案,这是传统上鼓励AI"多样化探索"的方式。第三种则是在正常提示词前面贴上一段随机拼凑的Lorem Ipsum文字——也就是那种排版设计领域常用的拉丁文占位文本,比如"Lorem ipsum dolor sit amet, consectetur adipiscing elit",完全没有实际语义——然后用正常温度(0.6)作答。
Lorem Ipsum是一种特殊的文字:它模仿自然语言的词长分布和句子结构,看起来像一篇拉丁文,但实际上不传达任何意思。每次使用时,研究团队从63个拉丁词汇里随机抽取组合,生成一段100到300个词元长度的随机序列,贴在题目前面。
实验在500道数学题上进行,使用的是Qwen3-1.7B-Base这个AI模型。结果用维恩图(也就是那种展示不同集合交集的圆圈图)来呈现:三种方法各自独立解出了多少道题,又有多少道是共同解出的。结果相当出人意料。Lorem扰动的方法不仅整体解题数量不输其他方法,更关键的是,它独立解出了大量两种正常方法都解不出来的题目——这说明它确实在探索不同的"思路空间"。
在352道被认定为难题(正常方法连8次尝试都全部失败)的子集上,这个差异更加明显:Lorem扰动方法独立解出了50道连高温随机采样都无法解决的题目。换句话说,这种"废话前缀"真的打开了AI原本进不去的推理通道。
为了进一步理解背后的机制,研究团队还分析了三种方法生成的答案在"熵"(可以理解为生成过程中的不确定程度)和"困惑度"(模型对自己输出内容感到困惑的程度)上的差异。正常方法生成的答案大量集中在极低熵、极低困惑度的区间,说明AI高度自信但也高度保守。高温方法的熵和困惑度都急剧升高,虽然探索空间变大了,但胡言乱语的概率也随之大涨,答案质量下降明显。而Lorem扰动方法的熵只是温和地向右偏移,困惑度也仅从1.121微升至1.157——它在不显著牺牲回答质量的前提下,适度拓宽了AI的生成分布。
这就好比一个厨师,正常状态下总是按固定食谱烹饪,温度过高时开始乱放调料,而Lorem扰动的作用,像是让厨师在开始前随机听了一段既不是烹饪课也不是噪音的异国音乐——思路开阔了一点,但技艺依然在线。
三、LOPE的运作方式:一套经过精心设计的训练流程
验证了这个现象之后,研究团队着手把它变成一套可以真正用于AI训练的完整方法,也就是LOPE框架。整个流程可以分为几个紧密衔接的环节,每个环节都有其独到的设计考量。
训练开始时,AI像往常一样对每道题生成一组答案(默认是8个)。如果这8个答案里至少有一个正确,就直接按标准流程训练,不需要做任何额外处理。只有当8个答案全部错误时,LOPE才会介入:在原始题目提示词前随机拼接一段Lorem Ipsum序列,然后用这个"Lorem扰动提示词"重新生成24个新答案,看能不能在这24次里找到正确的。
一旦在24次重采样中找到了正确答案,下一步是把这些成功的答案和原来失败的答案混在一起,拼成一个用于训练的组合批次。规则是:从成功的答案里随机选取若干个,替换掉原来同等数量的失败答案,但始终保留至少一个失败答案。这个"至少保留一个失败答案"的设计非常关键——只有答案组里同时存在成功和失败的样本,相对优势才不为零,训练信号才有意义。
这里有一个微妙的技术问题。这些重采样得到的成功答案,是AI在"Lorem扰动提示词"下生成的,但训练时需要把它们当作在"正常提示词"下生成的来处理(否则训练和推理时的上下文不一致,会带来偏差)。这种"说谎式配对"在技术上叫做"伪推演"——把答案和正常提示词配对,假装它是在正常条件下产生的。为了纠正由此产生的偏差,训练时需要用一个叫"重要性采样比"的数学系数来修正梯度权重,确保训练方向不跑偏。
此外,LOPE还移除了GRPO标准流程中的KL散度正则项——这个项的作用是限制AI偏离原始模型太远,但它同时也在压制Lorem扰动所能带来的分布多样性,因此在这套框架下反而适得其反。
四、训练信号塑形:让稀有的成功更值钱
仅仅有LOPE的基本框架还不够。研究团队发现,即便重采样找到了正确答案,训练效果有时依然不理想,原因出在两个地方。
第一个问题是"偏离策略训练导致梯度消失"。正常来说,AI在训练时会强化概率高的正确答案、削弱概率低的错误答案。但对于那些通过Lorem扰动才能找到的答案,AI在正常提示词下的概率往往极低——这些答案对AI来说太"陌生"了,导致训练权重被系统性地压低,珍贵的成功经验反而没被充分学习。
为此,研究团队引入了一个"策略塑形"机制:用一个特殊的函数(形式是x除以x加上一个小常数γ)来调整每个词元的训练权重。这个函数的特性是,对于AI原本就很自信(概率高)的词元,权重被适度压低;对于AI感到陌生(概率低)的词元,权重被适度提升。这样一来,那些来自"另辟蹊径"的成功答案里的关键步骤,就不会因为AI不熟悉而被忽略,而是得到了更多的学习机会。从数学上可以证明,这个函数把训练梯度的峰值从"高概率区"移到了"低概率区",同时保证峰值不会无限增大,训练过程更加稳定。
第二个问题是"优势估算偏低"。在GRPO的框架里,优势是通过同组答案内部对比计算出来的:正确答案的优势是它的得分减去整组平均分,再除以整组的标准差。如果训练批次里大部分是失败答案、只有少数几个成功答案,那么这些成功答案的优势值会被系统性地低估——因为计算时只看到了"被选中的那几个"答案,忽略了还有更多被丢弃的失败答案。这就好比一场考试里只有你一个人及格,但排名时却只和另外几个分数最低的人比较,结果你的排名看起来也没多高。
"优势塑形"机制的解法是:在计算优势时,把所有原始的8个失败答案和重采样的24个答案全部纳入统计,然后只对选中的那组答案实施梯度更新。这样统计基础更大、更真实,成功答案的优势值能被放大2到5倍,有时甚至更多——通过实际计算,在G=8、G"=24的配置下,当重采样成功数在1到7之间时,优势放大倍数从2.1倍到5.0倍不等。这些稀有的成功经验因此在训练中获得了它们本应得到的重视。
五、实验结果:三个模型、五项测试,全线提升
研究团队在三个不同规模的AI模型上进行了全面测试:参数量为17亿的Qwen3-1.7B-Base、40亿的Qwen3-4B-Base,以及70亿的Qwen2.5-Math-7B。评测的基准测试覆盖从基础到顶尖难度的数学推理任务,包括MATH-500(500道数学竞赛题)、GSM8K(小学数学文字题)、AMC(美国数学竞赛)、AIME 2024和AIME 2025(美国最具挑战性的高中数学竞赛)。
在17亿参数的模型上,LOPE加上训练信号塑形后的平均得分达到39.82,比标准GRPO(37.03)高出近3分,比"多试几次但不改提示词"的朴素重采样方法(38.16)也高出超过1.6分。在40亿参数的模型上,效果更为显著:平均得分53.99,比标准GRPO(49.37)高出4.62分;朴素重采样方法在这个模型上甚至不升反降(48.95),低于标准GRPO,而LOPE则反向大幅超越。研究团队分析认为,朴素重采样在移除KL约束后容易出现"策略漂移"——AI因为失去了约束而开始走偏,而LOPE通过引入高质量的多样性答案,反而起到了隐性的正则化作用。
在70亿参数的模型上,不带训练信号塑形的LOPE效果与朴素重采样相差不多,但加入训练信号塑形后,得分从标准GRPO的47.68大幅跃升至53.88,提升超过6.2分,是三个模型中提升最大的。这个模式说明,对于能力更强的模型,Lorem扰动确实能找到更多成功答案,但要把这些成功经验高效转化为训练效益,训练信号塑形这道工序是不可缺少的。
从训练过程的动态追踪来看,LOPE在整个200步训练周期内始终维持着更高的"题目级成功率"(即在24次重采样中至少找到一道题正确答案的比例),而朴素重采样和高温重采样的这一指标明显偏低。在"答案级准确率"(每次重采样平均正确率)上,LOPE和朴素重采样差距不大,但题目覆盖面的持续优势意味着LOPE能让更多种类的难题获得有效训练信号,而不是反复优化同一批AI已经快能做对的题目。
六、什么样的"废话"才算好废话?
发现Lorem Ipsum有效之后,研究团队继续追问:为什么偏偏是它?是拉丁语本身的特殊性,还是某种更本质的属性在起作用?为此,他们系统测试了七种不同类型的扰动方式。
他们测试的方法涵盖了从"有点像语言"到"完全是噪音"的整个谱系。"随机假英语"用常见英文词汇随机组合成伪句子。"随机ASCII"直接随机抽取可打印字符。"随机词元"从AI词汇表里随机抽取词元。"英语高频词单元模型"用英文语料库中最常见的50个词随机组合。"拉丁语高频词单元模型"用拉丁语语料库中最常见的50个词随机组合。"拉丁语三元语法模型"用在拉丁语语料库上训练的三元语法模型生成更连贯的随机拉丁语句子。"过滤真实拉丁语"则直接使用真实的拉丁语文本,但过滤掉包含Lorem Ipsum标准开头的段落,并进一步筛选困惑度在20到30之间的片段。
评测的核心指标是这些文本在AI眼中的"困惑度"——也就是AI模型觉得这些文字有多不像正常语言。数值越低说明越接近AI熟悉的语言模式,数值越高说明越离谱。问题文本本身的困惑度均值是4.82,是基准参考线。Lorem Ipsum的均值是25.12,是所有人工生成扰动里最低的,而且标准差只有2.84,每次生成的干扰强度高度一致。拉丁语高频词的均值是51.32,过滤后的真实拉丁语是46.09,英语高频词是85.30,拉丁语三元语法模型是91.45,随机ASCII跃升至492.93,随机假英语更是飙升至2429.9,而随机词元的均值达到惊人的46万,完全脱离了语言的范畴。
实验结果呈现出一个非常清晰的规律:困惑度越低,扰动效果越好;困惑度越高,扰动效果越差,甚至有害。具体来说,LOPE(39.82)、过滤真实拉丁语(39.85)和拉丁语高频词(39.67)这三个困惑度最低的方法取得了最好的平均分,英语高频词(38.52)、拉丁语三元语法模型(38.88)居中,随机ASCII(38.19)和随机假英语(38.55)效果欠佳,随机词元(37.65)甚至比不做任何扰动的朴素重采样(38.16)还要差。
通过分析不同扰动方式下AI对问题文本的理解程度(分别测量了词元层面的熵分布和句子层面的语义表示偏移),研究团队进一步确认:困惑度高的扰动会破坏AI对题目本身的理解,导致即便找到了"答案",那个答案也是在误解题意的前提下产生的,反而有害。而像Lorem Ipsum这样困惑度适中的拉丁语扰动,在改变AI处理题目的方式的同时,并不损害AI对题目核心内容的正确理解——这一点在语义表示的可视化图中体现得非常直观:大多数扰动下AI对题目的理解聚集在同一个位置,只有随机词元的理解点远远漂移开去。
此外,研究团队还注意到一个有趣的对比:英语高频词的困惑度(85.30)比拉丁语三元语法模型(91.45)还要略低,但最终表现反而更差。对此,研究团队的解释是:英语词汇会和题目本身的英语内容产生干扰,让AI混淆"前缀信息"和"题目信息",从而影响推理质量。拉丁语由于天然与英语题目的语境相互隔离,成为一种"干扰力度足够但不破坏理解"的理想扰动载体。
由此总结出有效扰动的两个关键特征:其一,使用拉丁语系词汇,避免与英语推理上下文产生语义干扰;其二,保持较低的困惑度,确保扰动后的题目对AI来说依然是"可理解的"任务。Lorem Ipsum恰好在这两点上都做到了极致,这就是它有效的本质原因。
说到底,这项研究揭示的是一件有点反直觉却颇为耐人寻味的事:对AI推理能力的提升,有时候不是靠给它更多有用的信息,而是靠给它一段无意义的"背景噪音"来打破它自己思维上的惯性锁定。这和人类在遇到创意瓶颈时去散步、听音乐、换个环境的本能行为,有着某种奇妙的相似之处。
当然,这项研究也有其局限性,研究团队在论文中坦诚地指出:自动生成的随机拉丁语序列无法保证完全不包含不当内容,而过强的扰动有时会导致AI输出失控乃至产生有害内容。这些安全层面的挑战,是后续需要认真对待的课题。
对于那些关注AI训练效率的读者来说,这项工作提供了一个成本极低、操作极简单、但效果非常实在的改进思路。对于对AI感兴趣的普通读者来说,它也提醒我们:AI的推理行为,远比我们直觉上认为的更加微妙——一段废话,在对的地方说出来,竟然真的有用。有兴趣探究完整技术细节的读者,可以通过arXiv编号2605.05566查阅原论文。
Q&A
Q1:LOPE方法在训练AI时具体是怎么操作的?
A:LOPE的操作流程是这样的:AI先用正常提示词对一道题生成8个答案,如果全部答错,就在题目前面随机贴一段Lorem Ipsum拉丁文,然后用这个新提示词再生成24个答案。如果这24个里找到了正确答案,就把成功的答案和原来的失败答案混合成一组进行训练,同时用专门的数学修正系数来确保训练方向准确。
Q2:为什么拉丁文乱码能帮AI解出更难的题目?
A:核心原因是AI在解题时容易陷入固定的思路模式,而改变输入上下文能让AI走出这种惯性。拉丁文乱码的效果恰到好处:困惑度足够低,不会破坏AI对题目的理解;又是非英语词汇,不会干扰英语题目本身的语义。这种"不太陌生但有点不同"的前缀,促使AI用轻微不同的角度处理问题,从而发现原本没想到的解题路径。
Q3:LOPE在不同规模的AI模型上效果相同吗?
A:不完全相同。在17亿参数模型上平均提升约3分,40亿参数模型上提升约4.6分,70亿参数模型上在加入训练信号塑形后提升最大,达到约6.2分。总体趋势是模型越大、能力越强,LOPE配合训练信号塑形带来的收益越明显,因为更大的模型能从重采样中找到更多成功答案,但需要配套的训练技术才能充分利用这些成功经验。

