第168章重启SLRM研究四(2/2)

投票推荐加入书签留言反馈

B的小模型，加上我0.5B的SLRM模块，在逻辑推理这个单项上，干翻GPT-4……」

    徐辰嘴角勾起一抹玩味的笑容。

    这就像是给一辆五菱宏光装上了曲率引擎，然后去纽北赛道上跟法拉利飙车。

    ……

    第一战：SNLI。

    原本，Qwen-7B在面对一些带有否定词或双重否定的句子时，经常会晕头转向。

    但现在，每当Qwen-7B生成一个推理步骤，SLRM就会在后台的高维几何空间里构建一个「逻辑盒子」。如果下一步的推理超出了这个盒子的范围，SLRM会立刻施加惩罚梯度，强迫它修正逻辑。

    测试开始。

    进度条走动。

    最终分数定格：94.5%。

    「嘶……」徐辰自己都吸了口凉气。

    原始水平：~75%。

    加持后：94.5%。

    GPT-4水平：~92%。

    「在NLI这种基础任务上，直接超越了SOTA（当前最佳）！」

    ……

    第二战：LogiQA。

    这是一个硬骨头。题目全是类似「如果A去，B就不去；如果B不去，C必须去……」这种绕口令。

    Qwen-7B原始水平大约是38%，这个水平基本就是蒙的。

    GPT-4的水平大约是76%。

    徐辰加载模型，运行测试。

    十分钟后。

    最终分数：81.2%。

    翻倍！直接翻倍！

    在这个榜单上，即便是千亿参数的LLaMA-3-70B，也还在65%左右徘徊。徐辰用7B的模型，跑出了比GPT-4还高5个点的成绩！

    ……

    第三战：ProofWriter。

    这是终极考验。不仅要对，还要对得有理有据。

    Qwen-7B原始水平大约是45%，会经常胡编乱造证明过程）。

    LAART (Qwen-7B + SLRM)：98.4%。

    「98.4%……」

    徐辰看着这个数字，忍不住感叹SLRM的逻辑能力确实够强。

    「虽然推理速度慢得像蜗牛，泛化能力也有限，但在『逻辑严谨性』这一块，它就是当之无愧的王者。」

    「有了这些数据，这篇论文，稳了。」

    ……

    随着徐辰将一份份测试结果上传到Hugging Face的Leaderboard，整个AI界，再次被那个神秘的「X」给震动了。

    这一次，不再是CLUTRR一个榜单的孤立事件。

    SNLI丶LogiQA丶ProofWriter……

    几乎所有主流的丶公认最难啃的逻辑推理榜单，在一夜之间，全部被那个简单的字母「X」给血洗了！

    而且，分数不是微弱的领先，而是断层式的碾压！

    在LogiQA这种「智商测试」榜单上，X的模型甚至比第二名高出了整整5个百分点！

    那一连串绿色的「New SOTA」标志，就像是一排排闪烁的霓虹灯，刺痛了所有AI巨头的眼睛。

    更可怕的是，这些成绩的背后，依然没有公开任何模型权重，没有一行代码，甚至连那个「X」到底是谁，依然是个谜。

    ……

学霸的征途是星辰大海所有内容均来自互联网，178小说网只为原作者见习人类观察员的小说进行宣传。欢迎各位书友支持见习人类观察员并收藏学霸的征途是星辰大海最新章节。

第168章 重启SLRM研究 四(2/2)

第168章重启SLRM研究四(2/2)