第21章 巴别塔
公司的API调用量每天都在刷新纪录,现金流像涓涓细流汇成江河般涌入公司帐户。
一切看起来都在轨道上高速运转。
华清嘉园工作室,
陈阳把自己关了起来。
他正在进行一项实验,那就是训练超越这个时代的大语言模型。
陈阳给这场行动取了一个代号:巴别塔。
深夜,客厅。
空调开到18度,陈阳坐在三台并联的显示器前,屏幕上密密麻麻的代码与日志在流动。
桌上散落着七八个空咖啡杯丶三盒吃空的外卖丶一堆揉皱的草稿纸。
他已经在这把椅子上坐了十四个小时,眼睛布满血丝,下巴冒出了青色的胡茬。
旁边的写字板上画了一张架构图,密密麻麻的线条和方块,像一张蜘蛛网。
程序早就写好了。
那套他高中暑假就开始设计出来的架构,代码已经调试完毕,理论上完全可行。
但理论与实际能跑之间,隔着一道天堑。
就像你设计了一张火箭的图纸,画得再漂亮,也得真正发射一次才知道能不能上天。
这几天经过实际运行,这是陈阳优化后的第七版了!
「不对,还是不对。「
陈阳揉了揉发酸的眼睛,把第七版也删掉了。
他靠在椅背上,盯着天花板发呆。
陈阳闭上眼睛,脑子里不断闪过各种画面。
突然,一个念头击中了他。
陈阳猛地坐直了身子。
抓起笔,在一张白纸上疯狂画起来。
「就是这个。「
他转向电脑,开始敲代码。
手指飞快地在键盘上跳动,屏幕上的字符像瀑布一样往下滚。
大模型预训练,说白了就是三个字:喂数据。
要把海量的文字塞进模型里,让它自己去学习语言的规律。
看得越多,学得越好,最后就能像人一样理解和生成文字。
听起来简单?
一点都不简单。
首先,数据从哪来?
陈阳花了快一年时间,让星城那边的团队爬取了整个维基百科丶几百万篇新闻报导丶上千万条论坛帖子丶小说的片段,清洗丶去重丶格式化,最后整理出三套数据:
第一套,训练集,12.4GB。
这是喂给模型的课本,让它自己从海量文字里自学语言规律。
对,没错就是自己学习,模型一开始是一个什么都不知道的孩子。
然后通过海量数据以及算法反馈。逐渐从数据里面学习规律,最终找到答案。
第二套,验证集。
这是提前准备好的随堂测验,题目和标准答案都是现成的。
比如给模型一句话:「珠穆朗玛峰多高「,标准答案是:「8848米「。
模型回答完,跟答案一对,就知道它学得怎么样。
验证集有两个用处。
第一,防止死记硬背。
如果模型在课本上的题越做越好,但随堂测验的分数不涨反降,那就说明它只是在背课本原文,换道新题就懵了。这叫过拟合,得赶紧调整。
第二,判断什么时候该停。
模型不可能无限进步。
学到一定程度,该会的都会了,再学也没什么提升了。
怎么判断到没到这个点?
就看验证集的分数。
一开始,分数会蹭蹭往上涨。
然后涨得越来越慢。最后,曲线变平了,连着好几轮分数都不动了。
这就说明模型训练完成,可以停了。
再往下硬学,就是浪费时间。
第三套,测试集。