第307章模型崩溃（4506）(第2页)

 

“训练十轮后，使用了原始数据的模型2未出现性能下滑，过拟合的现象可以通过正则以及数据清洗来进行过调整。”

“而使用橘子大模型生成图片进行训练的模型1，出现了明显的过拟合，老板，你看一下，十轮之后，生成的图片开始出现趋同性。”

“而使用模型1每一轮生成数据进行训练的模型3……”

杜长庚脸上闪过一丝忧色：“到了第5轮，模型3的过拟合就已经超过了经过十轮训练的模型1，而到了第九轮，整个模型已经濒临崩溃，几乎已经无法输出有意义的数据。”

“这个结果让我们很惊讶，于是用不同模型生成的数据来训练一个新的3b子模型，命名为模型4，最终训练后的性能与模型1非常类似，并没有什么改善。”

“在最初，我们认为是数据质量的问题，橘子大模型图片类数据中可能存在一定的失真，因此又采用文字进行了重复训练。”

“橘子大模型生成的文字数据错误率远比模型2使用的原始数据错误率更低，但最终采用橘子大模型生成的文字数据进行训练的模型1，仍旧出现了性能下降，多轮训练后的过拟合现象比模型2高出近五倍。”

“而在这种情况下，模型3同样在八到九轮之后，也出现了模型崩溃。”

“也就是说，无论ai生成的数据质量高低，只要采用ai生成的数据训练大模型，就会造成大模型性能下降，这……这简直不可思议！”

“简直就像……”

“近亲繁殖？”陆嘉言好奇的接了一句。

“对！近亲繁殖！没错！”杜长庚一拍巴掌，惊讶的看了一眼陆嘉言，没想到这个小老板娘明明是个外行，理解力还真不错。

方豫摸着下巴若有所思。

对这个结果，他自己早就有所猜测，否则也不会提出做对比实验的办法。

杨子龙和杜长庚所发现的问题，粗看上去确实有点诡异，相同的数据，被ai处理过一遍，再用来训练另一个ai，效果居然比不上质量更差的人工清洗的数据。

而再用这个训练后的ai生成的数据继续训练ai，无论是训练哪个ai，又会造成性能进一步下降。

这个问题看上去诡异，但实际上，只要稍稍思考一下也就能明白，应该还是数据多样性和复杂性不断被ai简化所造成的问题。

不用说橘子大模型，即使是柚子，生成的数据也不可能是百分之百完全正确的，虽然这些错误可能比人工数据要少，但错误的方式却缺乏多样性和复杂性。

说白了，就是ai聪明的千篇一律，但人类却愚蠢的千奇百怪。

但在种族传承的角度上来说，愚蠢的千奇百怪的人类，却比自己创造出比人类更聪明的ai具备更强的种族传承能力。

窝草？这么一想，孟广康那种傻x，对人类文明的传承贡献还不小？

差点把我的厌蠢症都治好了？

重复使用这种数据进行训练，类似的错误会被大模型认为是真实，从而变成“思想钢印”，继续产出错误更多的内容。

再用这些内容进行训练，就会产生“偏差-方差权衡”，也就是说，越大概率的内容被进一步强化，小概率的内容被不断忽视。

越是下一代模型，损失的数据反而会越多。

同时，因为大模型的特性，又会产生“函数近似误差”，大模型会把学的错误的东西也保留下来，一代代的积累，最终变成全部都是错误，从而丧失纠错能力。

这种情况，确实和近亲繁殖所导致的近交衰退非常类似。

从这个角度上看，ai大模型其实已经具备了一定的生物性。

只不过这种生物种群过于单一，造成了近亲繁殖。

这个问题目前还不算太紧迫，毕竟互联网上可以使用的原始数据非常多，无非就是加大数据组的投入，获取更多的原始数据，增加数据预处理人手和方式就能够解决。

但从长远来看，不，不用太长远，ai的爆发一定是指数级的。可能两到三年后，互联网上可能超过百分之七十的数据就都是ai所生成的，而人类几乎无法区分这究竟是ai生成的数据还是真实的人工数据。

那时候，ai大模型不管参数有多庞大，可能都会面临由于训练数据被ai生成数据污染，而造成性能下降或崩溃。

“三十万亿。”方豫快速的估算出了一个数字。

？？？

几个组长都是一脸问号。

“互联网上现存的有效数据，大概能支撑橘子大模型到三十万亿参数的规模，在此之后，就必然会受到近亲繁殖的影响。”

第307章 模型崩溃（4506）(第2页)