画画太岁 作品

第307章 模型崩溃(4506)(第2页)

 “训练十轮后,使用了原始数据的模型2未出现性能下滑,过拟合的现象可以通过正则以及数据清洗来进行过调整。”

 “而使用橘子大模型生成图片进行训练的模型1,出现了明显的过拟合,老板,你看一下,十轮之后,生成的图片开始出现趋同性。”

 “而使用模型1每一轮生成数据进行训练的模型3……”

 杜长庚脸上闪过一丝忧色:“到了第5轮,模型3的过拟合就已经超过了经过十轮训练的模型1,而到了第九轮,整个模型已经濒临崩溃,几乎已经无法输出有意义的数据。”

 “这个结果让我们很惊讶,于是用不同模型生成的数据来训练一个新的3b子模型,命名为模型4,最终训练后的性能与模型1非常类似,并没有什么改善。”

 “在最初,我们认为是数据质量的问题,橘子大模型图片类数据中可能存在一定的失真,因此又采用文字进行了重复训练。”

 “橘子大模型生成的文字数据错误率远比模型2使用的原始数据错误率更低,但最终采用橘子大模型生成的文字数据进行训练的模型1,仍旧出现了性能下降,多轮训练后的过拟合现象比模型2高出近五倍。”

 “而在这种情况下,模型3同样在八到九轮之后,也出现了模型崩溃。”

 “也就是说,无论ai生成的数据质量高低,只要采用ai生成的数据训练大模型,就会造成大模型性能下降,这……这简直不可思议!”

 “简直就像……”

 “近亲繁殖?”陆嘉言好奇的接了一句。

 “对!近亲繁殖!没错!”杜长庚一拍巴掌,惊讶的看了一眼陆嘉言,没想到这个小老板娘明明是个外行,理解力还真不错。

 方豫摸着下巴若有所思。

 对这个结果,他自己早就有所猜测,否则也不会提出做对比实验的办法。

 杨子龙和杜长庚所发现的问题,粗看上去确实有点诡异,相同的数据,被ai处理过一遍,再用来训练另一个ai,效果居然比不上质量更差的人工清洗的数据。

 而再用这个训练后的ai生成的数据继续训练ai,无论是训练哪个ai,又会造成性能进一步下降。

 这个问题看上去诡异,但实际上,只要稍稍思考一下也就能明白,应该还是数据多样性和复杂性不断被ai简化所造成的问题。

 不用说橘子大模型,即使是柚子,生成的数据也不可能是百分之百完全正确的,虽然这些错误可能比人工数据要少,但错误的方式却缺乏多样性和复杂性。

 说白了,就是ai聪明的千篇一律,但人类却愚蠢的千奇百怪。

 但在种族传承的角度上来说,愚蠢的千奇百怪的人类,却比自己创造出比人类更聪明的ai具备更强的种族传承能力。

 窝草?这么一想,孟广康那种傻x,对人类文明的传承贡献还不小?

 差点把我的厌蠢症都治好了?

 重复使用这种数据进行训练,类似的错误会被大模型认为是真实,从而变成“思想钢印”,继续产出错误更多的内容。

 再用这些内容进行训练,就会产生“偏差-方差权衡”,也就是说,越大概率的内容被进一步强化,小概率的内容被不断忽视。

 越是下一代模型,损失的数据反而会越多。

 同时,因为大模型的特性,又会产生“函数近似误差”,大模型会把学的错误的东西也保留下来,一代代的积累,最终变成全部都是错误,从而丧失纠错能力。

 这种情况,确实和近亲繁殖所导致的近交衰退非常类似。

 从这个角度上看,ai大模型其实已经具备了一定的生物性。

 只不过这种生物种群过于单一,造成了近亲繁殖。

 这个问题目前还不算太紧迫,毕竟互联网上可以使用的原始数据非常多,无非就是加大数据组的投入,获取更多的原始数据,增加数据预处理人手和方式就能够解决。

 但从长远来看,不,不用太长远,ai的爆发一定是指数级的。可能两到三年后,互联网上可能超过百分之七十的数据就都是ai所生成的,而人类几乎无法区分这究竟是ai生成的数据还是真实的人工数据。

 那时候,ai大模型不管参数有多庞大,可能都会面临由于训练数据被ai生成数据污染,而造成性能下降或崩溃。

 “三十万亿。”方豫快速的估算出了一个数字。

 ???

 几个组长都是一脸问号。

 “互联网上现存的有效数据,大概能支撑橘子大模型到三十万亿参数的规模,在此之后,就必然会受到近亲繁殖的影响。”