研究:反复利用 AI 生成内容来训练 AI 可造成“模型崩溃”

据《福布斯》报导

,牛津大学的伊利亚·舒梅洛夫博士与其团队发现,当生成式 AI 软件仅依赖于由 AI 生成的内容时,答复的质量开端恶化。这项研讨现已宣布在《天然》杂志上。

在开始的两次查询后,答案逐步违背准确性,到第五次时,质量明显下降,到了第九次接连查询时,答复已彻底退化为无意义的胡说八道。研讨人员将这种生成式 AI 内容的循环过度运用称为“模型溃散”,即 AI 在不断污染自己的练习集后,输出的内容逐步违背实际,终究变得毫无价值。

舒梅洛夫表明:“令人惊奇的是,模型溃散发生得如此敏捷且难以发觉。开始,它会影响到少量数据——那些代表性缺乏的数据。接着,它会影响输出的多样性,导致差异性削减。有时,你会观察到对大都数据的细小改善,但这种改善掩盖了少量数据体现的恶化。模型溃散或许带来严重后果。”

研讨人员经过一种办法确认了“模型溃散”现象的存在:运用一个预练习的 AI 驱动的维基百科,然后让 AI 模型依据自己生成的内容进行更新。受污染数据的影响逐步导致本来的练习集被腐蚀,输出的信息也随之变得难以了解。例如,在第九次查询循环后,研讨中的维基百科条目从关于 14 世纪英国教堂尖顶的内容滑稽地变成了一篇关于各种色彩的短尾兔子的论文。

报导称,依据亚马逊网络服务(Amazon Web Services)团队在 6 月发布的另一项研讨,大约 57% 的网络文本都经过了 AI 算法的翻译。假如互联网上的人类生成数据敏捷被 AI 过滤内容掩盖,且舒梅洛夫的研讨发现事实,那么 AI 或许正在“自我消灭”——并一起“消灭”互联网。

研讨得出结论,要完成 AI 的长时间可继续发展,仅有办法是保证其可以拜访现有的非 AI 生成内容,并继续引进新的人工生成内容。

返回资讯列表