对于这篇Nature封面的文章,Scale AI的CEO Alexandr Wang深表赞同。他表示,利用纯合成数据来训练模型,是不会带来信息增益的。通常,当评估指标因「自蒸馏」(self-distillation)而上升时,大概率是因为一些更隐蔽的权衡:
合成数据可以在短期内提升评估结果,但之后你会为模型崩溃付出代价
你在训练或微调模型过程中积累了隐形的债务,而这些债务将很难偿还
具体而言,在连续几代的合成训练中,错误主要来自三个方面:
统计近似误差(statistical approximation error)
功能表达误差(functional expressivity error)
功能近似误差(functional approximation error)
也就是,每次你用上一个模型生成的数据来训练新模型时,都会丢失一些信息和精度,导致模型变得越来越空洞,最终无法正常工作。虽然这些实验是在小规模模型(100M参数)上进行的,但观察到的基本效应也会随着时间的推移在更大规模的模型上出现。例如,今天的大多数模型无法生成像Slate Star Codex风格的博客文章,这也是由于模型崩溃的原因。随着我们连续训练模型,它们逐渐失去了在广泛分布上进行预测的能力。在Wang看来,混合数据(Hybrid Data)才是未来的发展方向,它能够避免所有与模型崩溃相关的棘手问题。也就是说,在合成数据的过程中,必须通过某种新的信息来源来生成: