马斯克：AI训练数据已耗尽，合成数据将成未来方向

报道 1月9日消息，据TechCrunch报道，埃隆·马斯克在与Stagwell董事长Mark Penn的直播对话中表示，目前AI模型的训练已基本耗尽真实世界的数据，“我们已经用尽了人类知识的累积总和，这在去年就发生了。”马斯克与前OpenAI首席科学家Ilya Sutskever的观点一致，后者在NeurIPS机器学习大会上提出AI行业已达到“数据峰值”，未来可能需要改变模型开发方式。

马斯克认为，合成数据将是补充真实数据的途径，AI将通过生成和自我评估数据实现自我学习。这一趋势已被包括微软、Meta、OpenAI和Anthropic等科技巨头采用，如微软Phi-4模型和谷歌Gemma模型都结合了真实数据和合成数据进行训练。Gartner预测，2024年AI和分析项目中约60%的数据将为合成生成。

合成数据的优势包括成本节约，例如AI初创公司Writer仅花费约70万美元开发其几乎完全基于合成数据的Palmyra X 004模型，相比之下，类似规模的OpenAI模型开发成本约为460万美元。然而，合成数据也存在风险，包括模型创造力下降、输出偏差加剧，以及潜在的模型崩溃，尤其当训练数据本身存在偏差时，生成结果也可能受到影响。

马斯克：AI训练数据已耗尽，合成数据将成未来方向

相关推荐

发表评论 取消回复

分享到：

发表评论取消回复