合成数据应用落地分析

2024-03-30

报告概要:

合成数据区别于由真实物理世界产生的数据,是通过计算机技术模拟物理世界产生真实数据的统计特征和特性的人工合成数据。

 

合成数据除应用在通用大模型训练外,也应用在各行业的场景模型,包括金融、医疗、政务&公共事业、通信、汽车(自动驾驶和智能座舱)、零售、制造业等。

 

合成数据的应用前提是其需要具备真实性,即和真实数据具有相同的分布和特征。而合成数据产业化进程加速的因素主要有五方面,分别是真实数据的获取成本高、数据使用的合规风险、真实数据样本少、真实数据复用性差以及真实数据获取效率低。

 

在报告中展示了合成数据的落地案例,包括51Sim为主机厂合成边缘场景数据,优化预期功能安全以及通过合成国外的交通环境要素,助力车企智驾功能出海;在工业场景中,通过合成缺陷数据,优化视觉检测模型等。

 

关于合成数据应用问题,首先企业明确认识到应用合成数据是循序渐进的过程,切勿冒进;其次,在不同场景应用合成数据前,均需要建立对合成数据质量(主要是真实性)的评估标准。最后,致力于向数智化转型的企业应积极尝试应用合成数据,一方面,可以为企业解决潜在的合规风险问题;另一方面,虽然合成数据能够一定程度上提升企业模型训练效率,但也需要实战经验的积累,才能够发挥出合成数据的最大价值。