缺陷数据合成正有效缓解AI质检场景“数据匮乏”问题

2024-07-08

摘要：
合成数据近两年被频繁提及，主要用于应对数据匮乏、数据隐私保护、数据获取成本高等场景痛点，广泛应用于金融、医疗等行业。但在工业机器视觉领域应用尚处于初期，还处在探索中。

合成数据在AI质检中主要是生成缺陷数据，提升模型训练效率。其主要方式有三种：

1、数据增强（or数据增广）：主要针对已有的数据做出一定的变换或增强，包括但不限于旋转、缩放、平移和噪声添加。该种方式并不会创造新数据，而是对于原有数据做出一定的变换，目前行业内应用较多。数据增强更多是提升现有模型的鲁棒性，以适应产线产品在经过质检工位时出现不同程度的位置偏移、呈现形态的变化、距离的变化（距离的变远会在采集图片中呈现被缩小的状态）等情况。

2、数据迁移：将过去老产品的缺陷数据迁移到即将投产的新产品中，可以减少新产品缺陷采集数量，实现AI质检在换型后迅速达到此前的稳态。需要注意的是，数据迁移需要保证新老产品在材质和工艺上一致，场景应用受限。

3、数据生成：通过GAN、扩散模型等方式生成缺陷数据，但在AI质检过程中落地的案例相对较少。不同于前两种方式，该方式生成的是全新的数据，而不是在旧数据中做修改或者迁移。

一旦，合成数据能够生成符合真实数据特征的数据，工业场景数据匮乏的问题将会极大缓解，并极大推动生成式AI在工业场景中的应用。

文中提到：

广州友思特科技有限公司