缺陷数据合成正有效缓解AI质检场景“数据匮乏”问题

2024-07-08

摘要:
合成数据近两年被频繁提及,主要用于应对数据匮乏、数据隐私保护、数据获取成本高等场景痛点,广泛应用于金融、医疗等行业。但在工业机器视觉领域应用尚处于初期,还处在探索中。

 

合成数据在AI质检中主要是生成缺陷数据,提升模型训练效率。其主要方式有三种:

 

1、数据增强(or数据增广):主要针对已有的数据做出一定的变换或增强,包括但不限于旋转、缩放、平移和噪声添加。该种方式并不会创造新数据,而是对于原有数据做出一定的变换,目前行业内应用较多。数据增强更多是提升现有模型的鲁棒性,以适应产线产品在经过质检工位时出现不同程度的位置偏移、呈现形态的变化、距离的变化(距离的变远会在采集图片中呈现被缩小的状态)等情况。

 

2、数据迁移:将过去老产品的缺陷数据迁移到即将投产的新产品中,可以减少新产品缺陷采集数量,实现AI质检在换型后迅速达到此前的稳态。需要注意的是,数据迁移需要保证新老产品在材质和工艺上一致,场景应用受限。

 

3、数据生成:通过GAN、扩散模型等方式生成缺陷数据,但在AI质检过程中落地的案例相对较少。不同于前两种方式,该方式生成的是全新的数据,而不是在旧数据中做修改或者迁移。

 

一旦,合成数据能够生成符合真实数据特征的数据,工业场景数据匮乏的问题将会极大缓解,并极大推动生成式AI在工业场景中的应用。