Adversarial Domain Adaptation of Synthetic 3D Data to Train a Volumetric Video Generator Model

Bysmartin

Adversarial Domain Adaptation of Synthetic 3D Data to Train a Volumetric Video Generator Model

Hoy, 6 de Julio de 2021, se ha defendido el Trabajo Fin de Máster titulado «Adversarial Domain Adaptation of Synthetic 3D Data to Train a Volumetric Video Generator Model«, dirigido por el Prof. Sergio Martín, y enmarcado en el Electronics for Information and Communication Technologies Master de la UNED.

A continuación os dejamos el resumen del trabajo:

El entrenamiento de un modelo de aprendizaje automático requiere datos de entrenamiento representativos de la aplicación de destino. En algunos casos, los datos no están disponibles en la cantidad requerida o solo están disponibles datos similares de otro dominio de datos. Los datos se pueden generar sintéticamente traduciendo datos de un dominio a otro dominio. La adaptación de un dominio adversario es el proceso de traducir datos de un dominio de origen a un dominio de destino utilizando enfoques de aprendizaje contradictorio. Dado que ninguna de las muestras está disponible en ambos dominios, la adaptación del dominio adversario es un problema de aprendizaje no supervisado.

El marco CycleGAN es una red de confrontación generativa que se utiliza para tareas de traducción de datos a datos no emparejados. Se construye a partir de un generador y un discriminador para cada dominio que se entrena simultaneamente. El desafío de entrenar CycleGANs radica principalmente en la gran cantidad de hiperparámetros y la diferencia de complejidad entre el discriminador y el generador. Además, el objetivo de aprendizaje es cualitativamente más complejo para el generador que para el discriminador. Además, especialmente para redes convolucionales que traducen imágenes multicanal de alta resolución, los modelos se vuelven complejos y requieren muchos recursos para entrenar.

En este estudio, hay dos dominios diferentes de imágenes RGBD con las dimensiones 512x512x4. Las imágenes del primer dominio se generan mediante fotogrametría y las imágenes del segundo dominio se generan desde un teléfono móvil utilizando un escáner LIDAR.

El objetivo de este trabajo es traducir imágenes RGBD generadas mediante fotogrametría a imágenes que podrían ser del dominio generado por el escaneo LiDAR. Debido a la similitud de ambos dominios, el modelo necesita aprender características complejas. Además, el tamaño de las imágenes implica un modelo con muchos parámetros entrenables. Al mismo tiempo, los recursos de capacitación son limitados y solo se encuentran disponibles unas pocas muestras de capacitación.

En este trabajo se investigan diferentes arquitecturas CycleGAN basadas en arquitecturas novedosas como el discriminador basado en UNet y el discriminador One-Shot GAN. Estas arquitecturas se adaptan y optimizan cuidadosamente teniendo en cuenta las limitaciones mencionadas anteriormente.

About the author

smartin administrator