Generación de datos sintéticos para entrenamiento de sistemas basados en aprendizaje automático supervisado
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Este trabajo se centra en la generación de datos AIS (Automatic Identification System) estáticos de forma sintética para el entrenamiento de modelos de aprendizaje automático supervisado, en contextos donde los datos reales son escasos o están desbalanceados. En particular, los datos sintéticos generados tendrán como finalidad mejorar el entrenamiento de un sistema de predicción de tipo de buque.
Se realiza una revisión de diversas técnicas de generación de datos sintéticos y, considerando el tipo de dato que se desea generar, se seleccionan TVAE, Gaussian Copula y CTGAN. La generación se realiza tanto de forma global como segmentada por tipo de barco, con el objetivo de preservar las proporciones reales y las relaciones internas de los datos. Los datos sintéticos obtenidos se someten a una intensa fase de evaluación que incluye métricas estadísticas (KS-test, correlaciones, chi-cuadrado), visualizaciones (PCA, t-SNE, KDE), y pruebas de utilidad mediante el modelo de clasificación. Además, se discute el impacto del tamaño de muestra sobre las pruebas estadísticas y la influencia de los atributos en el entrenamiento de modelos de clasificación. El estudio concluye que la generación controlada por clase mejora la fidelidad de los datos sintéticos y puede ser clave en entornos con datos desequilibrados.