Datos sintéticos en las estrategias IA de las empresas

No es casual que la utilización creciente de datos sintéticos sea uno de los puntos recogidos en el Hype Cycle sobre Inteligencia Artificial de Gartner ya que estos datos generados artificialmente tienen múltiples usos en las estrategias de IA empresariales.

La consultora Gartner prevé que en 2024 el 75% de las organizaciones cuente con al menos tres iniciativas de hiperautomatización.

Se denominan sintéticos a los datos generados artificialmente para sustituir a los datos reales en las pruebas asociadas al desarrollo de software, en el entrenamiento de modelos de IA u otro tipo de aplicaciones y a los que se recurre bien por motivos regulatorios -habitualmente para proteger la privacidad- o también cuando los conjuntos de datos reales no cumplen con otros requerimientos, sea en términos de volumen, variedad o calidad, de la IA.

No es casual que la utilización creciente de datos sintéticos sea uno de los puntos recogidos en el Hype Cycle sobre Inteligencia Artificial de Gartner ya que estos datos generados artificialmente tienen múltiples usos en las estrategias de IA empresariales. Las previsiones de la consultora contemplan que en 2024 el 60% de los datos utilizados para el desarrollo de soluciones analíticas y de IA se generarán sintéticamente frente al 1% correspondiente a 2021.

Ciertamente, los datos sintéticos tienen múltiples usos en las estrategias de IA de las empresas como, por ejemplo:

-. Acelerar el desarrollo de modelos de IA: recopilar datos reales para el entrenamiento de un modelo de IA requiere tiempo al implicar diferentes tareas más allá de la recopilación, tales como el etiquetado, procesamiento y control de la información; y en determinados casos puede tener también un coste elevado. Con el uso de datos sintéticos, los modelos pueden crearse en menos tiempo y con menor coste, e incluso antes de que los datos reales estén disponibles.

-. Entrenamiento de modelos: dado que los sistemas de IA y aprendizaje automático (ML) requieren volúmenes masivos de datos, puede suceder que para un determinado caso de uso no existan datos suficientes. Esta situación se produce en los nuevos casos de uso o cuando el caso sucede con una baja frecuencia. Puede ocurrir, igualmente, que la recopilación o compra de datos reales resulte extremadamente costosa.

-. Desarrollo de simulaciones a futuro: el mundo cambia a una enorme velocidad y hay momentos en los que los datos históricos pueden quedar obsoletos. La sustitución de datos históricos reales con datos sintéticos que tengan en cuenta tanto modas como cambios generalizados en el mercado permite mantener la relevancia de los modelos IA, incluyendo, por ejemplo, los utilizados por los motores de recomendación o los asistentes virtuales cognitivos. Así mismo, y ante la previsión de un cambio, los datos sintéticos permiten realizar simulaciones en base a diferentes escenarios de forma que la empresa puede estar preparada y anticiparse.

-. Simular eventos de “cisne negro”. Hay situaciones que se producen con muy baja frecuencia y, en consecuencia, pueden no reflejarse de forma suficientemente significativa en los datos históricos y tener, sin embargo, un impacto notable. Los datos sintéticos también permiten simular las situaciones excepcionales para poder modelar las mejores posibles respuestas en caso de producirse ese escenario.

El uso de datos sintéticos estadísticamente significativos que verdaderamente reflejen los datos reales es clave para desarrollar con éxito los casos de uso identificados en los Data Labs y su generación, dependiendo del tipo de datos, puede sencilla o verdaderamente compleja.

Ante este reto, las empresas data-driven y los científicos de datos ya están utilizando la misma IA y algoritmos de aprendizaje automático (ML) para crear datos sintéticos representativos y útiles. Un ejemplo es el uso de redes generativas adversariales (GAN), una tipología de trabajo neuronal que ha supuesto un avance importante en la generación de datos sintéticos.

Además, cada vez hay más herramientas, mayoritariamente de código abierto, para la creación de datos sintéticos; lo que significa un impulso importante al uso de datos sintéticos en la aplicación de IA en las empresas.


Descubre que es la analítica avanzada y transversal