SQream Platform
GPU Powered Data & Analytics Acceleration
Enterprise (Private Deployment) SQL on GPU for Large & Complex Queries
Public Cloud (GCP, AWS) GPU Powered Data Lakehouse
No Code Data Solution for Small & Medium Business
Scale your ML and AI with Production-Sized Models
By SQream
(Esta es la segunda parte de una serie de dos partes, que describe cómo los resultados futuros de IA podrían ser obstaculizados por las congestiones de las bases de datos de hoy en día).
En la primera parte de esta serie, he analizado el informe del McKinsey Institute acerca de las diferentes trayectorias adoptadas por las organizaciones en su camino a la integración de la IA en su negocio. La conclusión de ese informe fue que las compañías que intentaron integrar la IA en el negocio y que aportaron un impacto altamente positivo en sus ingresos operativos, abordaron su trayectoria de IA con características similares. Estas características entienden que esta es una trayectoria a largo plazo, que incluirá algunos fallos a lo largo del camino, se concentran en una o dos áreas del negocio sin intentar todo al mismo tiempo y, probablemente lo más importante – invierten el tiempo necesario y posibilitan el acceso e ingesta a/de datos relevantes para la IA y ML en las etapas de entrenamiento.
El último punto – la necesidad de facilitar el acceso a *todos* los datos relevantes, y comprender que no se puede acelerar el proceso de entrenamiento si se quiere que la IA ponga en práctica lo que promete – es probablemente el mayor desafío para las organizaciones que intentan potenciar su negocio con IA.
En la práctica, la realidad es que la infraestructura actual de las analíticas de datos no puede procesar *todos* los datos, analizarlos y brindar ideas que permitirían a las compañías de telecomunicaciones actuar antes de que los eventos pronosticados se produzcan efectivamente. Aún con la promesa de las analíticas predictivas para ayudar a las compañías de telecomunicaciones a descubrir las señales tempranas de la rotación de clientes a fin de que puedan dirigirse a los clientes antes de que estos finalicen su decisión de abandonar la compañía, y con la promesa de las oportunidades de venta ascendente y venta cruzada a clientes específicos que puede ser sugerida por el motor de IA, las compañías de telecomunicaciones deben elegir un compromiso: dado que las observaciones son sensibles al tiempo y no proporcionarían valor si se producen demasiado tarde, la única manera de obtenerlas a tiempo es reducir simplemente la cantidad de datos que analizan, y elegir segmentos específicos de clientes, o intervalos de tiempo de uso, etc.
El tiempo es fundamental en el entrenamiento de AI / ML
Supongamos que solo el 20% de los datos se pueden analizar si necesitamos que las ideas lleguen tan pronto como sea posible. Esto significaría que por lo menos estamos obteniendo valor del 20% de nuestros recursos en un periodo de tiempo que aún proporciona valor potencial, y que elegimos ignorar los recursos de datos del 80% restante porque no podemos manejarlos en este momento.
Actualmente, esto parece ser un compromiso difícil pero un tanto provechoso – por lo menos estamos obteniendo algo. Sin embargo, si miramos hacia el futuro, este tipo de actitud nos lleva a un camino muy problemático.
Si pensamos en esa investigación McKinsey, y en una de sus más importantes observaciones, recordamos a las compañías líderes centradas en dominios específicos y que concedieron el tiempo necesario para permitir que sus motores de IA y ML sean entrenados con la mayor cantidad de datos posibles dentro de esos dominios. Esto convirtió en “expertos” a esos motores de IA, de manera que las compañías podían confiarles sus decisiones, que se convertían en un impacto positivo sobre los ingresos.
Las compañías que no dedicaron suficiente tiempo a entrenar sus motores de IA y ML, y no se enfocaron en dominios específicos, no alcanzaron este nivel de confianza con su IA, lo que se tradujo en menores ingresos, y mayores frustraciones.
¿Cuál es la cantidad de datos suficiente?
La decisión de analizar solo el 20% de los datos por no poder manejar más no es “enfocarse en dominios específicos”, sino “realizar investigación sobre un ejemplo no representativo y no aleatoriopara luego decidir que los resultados obtenidos son representativos de toda la base de datos”. Actualmente, estas compañías podrían argumentar que, dado que se limitan a analizar solo el 20% de los datos, sus observaciones se traducirán en decisiones que abordarán solo ese mismo 20% de los clientes que fueron incluidos en los datos analizados.
Pero si esas compañías están planeando integrar IA y ML gradualmente en sus operaciones, la alimentación de solo el 20% de los datos a esos motores pequeños crearía máquinas de las cuales se esperan decisiones sobre todos los datos presentes y futuros, y que solo cubren el 20% de ellos. Es como limitar a un niño a interactuar solo con el 20% de los objetos con los cuales interactúa durante su infancia, y luego liberarlo al mundo y observarlo decidir que puede comer un lápiz porque se parece a un palillo de pan (que sí han conocido), sin darse cuenta de que es más parecido a una caña de madera (que no han conocido).
La conclusión
Entonces ¿cómo impedimos que estos motores de IA y ML coman lápices? Si facilitáramos todos los datos para el análisis, obtendríamos los conocimientos que necesitamos y el entrenamiento que deseamos, pero los obtendríamos en un momento en que son irrelevantes. La rapidez es aquí el tema crucial (junto con los problemas de silos de datos, preparación e ingestión de datos, pero esto es para tratar en otra publicación). La rapidez es también el camino hacia la solución: debemos encontrar una manera de analizar grandes volúmenes de datos a baja latencia. Esto significa acelerar el proceso de consulta de datos crecientes sin comprometer la fiabilidad.