Cómo la Ciencia de Datos ha revolucionado la transformación digital

Mit Mut le explica que es y porque es tan importante actualmente.

Las empresas generalmente cuentan con una gran cantidad de datos que no son aprovechados, pero actualmente este volumen se ha visto incrementado por la tecnología, a través del Internet de las cosas. Ya hemos mencionado en otros posts que la información es poder, pero la información no procesada es totalmente inservible.

Aunque el volumen mismo representa una cantidad de información valiosa para cualquier empresa, la gran mayoría de estos datos se han visto ignorados hasta hace no mucho tiempo, debido a que no se contaba con el desarrollo de técnicas y conocimientos que permitieran su aprovechamiento, hasta ahora.

La ciencia de datos se dedica a recopilar esta información, analizarla y generar información que puede ser utilizada para la toma de decisiones dentro de las empresas, ya sea para fines de calidad, segmentación, mercadeo, etcétera.



La transformación digital y comercial a través de la Ciencia de Datos

Una vez que se cuenta con la información recopilada y clasificada, las diferentes empresas utilizan los datos obtenidos para mejorar su presencia en el mercado, canalizando sus beneficios a través de diferentes canales:

- Análisis de Mercados

- Tendencias de Marketing

- Análisis de patrones de comportamiento social, cultural y ambiental

- Mejora de servicios en todas sus variantes

- Optimización de cadenas de producción y suministro

- Cambio en las experiencias de navegación en la web

Estos son solo algunos ejemplos, ya que todas las áreas de la industria desean ser partícipes de la carrera que representa la ciencia de datos; y cada vez más empresas destinan una parte importante de su presupuesto a estas tareas.



La magia de la Ciencia de Datos

El proceso de analizar y utilizar los datos es iterativo más que lineal, pero este es el flujo normal del ciclo de vida de la ciencia de datos para un proyecto de modelado de datos:

Planificación: Definir un proyecto y sus posibles resultados.

Construir un modelo de datos: Los científicos de datos frecuentemente usan una variedad de bibliotecas de código abierto o herramientas en la base de datos para construir modelos de aprendizaje automático. A menudo, los usuarios necesitan API para que los ayuden con la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de funciones. Necesitan las herramientas adecuadas, así como acceso a los datos correctos y otros recursos como la capacidad de proceso.

Evaluar un modelo: Los científicos de datos deben lograr un alto porcentaje de exactitud en sus modelos antes de poder implementarlos con confianza. La evaluación del modelo habitualmente genera un conjunto completo de métricas de evaluación y visualizaciones para medir el rendimiento del modelo frente a los datos nuevos y también para clasificarlos a lo largo del tiempo a fin de permitir un comportamiento óptimo en la producción. La evaluación del modelo va más allá del rendimiento en bruto para tener en cuenta el comportamiento de referencia esperado.

Explicar los modelos: Poder explicar la mecánica interna de los resultados de los modelos de aprendizaje automático en términos humanos no ha sido posible siempre, pero es cada vez más importante. Los científicos de datos desean recibir explicaciones automatizadas de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción, junto con detalles explicativos específicos del modelo sobre las predicciones del modelo.

Implementar un modelo: Tomar un modelo de aprendizaje automático entrenado e implementarlo en los sistemas correctos es frecuentemente un proceso difícil y laborioso. Esto se puede simplificar operacionalizando los modelos como API escalables y seguras, o usando modelos de aprendizaje automático dentro de la base de datos.

Monitorear los modelos: Desafortunadamente, la implementación del modelo no es el paso final. Los modelos siempre deben monitorearse después de la implementación para garantizar que funcionen correctamente. Con el paso del tiempo, los datos con los que se entrenó el modelo pueden quedar obsoletos para las predicciones futuras. En la detección de fraudes, por ejemplo, los delincuentes siempre encuentran nuevas formas de piratear las cuentas.


Desafíos de la implementación de la ciencia de datos

A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos, muchas empresas no materializan todo el valor de su información. En su carrera por contratar talento y crear programas de ciencia de datos, algunas empresas han experimentado flujos de trabajo ineficientes para los equipos, donde diferentes personas utilizan diferentes herramientas y procesos que no funcionan bien en conjunto. Sin una administración centralizada más disciplinada, es probable que los ejecutivos no obtengan un retorno completo de sus inversiones.

Este ambiente caótico presenta muchos desafíos.

Los científicos de datos no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de Tecnología Informática, los científicos de datos a menudo tienen una larga espera por los datos y los recursos que necesitan para analizarlos. Una vez que tengan acceso, el equipo de ciencia de datos podría analizar los datos a través de diferentes herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Es por eso que la implementación de los modelos en las aplicaciones útiles puede demorar semanas o incluso meses.

Los desarrolladores de aplicaciones no pueden acceder a un aprendizaje automático utilizable. A veces, los modelos de aprendizaje automático que reciben los desarrolladores no están listos para implementarse en las aplicaciones. Además, como los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la responsabilidad de la escalabilidad queda en manos del desarrollador de la aplicación.

Los administradores de Tecnología Informática dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, el departamento de Tecnología Informática frecuentemente tiene que mantener una lista cada vez mayor de herramientas. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener distintos flujos de trabajo, lo que significa que el personal de Tecnología Informática debe reconstruir y actualizar los entornos continuamente.

Los directores empresariales se encuentran muy alejados de la ciencia de datos. Los flujos de trabajo de la ciencia de datos no siempre están integrados en los procesos y en los sistemas de toma de decisiones empresariales, lo que dificulta que los gerentes comerciales colaboren de manera inteligente con los científicos de datos. Si no cuentan con una integración mejor, a los directores empresariales les resulta muy difícil comprender por qué toma tanto tiempo pasar del prototipo a la producción, y es menos probable que apoyen la inversión en proyectos que perciben como lentos.



Fuente:

  • “Científico de datos: codificando el valor oculto e intangible de los datos” José Gerardo Moreno Salinas Vol. 18, Núm. 7, septiembre-octubre 2017. Revista Digital Universitaria.


Odoo: el mejor ERP para una Startup
¿Está iniciando un negocio? Esto le interesa.