Mit Mut le explica que es y porque es tan importante actualmente.
Aunque el volumen mismo representa una cantidad de información valiosa para cualquier empresa, la gran mayoría de estos datos se han visto ignorados hasta hace no mucho tiempo, debido a que no se contaba con el desarrollo de técnicas y conocimientos que permitieran su aprovechamiento, hasta ahora.
La ciencia de datos se dedica a recopilar esta información, analizarla y generar información que puede ser utilizada para la toma de decisiones dentro de las empresas, ya sea para fines de calidad, segmentación, mercadeo, etcétera.
La transformación digital y comercial a través de la Ciencia de Datos
- Tendencias de Marketing
- Análisis de patrones de comportamiento social, cultural y ambiental
- Mejora de servicios en todas sus variantes
- Optimización de cadenas de producción y suministro
Estos son solo algunos ejemplos, ya que todas las áreas de la industria desean ser partícipes de la carrera que representa la ciencia de datos; y cada vez más empresas destinan una parte importante de su presupuesto a estas tareas.
La magia de la Ciencia de Datos
El proceso de analizar y utilizar los datos es iterativo más que lineal, pero este es el flujo normal del ciclo de vida de la ciencia de datos para un proyecto de modelado de datos:
Planificación: Definir un proyecto y sus posibles resultados.
Construir un modelo de datos: Los científicos de datos frecuentemente usan una variedad de bibliotecas de código abierto o herramientas en la base de datos para construir modelos de aprendizaje automático. A menudo, los usuarios necesitan API para que los ayuden con la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de funciones. Necesitan las herramientas adecuadas, así como acceso a los datos correctos y otros recursos como la capacidad de proceso.
Evaluar un modelo: Los científicos de datos deben lograr un alto porcentaje de exactitud en sus modelos antes de poder implementarlos con confianza. La evaluación del modelo habitualmente genera un conjunto completo de métricas de evaluación y visualizaciones para medir el rendimiento del modelo frente a los datos nuevos y también para clasificarlos a lo largo del tiempo a fin de permitir un comportamiento óptimo en la producción. La evaluación del modelo va más allá del rendimiento en bruto para tener en cuenta el comportamiento de referencia esperado.
Explicar los modelos: Poder explicar la mecánica interna de los resultados de los modelos de aprendizaje automático en términos humanos no ha sido posible siempre, pero es cada vez más importante. Los científicos de datos desean recibir explicaciones automatizadas de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción, junto con detalles explicativos específicos del modelo sobre las predicciones del modelo.
Implementar un modelo: Tomar un modelo de aprendizaje automático entrenado e implementarlo en los sistemas correctos es frecuentemente un proceso difícil y laborioso. Esto se puede simplificar operacionalizando los modelos como API escalables y seguras, o usando modelos de aprendizaje automático dentro de la base de datos.
Desafíos de la implementación de la ciencia de datos
A pesar de la promesa de la ciencia de datos y las grandes inversiones en equipos, muchas empresas no materializan todo el valor de su información. En su carrera por contratar talento y crear programas de ciencia de datos, algunas empresas han experimentado flujos de trabajo ineficientes para los equipos, donde diferentes personas utilizan diferentes herramientas y procesos que no funcionan bien en conjunto. Sin una administración centralizada más disciplinada, es probable que los ejecutivos no obtengan un retorno completo de sus inversiones.
Este ambiente caótico presenta muchos desafíos.
Los científicos de datos no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de Tecnología Informática, los científicos de datos a menudo tienen una larga espera por los datos y los recursos que necesitan para analizarlos. Una vez que tengan acceso, el equipo de ciencia de datos podría analizar los datos a través de diferentes herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Es por eso que la implementación de los modelos en las aplicaciones útiles puede demorar semanas o incluso meses.
Los desarrolladores de aplicaciones no pueden acceder a un aprendizaje automático utilizable. A veces, los modelos de aprendizaje automático que reciben los desarrolladores no están listos para implementarse en las aplicaciones. Además, como los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la responsabilidad de la escalabilidad queda en manos del desarrollador de la aplicación.
Los administradores de Tecnología Informática dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, el departamento de Tecnología Informática frecuentemente tiene que mantener una lista cada vez mayor de herramientas. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener distintos flujos de trabajo, lo que significa que el personal de Tecnología Informática debe reconstruir y actualizar los entornos continuamente.
Fuente:
“Científico de datos: codificando el valor oculto e intangible de los datos” José Gerardo Moreno Salinas Vol. 18, Núm. 7, septiembre-octubre 2017. Revista Digital Universitaria.