En este momento estás viendo Data Wrangling Parte II: ¿Para qué?

Data Wrangling Parte II: ¿Para qué?

  • Autor de la entrada:
  • Categoría de la entrada:Sin categoría

 

En la primera entrega de este tema, hablamos de qué es el Data Wrangling y los primeros pasos que hay que dar para limpiar nuestros datos de cara a un proyecto de Big Data. 

También tocamos muy brevemente el tema que trataremos en este post: por qué el Data Wrangling es tan importante. Ya sabemos que sirve para normalizar registros dentro de bases de datos. Pero, ¿Por qué esto es tan importante? 

La respuesta está en cómo la transformación digital ha cambiado la manera de sobrevivir en un mercado cada vez más competitivo. Seguramente haz escuchado que los datos son el petróleo de este siglo. Es una frase verdadera, pero incompleta. Los datos por sí mismos, no tienen valor; es el análisis avanzado de datos lo que te va a dar una verdadera ventaja frente a competidores que navegan ciegamente, basados en la experiencia personal, o siguiendo tendencias genéricas del mercado. 

La complejidad del análisis de datos que se puede hacer en una empresa depende de una serie de factores entrelazados que requieren de una exploración exhaustiva previa al inicio de cualquier proyecto: Tiene que ver con nivel de digitalización en el que está la empresa, los recursos con los que cuenta, el tipo de preguntas que se quieren contestar, y la cantidad de tiempo y dinero que está dispuesta a invertir.

Lo que es universal e independiente del nivel de análisis de datos al que se desea llegar, es que nadie quiere hacer embarcarse en un proyecto de este calibre para no obtener ninguna clase de resultado. Aquí es cuando entra en juego el Data Wrangling. 

Exploración Preliminar

Usualmente un proyecto de Big Data parte del interés de un negocio por solventar una necesidad. Se establece el problema, se analiza cuál podría ser una posible solución, y se procede a poner en marcha el proyecto. 

Durante la puesta en marcha, es necesario hacer una auditoría de las bases de datos que van a utilizarse. Se entiende con qué clases de datos estamos tratando, se limpian los registros, se eliminan los errores, se normalizan los valores, y se hacen todo lo necesario para asegurar que la base de datos está lista para usarse. Esta limpieza, también permite hacer una exploración preliminar de cuáles son los datos con los que se cuentan y cómo están registrados y organizados. 

Un analista, puede realizar un análisis exploratorio para asegurarse de que la solución que se quiere conseguir, sea posible con los datos que se tienen. También puede estimar posible bloqueos, o incluso encontrar soluciones alternas más favorables que no se pudieron tener en cuenta cuando se establecieron las necesidades del proyecto desde un punto de vista netamente teórico.

Este análisis previo sirve para evitar problemas en el futuro del proyecto y además, le da una idea al analista de cómo empezar a cumplir con los requerimientos del negocio. También, puede servir para evaluar la manera en la que se están registrando los datos desde un principio, y ajustar los procesos que se están usando en la empresa. 

 

¿Y Si No Se Hace el Análisis Preliminar?

Imaginemos por un segundo el caso contrario. Nos reunimos con un analista que, por falta de experiencia, solo toma nota de nuestros requerimientos e inmediatamente, con los datos tal cual como vienen, se pone a trabajar en un modelo de análisis para solventar nuestros problemas. Invertimos tiempo en asegurarnos que tenga todos los datos que creemos que necesita para hacer su trabajo. Empezamos a hablar maravillas del análisis de datos avanzado, nos empezamos a hacer expectativas cada vez más grandes y 6 meses después llega el día en que el analista nos presentará el proyecto que le hemos pedido y resulta que… no tiene nada que ver con lo que le habíamos pedido al principio. 

Al pedirle una explicación, nos da una serie de justificaciones. Que los datos que teníamos no eran suficientes, que habíamos asumidos realidades pero los datos reflejaban lo contrario, que nos faltaban registros, teníamos datos equivocados, y que los estábamos guardando de una manera que no permitían hacer la clase de análisis que se había planteado al principio. Y ¿por qué no se dió cuenta antes? pues, porque no hizo un análisis exploratorio… ¿por qué no hizo el análisis exploratorio? porque los datos no estaban limpios, no se había hecho el Data Wrangling porque tomaba demasiado tiempo y se necesitaba completar el trabajo rápidamente. Pues, el resultado va a ser un análisis que no nos va a servir para nada y no tendrá ninguna clase de valor para nosotros. En otras palabras, 6 meses de trabajo a la basura. 

El Data Wrangling se trata de ahorrarnos problemas a futuro. Es preparar los datos para el análisis, como se prepararía a un paciente previo a una cirugía. Es completamente necesario aunque consuma una gran cantidad de tiempo, y el paso más importante de todo proyecto de Big Data.