En este momento estás viendo Qué es el Data Wrangling Parte I

Qué es el Data Wrangling Parte I

  • Autor de la entrada:
  • Categoría de la entrada:Sin categoría

Uno de los errores más comunes de los proyectos de Big Data, es pensar que empiezan con el análisis. Cualquier proyecto de Big Data necesita un paso previo para poder ser exitoso: el Data Wrangling.

Los datos, en su forma natural (lo que llamamos “Raw Data”), suelen tener errores de registro que imposibilitan un análisis exacto. Al ser registrados por distintos sistemas y personas, es normal que terminemos con un fichero en el que un mismo valor esté expresado de distintas maneras (por ejemplo, una fecha puede estar registrada como 28 de Junio, o como 28/06 en una mismo archivo), pueden haber registros en blanco, y por supuesto, errores gramaticales.

Al momento de hacer un análisis de esos datos, todos esos registros tienen que preprocesarse. Es decir, se tiene que limpiar, unificar, consolidar y normalizar los datos para que se puedan utilizar y lograr extraer información de valor. De esto va el Data Wrangling, de preparar los datos para poder ser aprovechados.

 

Cómo Empezar a Hacer Data Wrangling

Antes de empezar hay que saber es que el Data Wrangling es un proceso largo. De hecho, usualmente es lo que le toma más tiempo a un data analysts. De acuerdo a una encuesta realizada en el 2017, un analista de datos puede pasar, en promedio, el 80% de su tiempo en Data Wrangling.

Por la inversión de tiempo que implica el Data Wrangling, hay que tener muy claro que se quiere obtener de los datos. Es decir, tener una pregunta clara con respecto al negocio. Empezar a organizar los datos sin saber que se está buscando en ellos es el camino más seguro al fracaso de esta clase de proyectos.

Una vez que tenemos una pregunta que buscamos responder a través de los datos, puede empezarse el proceso de Data Wrangling.

 

  1. Identificar los datos relevantes: una empresa de transporte digitalizada, tiene una cantidad ingente de datos. No todos van a ser relevantes para cada inquietud que se tenga. Hay que buscar los datos relacionados con la pregunta que queremos contestar.
  2. Establecer un formato: en este momento hay que definir el formato en el que deben estar los registros. En el ejemplo de la fecha, tocaría decidir si se deja el registro en números o se deja mezclando números y letras. Todo debe estar escrito de la misma manera. Si un valor se registra en números, siempre debe registrarse en números. Si un nombre se registra solo con iniciales, debe registrarse siempre así.
  3. Una buena idea es, paralelamente a esto, ir creando un manual con los formatos establecidos para que todas las personas involucradas en el registro de la información estén creando ficheros unificados.
  4. Limpiar: una vez definido el formato, hay que asegurarnos de que todos los registros cumplan con él, y además hay que eliminar registros en blanco, errores, y datos que no sean relevantes para lo que queremos saber.
  5. Agregar: a veces, será necesario agregar datos de otro fichero o incluso unir dos ficheros distintos para poder hacer un análisis más exacto.
  6. Validar los registros: después de asegurarnos que los datos están unificados y tenemos todos los que necesitamos para el análisis, hay que validar que todos los registros sean consistentes.