¿Qué son los datos?

Jul 22, 2020 | DATOS, Para empezar | 0 Comentarios

Antes de empezar a analizar es importante entender bien los tipos de datos y con que estructura los podemos encontrar. Como para un pintor es importante conocer las herramientas básicas con las que va a pintar, es decir los colores, tenemos que empezar por definir los datos. Después ya nos dedicaremos a ver como dibujar, los pinceles, los lienzos etc. Los datos son la base que necesitamos para transformar esta materia bruta en información, y la información en conocimiento.

¡No te pierdas ningún nuevo vídeo!

Visita mi canal de Youtube

la metáfora con un árbol, los datos serían las líneas, colores, tamaño etc. La información sería que “es un árbol”, y el conocimiento “que este árbol produce fruta etc.”. La información es organizar los datos brutos para darle un sentido, mientras que el conocimiento va más allá, e incluye relacionar esta información con otras.

Datos información conocimiento

Antes de empezar, quiero hacer un pequeño apunte. En general, podemos encontrarnos con dos tipos principales de datos: no estructurados y estructurados. Los no estructurados son por ejemplo el texto de varios tweets, el texto de los emails, las imágenes de un video etc. Actualmente se está trabajando mucho con estos tipos de datos, sin embargo, en este curso nos centraremos en el segundo tipo: los datos estructurados. Estos datos son más fáciles de analizar dado que vienen en tabla, es decir que están organizados en filas y columnas.

Tabla de datos con registros y variables

Your content goes here. Edit or remove this text inline or in the module Content settings. You can also style every aspect of this content in the module Design settings and even apply custom CSS to this text in the module Advanced settings.

Cambiando de ejemplo, podemos enfrentarnos a una tabla con datos de transacciones o ventas. En la imagen anterior tenemos las ventas de viajes en tren. Sin embargo, a diferencia del ejemplo anterior los datos han sido agrupados, es decir que cada fila representa a un grupo de entidades con las mismas características (personas que han comprado el mimo tren y en la misma clase de servicio). Mientras que las columnas representan a las características de estas compras. 

Tabla incorrecta 1
Tabla incorrecta 2

La clave para saber si una tabla está bien construida es revisar que cada fila represente a una entidad o grupo de entidades distintos (no tienen que duplicarse) y cada columna tiene que ser algo homogéneo. En la primera imagen con un formato incorrecto, el error es usar una columna “Valor” donde mezclamos pasajeros e ingresos. Esto, además, hace que se dupliquen las filas. En segundo ejemplo de de formato incorecto, el “error” es separar la misma métrica (Pax) en diferentes columnas en base a otra columna (Clase). Por lo general, es mejor no hacerlo, sin embargo, puede que en algunos casos específicos pueda ser necesario.

Esta distinción nos lleva a definir las dimensiones y las métricas. Una dimensión o “atributo”, es una característica en un conjunto de datos como por ejemplo el nombre del producto, el tipo de producto o el mes de venta. La dimensión puede tener diferentes formatos (número, texto, fecha etc.) pero, independientemente de su formato, cada valor único representa a una categoría.

Una métrica o “indicador” es un valor numérico que podemos agrupar por dimensión sumándolo, haciendo un promedio, escogiendo el mínimo o máximo, contándolo etc. Por ejemplo, la suma de pasajeros por mes de viaje, o el promedio de ingresos por tipo de producto.

He hablado de “formato” de las variables, y hemos visto que las métricas tienen que ser numéricas, mientras que las dimensiones pueden utilizar varios formatos.

En algunos casos una métrica puede usarse como dimensión, cuando convertimos el valor numérico en una categoría. Un ejemplo sería utilizar la variable de una encuesta sobre el número de viaje que un cliente hizo en nuestro tren y, en lugar de hacer operaciones con ella (sumar, promedio etc.) la usamos como categoría, es decir que podemos agrupar aquellos clientes que han hecho un solo viaje, dos viajes etc.

También es posible utilizar las dimensiones como métricas. Esto es posible contando las categorías. Utilizando el ejemplo anterior de ventas, podemos agrupar la tabla por la clase del viaje, y contar el número de trenes distintos para cada agrupación, para ver cuántos trenes diferentes se han reservado en cada grupo que hemos creado. Veremos esto en concreto analizando los datos en las tablas dinámicas de Excel.

Volviendo al formato, es importante diferenciarlo de lo que se llama “escala de medición”. El formato, si queremos, es el aspecto de los datos. Si es un número, es un formato numérico, si son secuencias de letras y números es un formato de texto. Los tipos de formatos principales que nos encontraremos son:

  • Números enteros (1; 2; 3…)
  • Números decimales (1,2; 3,45…)
  • Texto (“Motivo ocio”, “Satisfecho”…)
  • Fecha (“01/01/2020”)
  • Booleano (VERDADERO / FALSO)

El formato suele poderse ajustar en la herramienta que utilices. Por ejemplo, un número (1, 2…) pude estar configurado como texto (realmente un número puede ser tanto un texto como un número), pero podríamos cambiar la configuración a número entero. Sin embargo, cuando hablamos de “escala de medición” nos referimos a algo intrínseco al dato. En este caso no depende de su “aspecto”, sino de lo que representa:

  • Nominal: los datos representan categorías según alguna característica específica (CCAA, tipo de producto, nombre del cliente, …).
  • Ordinal: los datos son categorías que se pueden ordenar según algún tipo de relación (por ejemplo en una encuesta “muy insatisfecho”, “insatisfecho”, “satisfecho”…). Una posición más alta significa más satisfacción, pero no podemos decir cuanto más respecto a la categoría anterior.
  • De intervalo: son también ordinales pero las diferencias entre las observaciones son constantes y un punto cero definidos de forma arbitraria. Ejemplos son la temperatura y el tiempo. No podemos sacar ratios con estos datos, por ejemplo no podemos decir que 40 grados son el doble de calor que 20 grados, pero si que 40 grados son 20 grados más que 20 grados.
  • De razón: datos continuos que tienen un cero natural como por ejemplo datos de ingresos, tiempo etc. Con estos datos el cálculo de ratios tiene sentido (se puede decir que si ganas 1.000 € es el doble de si ganas 500 €).