La estadística (multivariada) hace magia

Tómese un mapa de carreteras. Destrúyase, salvo la primera página con la tabla de distancias entre las principales ciudades. ¿Hay alguna manera de reconstruir el mapa?

Dicho de otra manera: es evidente que el mapa determina las distancias, pero ¿determinan las distancias el mapa? Parece claro que no. La tabla contiene mucha menos información que el mapa; en particular, no contiene información espacial, no es más que una lista de números.

Aquí viene la magia. Lo cierto es que la tabla conserva la información espacial, pero, por así dercirlo, en forma latente. Hay una técnica de la estadística multivariada que es capaz de revelar la figura oculta en la lista de números. Se llama escalado multidimensional (multidimensional scaling). Hay que decirle al algoritmo en cuantas dimensiones van a estar nuestros puntos y los coloca de modo que sus distancias mutuas reproduzcan, en la medida de lo posible, las que hemos dado.

Me he tomado el trabajo de copiar a un archivo las distancias en km por carretera entre las capitales de provincia españolas. Hay 50 capitales no insulares, así que son 1225 datos (¡todo sea por la estadística recreativa!). Pero el resultado merece la pena. Dejamos trabajar al algoritmo et voila!:

Mapa de distancias geograficas por multidimensional saling

¿Es o no magia? [pinchar en la imagen para verla bien]

(El círculo grande es una simple referencia de distancias, está centrado en el centro de masas de los puntos, es decir, el centro geográfico de España).

El cálculo lo he hecho con un maravilloso programa llamado Permap que, además, es delicioso de mirar funcionar y tiene un manual magnífico (¿se puede pedir más? Sí: es gratuito).

Lo más atracivo de esta técnica es que:

  • Podemos hacer mapas de proximidades abstractas (los chicos del marketing, que prostituyen todo lo que tocan, lo usan para visualizar las afinidades y diferencias en la percepción de los productos por los clientes).
  • Permite averiguar la dimensionalidad oculta de los datos: puede que tengamos sobre cada item diez datos, pero si el mapa sale bien en 2D es que en realidad hay sólo dos factores subyacentes.
  • Es útil para identificar conjuntos de datos relativamente aislados. Por ejemplo, si representamos las cien distancias más cortas (el 9% del total de distancias) por un enlace, tenemos este mapa:
    El 9% de enlaces más cortos entre provincias por km…donde se aprecia el aislamiento geográfico de regiones como Galicia, Asturias o Andalucía (¡hasta hemos dado con Despañaperros!) . Son regiones geográficas naturales, a diferencia de, por ejemplo, Aragón o Castilla-La Mancha.
Esta entrada fue publicada en estadistica, Visualización. Guarda el enlace permanente.

3 respuestas a La estadística (multivariada) hace magia

  1. panta dijo:

    Gracias por el enlace al Permap.
    Saludos.

  2. aldo dijo:

    solo soy un recien iniciado en estas cosas, pero me encanto, me pondre a estudiarlo..soy antropologo y he hecho algunos ejercicios muy iniciales de analisis multivariado….agradeceria si sabe de algun manual gratuito respecto a estos analisis, solo he hallado un trabao del sr. figueras, de españa. Muchas gracias

  3. roger dijo:

    No todo lo que brilla es oro, creo que deberían leer este articulo: MULTIVARIATE ANALYSIS IN ECOLOGY AND SYSTEMATICS:
    PANACEA OR PANDORA’S BOX? (James y McCulloch, 1990) Annu. Rev. Ecol. Syst. 21:129-66

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s