Tómese un mapa de carreteras. Destrúyase, salvo la primera página con la tabla de distancias entre las principales ciudades. ¿Hay alguna manera de reconstruir el mapa?
Dicho de otra manera: es evidente que el mapa determina las distancias, pero ¿determinan las distancias el mapa? Parece claro que no. La tabla contiene mucha menos información que el mapa; en particular, no contiene información espacial, no es más que una lista de números.
Aquí viene la magia. Lo cierto es que la tabla conserva la información espacial, pero, por así dercirlo, en forma latente. Hay una técnica de la estadística multivariada que es capaz de revelar la figura oculta en la lista de números. Se llama escalado multidimensional (multidimensional scaling). Hay que decirle al algoritmo en cuantas dimensiones van a estar nuestros puntos y los coloca de modo que sus distancias mutuas reproduzcan, en la medida de lo posible, las que hemos dado.
Me he tomado el trabajo de copiar a un archivo las distancias en km por carretera entre las capitales de provincia españolas. Hay 50 capitales no insulares, así que son 1225 datos (¡todo sea por la estadística recreativa!). Pero el resultado merece la pena. Dejamos trabajar al algoritmo et voila!:
¿Es o no magia? [pinchar en la imagen para verla bien]
(El círculo grande es una simple referencia de distancias, está centrado en el centro de masas de los puntos, es decir, el centro geográfico de España).
El cálculo lo he hecho con un maravilloso programa llamado Permap que, además, es delicioso de mirar funcionar y tiene un manual magnífico (¿se puede pedir más? Sí: es gratuito).
Lo más atracivo de esta técnica es que:
- Podemos hacer mapas de proximidades abstractas (los chicos del marketing, que prostituyen todo lo que tocan, lo usan para visualizar las afinidades y diferencias en la percepción de los productos por los clientes).
- Permite averiguar la dimensionalidad oculta de los datos: puede que tengamos sobre cada item diez datos, pero si el mapa sale bien en 2D es que en realidad hay sólo dos factores subyacentes.
- Es útil para identificar conjuntos de datos relativamente aislados. Por ejemplo, si representamos las cien distancias más cortas (el 9% del total de distancias) por un enlace, tenemos este mapa:
…donde se aprecia el aislamiento geográfico de regiones como Galicia, Asturias o Andalucía (¡hasta hemos dado con Despañaperros!) . Son regiones geográficas naturales, a diferencia de, por ejemplo, Aragón o Castilla-La Mancha.
Gracias por el enlace al Permap.
Saludos.
solo soy un recien iniciado en estas cosas, pero me encanto, me pondre a estudiarlo..soy antropologo y he hecho algunos ejercicios muy iniciales de analisis multivariado….agradeceria si sabe de algun manual gratuito respecto a estos analisis, solo he hallado un trabao del sr. figueras, de españa. Muchas gracias
No todo lo que brilla es oro, creo que deberían leer este articulo: MULTIVARIATE ANALYSIS IN ECOLOGY AND SYSTEMATICS:
PANACEA OR PANDORA’S BOX? (James y McCulloch, 1990) Annu. Rev. Ecol. Syst. 21:129-66