Un modesto ejercicio de minería de apellidos

Disclaimer: este post es en realidad un refrito de otros dos (muy) antiguos: éste y éste, que aparecen aquí como las partes I y II. La idea general está explicada en el monográfico de apellidos, pero no hace falta leerlo, lo que cuento aquí es autocontenido. Se trata de otro ejemplo de juego con los datos de los apellidos del INE, como el post anterior, pero menos metafísico ;-). La primera parte es un prólogo, pero tiene interés por sí misma.
 

I – Magia estadística

Problema: Teníamos un mapa de carreteras, pero algún desaprensivo nos lo robó. Sólo dejó la primera página con la tabla de distancias entre las principales ciudades. ¿Hay alguna manera de reconstruir el mapa?

Solución: Es evidente que el mapa determina las distancias, pero ¿determinan las distancias el mapa? Parece claro que no. La tabla contiene mucha menos información que el mapa; en particular, no contiene información espacial, no es más que una lista de números.

Y sin embargo, la tabla conserva la información espacial, pero, por así decirlo, en forma latente. Hay una técnica estadística que es capaz de revelar la figura oculta en la lista de números. Se llama escalado multidimensional. Hay que decirle al algoritmo en cuantas dimensiones van a estar nuestros puntos (para el mapa de carreteras, dos) y los coloca de modo que sus distancias mutuas reproduzcan, en la medida de lo posible, las que le hemos dado en forma de tabla.

Me he tomado el trabajo de copiar a un archivo las distancias en km por carretera entre las capitales de provincia españolas. Hay 50 capitales no insulares, así que son 1225 datos (¡todo sea por la estadística recreativa!). Pero el resultado merece la pena. Dejamos trabajar al algoritmo et voila!:

ProximidadesProvColorOK¿Es o no magia?  (El círculo grande es una simple referencia de distancias, está centrado en el centro de masas de los puntos, es decir, el centro geográfico de España). Por desgracia, el programa gratuito con el que hice los cálculos en su día ya no se encuentra en la web 😦

Por el mismo precio, además, podemos identificar grupos naturales de datos («clusters»). Por ejemplo, si representamos las cien distancias más cortas (el 9% del total de distancias) por un enlace, tenemos este mapa:Regiones naturales

…donde se aprecia el aislamiento geográfico de regiones como Galicia, Asturias o Andalucía (¡hasta hemos dado con Despeñaperros!) . Son regiones geográficas naturales, a diferencia de, por ejemplo, Aragón o Castilla-La Mancha.

II – El mapa de proximidades genealógicas

Pero el mayor atractivo de esta técnica es que permite hacer mapas de proximidades abstractas. Basta tener algún tipo de “distancia” entre los datos para construir un mapa con ellos. Los chicos del marketing, que prostituyen todo lo que tocan, lo usan para visualizar las afinidades y diferencias en la percepción de los productos por los clientes. Pero ¿por qué no usar esto para visualizar los apellidos?

Quizá pudiéramos, a partir de los datos del INE que hemos usado en los dos posts anteriores, definir una “distancia genealógica” entre provincias. Y quizá, a partir de esa tabla de distancias, podríamos reconstruir el mapa como acabamos de hacer. Sólo que el mapa que reconstruyamos sería un mapa de proximidades más interesantes que las geográficas: nos indicaría las afinidades históricas y “familiares” entre las distintas provincias.

La idea, y el procedimiento para calcular las “distancias genealógicas”, la expliqué con detalle en un post en el que me preguntaba si ese mapa se parecería más a un Mondrian (como los mapas políticos) o a un Turner (como los mapas físicos…). Y el resultado fue este mapa de proximidades genealógicas:

ProximidadesGenColor

¡Magia de nuevo! ¿Qué podemos concluir de aquí? Para mi gusto, hay una interesantísima mezcla de orden y sorpresa. Orden básicamente geográfico, pero con sorpresas como la posición de Barcelona (explicable seguramente por la alta inmigración) y las más sorprendentes aún de Vizcaya o Segovia. ¿Estamos viendo huellas de antiguas migraciones quizá? (Acepto opiniones).

¿Hay regiones naturales aquí? Si la encontramos, habríamos mostrado (de forma objetiva, no mitológica) que hay comunidades culturales naturales, igual que Galicia o Andalucía eran, objetivamente, regiones  geográficas naturales… Igual que antes,  dibujamos el 9% de enlaces más cortos (pueden no parecer los más cortos sobre el mapa debido a que este tiene errores inevitables para acomodar en dos dimensiones todos los datos):

¿Comunidades naturales de apellidos?

Finalmente, ¿el mapa es un Turner o un Mondrian? Ni una cosa ni otra. La maraña central es, desde luego, como un Turner (habría que decir como un Pollock, pero mantendré la terminología). Pero este núcleo no llega a las provincias de la periferia (periferia genealógica, pero que es en buena medida periferia geográfica).

En el post en el que publiqué esto por primera vez sacaba alguna conclusión, pero prefiero que ustedes saquen las suyas. Sólo quería decir algo que, por otra parte, debería ser ya evidente: si podemos hacer esta minería de datos en un par de tardes con un programa gratuito y sabiendo muy poquito de estadística, imaginen lo que pueden hacer Google o Facebook, con los mejores profesionales, la mayor potencia de cálculo, y todos los datos del mundo a su disposición.

Esta entrada fue publicada en Ciencia, cultura, estadistica, Ideas & Thoughts, Sociedad, Visualización y etiquetada , . Guarda el enlace permanente.

24 respuestas a Un modesto ejercicio de minería de apellidos

  1. Te imaginas lo que sería que los datos que poseen Facebook y Google sobre clicks, me-gustas, tiempos de visualización de páginas, etc, los hicieran públicos como el INE? Bueno, ya sé que esto es ciencia ficción, pero creo que sería una herramienta bastante poderosa para aprender de nosotros como sociedad (actual).

  2. Alex dijo:

    Me lo imagino, y tendrián que cerrar. Ahora viven de venderselo a quién lo pague.

  3. Pingback: Minería de apellidos u otra forma de ver el mapa de España

  4. verdeynegro dijo:

    Hace tiempo oí de un pueblo, no recordaba si de Segovia o Ávila con abundantes apellidos vascos, por curiosidad he buscado un poco y he encontrado esto:
    http://inicioborregon.es.tl/El-Euskera-en-Segovia.htm

    y alguna curiosidad más: http://www.diariovasco.com/v/20110522/bidasoa/sevillana-herrera-casi-apellidos-20110522.html

    Me da que los vizcaínos han sido guerreros y viajeros, entre una cosa y otra ….. y ademaás ya sabes, los de Bilbao nacen donde les dá la gana 😀

  5. Ana dijo:

    Da miedo pensarlo, la verdad, eso de que Google es una especie de Gran Hermano universal, así que voy a intentar no pensar en ello, a riesgo de acabar luciendo la expresión lerda del avestruz 🙂
    ¡Menudo post, señor Pesudópodo, usted sí que se lo curra! 🙂
    Un abrazo admirado.

  6. triglifo dijo:

    Esto me sugiere que podrías hacer un libro o un «paper» titulado: «Fundamentos de Geografía Virtual» 🙂
    Muy interesante.
    Respecto a la relación con internet, creo que se da un fenómeno curioso. Muchos nos quejamos de esta acumulación de datos nuestros en la red pero al mismo tiempo, es gracias a estos datos que otros nos pueden encontrar si tenemos, por ejemplo, un blog o una web. Seguramente se podría proteger más al usuario para que decidiera el grado de privacidad que deseara. En cualquier caso una moraleja que me sugiere todo esto es: «si quieres existir (para los demás) debes hacerte vulnerable».

  7. Aloe dijo:

    Los que ocupan un lugar verdaderamente raro son Cuenca y Segovia. Quizá en tres dimensiones no fuera tan raro. Lo de Vizcaya también es explicable por la alta inmigración durante más de un siglo (desde cuando despegaron la metalurgia y la construcción naval, allá por el XIX) y quizá un poco porque antes de eso el país vasco, y todo el cantábrico, creo. fueron exportadores netos de gente, un chorrito fino pero continuo, debido a su estructura de propiedad y herencia y a que tenían el nivel de instruccíón más alto de la península.

  8. Guajiro dijo:

    Formidable y sorprendente. Sólo queda esperar que el hermano mayor se ofusque entre las infinitas posibles imágenes, cada una de ellas infinitamente multidimensionales y polisémicas, descritas por Borges en su conferencia sobre La Cábala.

  9. Epicureo dijo:

    Fascinante. Casi se puede seguir el rastro de muchas migraciones, antiguas y modernas. Hace tiempo oí que Barcelona era la novena provincia de Andalucía; aquí queda clarísimo. Andalucía y Castilla la Nueva son lo mismo, aquí no hay Despeñaperros: claro efecto de la rápida Reconquista del siglo XIII.

  10. pseudópodo dijo:

    franwerst, que hagan públicos todos los datos sí es ciencia ficción pero no estaría nada mal que la ley les obligara a darte los tuyos… luego cada uno haría con ellos lo que quisiera, pero por lo menos podrías saber lo que saben de ti. Y no sería problema que no supieras estadística, porque surgirían miles de sitios (o empresas) que te harían el trabajo de minería de datos.

    Sobre la privacidad, que mencionan triglifo, bloodykefka/b> y Ana, yo sí soy bastante maniático con ella. Y aun así, creo que Google sabe más de mí que yo mismo. O por lo menos, más que mis amigos. Quizá el problema más grave, me parece a mí, es que quien quiera no poner información suya en la web (no esté en Facebook, en LinkedIn, etc, va a empezar a ser mirado como alguien raro; para nuestros hijos no va a ser una opción tener un perfil bajo en la red. Y entonces tendremos la Aldea Global que decía MacLuhan… con toda la falta de privacidad de las aldeas)

    verdeynegro, gracias por los enlaces, son curiosos. Yo creo que muchos detalles curiosos se pueden explicar efectivamente por migraciones; además de los detalles que dan en el primer enlace que pones, creo que ya alguien había mencionado por aquí que hay unos cuantos pueblos que se llaman Narros y Naharros (navarros) en Ávila y Salamanca, igual que Gallegos y Francos (francos seguramente eran los tatarabuelos de los Martin, que son muy frecuentes en esas provincias…)

    Yo creo que la mayoría son migraciones más antiguas que las que dice Aloe, aunque las más recientes también se notan mucho en la “novena provincia de Andalucía” como dice Epicureo, y en algunos otros casos. En lo que sí tiene razón Aloe es que en tres dimensiones hay algunas anomalías que no lo serían tanto. Ya incluso en el mapa de proximidades geográficas se ven algunas pequeñas anomalías que se explican por eso (hay que tener en cuenta que son distancias por carretera, no en línea recta). Y si se piensa, a priori no tendría por qué salir nada parecido al mapa geográfico 2D… que haya una importante componente geográfica ya tiene interés de por sí.

    Triglifo, pues yo creo que se podrían sacar varios papers, sí… hasta tesis, si los historiadores se molestaran en aprender estadística. Para mí que es un nicho de investigación bastante virgen por lo menos en España.

    Guajiro, Ana: gracias por los elogios. Está currado, sí, pero el trabajo en realidad lo hice hace bastantes años; no sé a qué dedico el tiempo ahora (bueno, en parte sí) que ya no puedo hacer estas cosas.

  11. Asdf dijo:

    En la sección de programas útiles para evitar que google sepa más de ti que tú mismo (y que puede contribuir a que tus hijos tengan un perfil ALGO más bajo si lo usan): https://www.torproject.org/

    Lo que hace es conectarte a unas cuantas IP aleatoriamente, y entonces el trazo es más difícil de trazar. Creo que no encripta la información que viaja, y sé positivamente que si te logueas en un sitio que se sepa que es tuyo, entonces se puede asociar la IP que tengas en ese momento con tu identidad real. Está hecho por gente que parece fiable. Hay para Android (hay que bajarse el Orbot y el Orweb en Android).

    Para encriptar emails y otras comunicaciones también hay programas. Hay más información en la Electronic Frontier Foundation (https://www.eff.org/) y aquí http://basicinternetsecurity.org/

  12. Anon dijo:

    Hay un libro para conocer estas cuestiones: http://www.orbooks.com/catalog/cypherpunks/ que está basado en https://www.youtube.com/watch?v=XRkDUmT_I_w y su segunda parte. De los vídeos hay versión no editada en youtube.

  13. pseudópodo dijo:

    Anon, bloodykefka, Asdf: muchas gracias, me voy a estudiar todo eso.

    • bloodykefka dijo:

      Yo tengo que leermelo más a fondo un día mientras pruebo a instalármelo. Lo que pasa es que soy más perro que un charco y no me pongo.

      • Asdf dijo:

        No se tarda nada. Es realmente muy fácil. Lo mismo que en instalar cualquier otro programa. Y es como usar un navegador pero con el Vidalia mediando. Luego se puede configurar para que todo el internet de tu ordenador vaya por Tor, pero es algo más complejo y no es necesario sólo para navegar (y si haces esto y lees el correo desde tu gestor de correo te pasan cosas raras como que Gmail te pregunte si realmente eres tú porque alguien se ha conectado desde una IP rara 🙂 «Un hacker puede haber entrado en tu cuenta» XD ). Hay que tener en cuenta que internet se va a comportar de forma rara aveces por el tema de los scripts, las cookies y todas esas cosas, pero no es nada insuperable.

      • bloodykefka dijo:

        Por eso me lo quiero leer bien, porque quizás yo quiera darle un uso avanzado… vamos usar esto para todo internet.

    • Asdf dijo:

      Tenemos una actualidad muy relacionada. Dejo esto por aquí por si es de ayuda: http://prism-break.org/

  14. Pingback: Un modesto ejercicio de minería de apell...

  15. Lola Sánchez dijo:

    Has despertado mi curiosidad , soy Lola mujer de sesenta y tres años que vive en Sevilla agrdeceré estar entre tus seguidorxs

  16. Aisdhd dijo:

    Quizá esto pueda ser de interés por aquí: http://dataclysm.org/

Deja un comentario