Los apellidos españoles y la ley de Zipf

En el post sobre los apellidos de los españoles enumeraba algunas cuestiones que se planteaban a partir de los datos sobre la distribución de apellidos en España. Una de ellas, la de qué distribución estadística tienen sus frecuencias, se puede responder fácilmente con la siguiente gráfica:

Apellidos_mas_freq

Cada uno de los cien apellidos más frecuentes está representado por un punto, con su frecuencia en el eje x y su rango en el eje y; ambos ejes son logarítmicos (para los enterados, esto es lo que se llama un rank/frequency plot). Entendemos por rango el orden en el “ranking”: 1 para el más frecuente, 2 para el 2º más frecuente, etc (así, García es el punto sobre el eje x con una frecuencia de algo más del 30 por mil).

Salta a la vista que con la excepción de los apellidos más frecuentes (los diez más frecuentes se han representado por puntos azules), la distribución es una recta.

Este resultado se obtiene también en otros idiomas: la siguiente gráfica la de los apellidos en USA (está sacada de este magnífico artículo, que sirve de referencia a todo este post).

family_names_more_freq

Este curioso resultado se obtiene también para la frecuencia con la que aparecen palabras en un texto (ley de Zipf), para la distribución de los tamaños de las ciudades, de las riquezas, de la intensidad de los terremotos, de las guerras, y, en fin, de un sinnúmero de fenómenos.

Todas estas distribuciones son ejemplos de los que se llama leyes de potencias (power laws). Una ley de potencia está caracterizada por un exponente a, que se obtiene sumando 1 a la pendiente (en valor absoluto) del ajuste del rank/frequency plot. En nuestro caso, a = 2.04 (para los apellidos en USA se ha encontrado a = 1.94).

Es curioso que los siete apellidos que siguen a García (González, Fernández, Rodríguez, López, Martínez, Sánchez y Pérez) tienen un comportamiento anómalo, con una pendiente mucho mayor ¿Se debe a que son patronímicos y están reflejando las propiedades estadísticas de los nombres –medievales- más que de los apellidos? No parece, porque los patronímicos más infrecuentes no se salen de la tendencia general.

¿Cuánto vale a para otros países/idiomas? Sorprendentemente, a pesar de que hay toneladas de teoría sobre este tema, no he encontrado muchos datos en la web. En esta referencia, tras la correspondiente dosis de teoría, se dice que “the empirical power-law exponent for names in USA and in Berlin was found to be close to 2 ; for Japanese names is close to 1.75; for Taiwanese names around 1.9; and for Isle of Man names in 1881 close to 1.5” (cuanto más pequeño es el valor de a más concentrados están los apellidos en unos cuantos muy frecuentes) En esta otra también intentan extraer consecuencias sobre la dinámica de la cultura a partir de estos datos.

 

[Nota: ver aquí para otras entradas sobre este tema]

Anuncios
Esta entrada fue publicada en Ciencia, estadistica, Sociedad. Guarda el enlace permanente.

3 respuestas a Los apellidos españoles y la ley de Zipf

  1. JuanPablo dijo:

    ¿estás pensando en armar un articulito (científico) con esto? explicar la anomalía estaría bueno

  2. pseudopodo dijo:

    Hola, Juan Pablo, se nota que eres del gremio… 🙂

    No me importaría ponerme a ello, pero tengo la física estadística bastante oxidada. De todos modos, he hecho algún estudio más sobre esto, si te interesa lo pego aquí y si te sigue interesando acepto sugerencias (y colaboración) sobre el artículo…

  3. Pingback: Zipf por provincias « Pseudópodo

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s