Los apellidos españoles y la ley de Zipf
En el post sobre los apellidos de los españoles enumeraba algunas cuestiones que se planteaban a partir de los datos sobre la distribución de apellidos en España. Una de ellas, la de qué distribución estadística tienen sus frecuencias, se puede responder fácilmente con la siguiente gráfica:
Cada uno de los cien apellidos más frecuentes está representado por un punto, con su frecuencia en el eje x y su rango en el eje y; ambos ejes son logarítmicos (para los enterados, esto es lo que se llama un rank/frequency plot). Entendemos por rango el orden en el “ranking”: 1 para el más frecuente, 2 para el 2º más frecuente, etc (así, García es el punto sobre el eje x con una frecuencia de algo más del 30 por mil).
Salta a la vista que con la excepción de los apellidos más frecuentes (los diez más frecuentes se han representado por puntos azules), la distribución es una recta.
Este resultado se obtiene también en otros idiomas: la siguiente gráfica la de los apellidos en USA (está sacada de este magnífico artículo, que sirve de referencia a todo este post).
Este curioso resultado se obtiene también para la frecuencia con la que aparecen palabras en un texto (ley de Zipf), para la distribución de los tamaños de las ciudades, de las riquezas, de la intensidad de los terremotos, de las guerras, y, en fin, de un sinnúmero de fenómenos.
Todas estas distribuciones son ejemplos de los que se llama leyes de potencias (power laws). Una ley de potencia está caracterizada por un exponente a, que se obtiene sumando 1 a la pendiente (en valor absoluto) del ajuste del rank/frequency plot. En nuestro caso, a = 2.04 (para los apellidos en USA se ha encontrado a = 1.94).
Es curioso que los siete apellidos que siguen a García (González, Fernández, Rodríguez, López, Martínez, Sánchez y Pérez) tienen un comportamiento anómalo, con una pendiente mucho mayor ¿Se debe a que son patronímicos y están reflejando las propiedades estadísticas de los nombres –medievales- más que de los apellidos? No parece, porque los patronímicos más infrecuentes no se salen de la tendencia general.
¿Cuánto vale a para otros países/idiomas? Sorprendentemente, a pesar de que hay toneladas de teoría sobre este tema, no he encontrado muchos datos en la web. En esta referencia, tras la correspondiente dosis de teoría, se dice que “the empirical power-law exponent for names in USA and in Berlin was found to be close to 2 ; for Japanese names is close to 1.75; for Taiwanese names around 1.9; and for Isle of Man names in 1881 close to 1.5” (cuanto más pequeño es el valor de a más concentrados están los apellidos en unos cuantos muy frecuentes) En esta otra también intentan extraer consecuencias sobre la dinámica de la cultura a partir de estos datos.
[Nota: ver aquí para otras entradas sobre este tema]


24 / Noviembre / 2006 en 5:57 pm
¿estás pensando en armar un articulito (científico) con esto? explicar la anomalía estaría bueno
24 / Noviembre / 2006 en 11:42 pm
Hola, Juan Pablo, se nota que eres del gremio…
No me importaría ponerme a ello, pero tengo la física estadística bastante oxidada. De todos modos, he hecho algún estudio más sobre esto, si te interesa lo pego aquí y si te sigue interesando acepto sugerencias (y colaboración) sobre el artículo…
10 / Diciembre / 2006 en 1:48 pm
[...] En un post anterior mostraba como la distribución de apellidos españoles cumplía la ley de Zipf. La gráfica logarítmica de rango-frecuencia se ajustaba por una recta de pendiente -1.04, lo que implica una ley de potencias de exponente a=2.04. [...]