Archivos de la categoría ‘estadistica’

La uniformidad y el gas ideal

10 / Abril / 2008

En el post anterior criticaba la “superstición de la uniformidad”, y terminaba diciendo que “puede ocurrir que unas reglas del juego perfectamente justas e igualitarias produzcan un resultado muy alejado de la uniformidad, incluso cuando todos los jugadores sean idénticos”.

Probablemente el ejemplo más sencillo de este caso es el de las moléculas de un gas ideal. No puede haber sociedad más igualitaria: todas son idénticas y todas se tratan con todas (su trato consiste en chocar elásticamente, pero no se puede pedir mucho refinamiento a una molécula). Parece que, dadas estas condiciones, todas deberían tener la misma energía. Pero no es así: en realidad, podemos encontrar moléculas con cualquier valor de energía.

La energía tiene una distribución estadística que fue encontrada por primera vez por J.C. Maxwell. Esta es su gráfica:

En el eje horizontal figura la energía, en unidades adecuadas; en el eje vertical, representamos un valor f(E) que mide la probabilidad de tener esa energía. Los valores muy altos de energía son muy improbables, pero la probabilidad no llega a ser nunca estrictamente cero.

Vamos a considerar moléculas “ricas” al 20% que tiene más energía (son las que están por encima del “nivel de riqueza” Nr marcado en la gráfica) y moléculas pobres al 20% menos energético (por debajo del “nivel de pobreza” Np). Aquí no se cumple el principio de Pareto, porque resulta que el 20% de moléculas ricas posee el 46% (y no el 80%) de la energía total, pero no deja de ser un reparto claramente desigual (quizá parece más desigual si lo presentamos diciendo que el 20% de moléculas pobres posee sólo el 3,7% de la energía total). (more…)

Qué hace un físico con las estadísticas del blog (y 2)

16 / Febrero / 2008

Acabé el post anterior diciendo que hay un modelo que describe muy bien las estadísticas del blog. A la vista de la gráfica de visitas frente a antigüedad esto parece difícil: ¿cómo reproducir esa nube de puntos tan irregular?

La clave está en simplificar nuestro enfoque y olvidarnos de la variable tiempo, es decir, del eje horizontal. Lo único que quedan entonces son puntos agrupados más o menos densamente a distintas alturas del eje vertical. Y lo que vamos a estudiar es esa densidad, es decir, la distribución estadística de la variable “número de visitas”.

Antes de poner los datos, es instructivo pensar en lo que debería salir. Parece razonable que hubiera un número típico de visitas y que fueran raros los puntos con mucha más o con muchas menos.

Esto ocurre en infinidad de situaciones: la magnitud tiene una escala característica y cuanto más nos alejamos de ella, más difícil es encontrar casos. Por ejemplo, la altura media de un grupo de personas puede ser 1,65. Entonces habrá menos gente que mida 1,50 o 1,80, menos aún que mida 1,35 o 1,90, etc. En un histograma, esto da el clásico perfil en forma de campana que todo el mundo conoce.

Bien, pues aquí está el histograma del número de visitas (hemos hecho “cajas” de 50: la primera barra es el número de posts que tienen entre 0 y 50 visitas, etc; he cortado la gráfica en 1800 porque aunque hay valores mayores son muy escasos):
histpost.jpg

La mayoría de los posts tienen pocas visitas, y tener más y más visitas es más y más improbable. No hay un máximo central: no hay escala característica. Esto es sorprendente y aparentemente muy poco “físico”. De hecho, los primeros ejemplos de este tipo de distribución que se encontraron parecían más bien folklóricos: la famosa ley de Zipf, por ejemplo, que se refiere a la distribución de palabras en un texto. La analogía es: palabras = posts, veces que aparece una palabra = visitas a un post. La mayoría de las palabras aparecen muy raras veces, y hay muy pocas palabras que sean muy frecuentes.
(more…)

Qué hace un físico con las estadísticas del blog (1)

14 / Febrero / 2008

¿Qué hace la gente con las estadísticas de su blog? Todo depende del carácter y la formación de cada uno. Casi todos curiosean; algunos, con el ego típico del gremio, las publican ;-) ; y luego estamos los físicos, que queremos entenderlas. Voy a explicar cómo.

Para entender cualquier cosa (por ejemplo: ¿qué es lo que hace que unos posts tengan más éxito que los otros?) siempre empezamos haciendo una gráfica:
posts3.jpg

Aquí cada punto es un post y hemos representado su número de visitas en función de su antigüedad (la llamaremos A). Obtenemos una bonita nube (en forma de pez, diría yo), en la que ya se ve alguna cosa interesante.
(more…)

Grandes éxitos

12 / Febrero / 2008

Hasta hace poco, no había manera en WordPress -o yo no la conocía- de saber cuales son los post más vistos del blog (los que aparecen enlazados en la columna de la derecha se refieren sólo a los dos o tres últimos días). Ahora hay una opción de resumen de estadísticas que da justo esa información y otras cuantas. Así que (¡tachán!) aquí está el ranking de los 15 primeros:

[01] 100% estadounidense 6,376  
[02] Los 10 mejores libros de ciencia 2,841  
[03] Los 10 libros para leer antes de los 18 2,825  
[04] Los apellidos por provincias: proximidades genealógicas 2,258  
[05] Los nombres y apellidos españoles 2,046  
[06] Fútbol: 69 veces más importante que las letras 2,015  
[07] El cuarto invento del reverendo Farish 1,600  
[08] Video: La caída del puente de Tacoma 1,515  
[09] Una demostración de la invisibilidad de lo inmóvil 1,506  
[10] El reto de los hijos difíciles, por Juan Jesús Aznárez 1,265  
[11] Oración por la dignidad del hombre de Pico della Mirandola
1,126  
[12] Las tres clases de vida según Aristóteles 1,065  
[13] Antología de bodrios (V): Sexo, mentiras y bluetooth 1,000  
[14] Autorreferencia 969  
[15] El espejismo de Dios 923  

Y ¿por qué han tenido estos post más éxito que otros? (more…)

¿Un nuevo concepto de probabilidad?

24 / Enero / 2008

La idea de probabilidad parece bastante inocua, pero no lo es. Se ha escrito muchísimo sobre filosofía de la probabilidad, y todavía hay un debate no resuelto entre las distintas escuelas: la clásica de Laplace, la logicista de Carnap, la frecuencista de von Mises, la propensionalista de Popper, la subjetivista de Ramsey…

El caso es que ahora parece haber aparecido un nuevo concepto de probabilidad, apadrinado nada menos que por nuestro presidente del Gobierno. En la entrevista que Jose Luis Rodríguez Zapatero concedió a Pedro J. Ramírez y que se publicó en El Mundo el 13 de enero pasado encontramos este diálogo:

PedroJ: Usted me dijo que si acudía al Parlamento y decía “Señores, voy a abrir un diálogo con ETA” es porque habría llegado a la conclusión de que existía “una alta probabilidad” de que ETA dejara las armas. Después usted ha dicho que si había “una mínima posibilidad” habría que intentarlo. ¿No se hizo usted trampas en el solitario?

ZP: Alta probabilidad… mínima probabilidad… Había una probabilidad. En un proceso de estas características el que exista una alta probabilidad de éxito no quiere decir que no sea extraordinariamente difícil llegar a consumarla.

De verdad que lo he pensado mucho y sigo sin entenderlo. Pero la verdad es que tampoco entiendo a Carnap. :roll:

“En prisión por errores matemáticos”

8 / Julio / 2007

Hace unos meses conté el caso de Sally Clark, condenada a cadena perpetua en Inglaterra por matar a sus dos hijos, absuelta despues, y que finalmente se suicidó, incapaz de superar la pérdida de sus hijos y el linchamiento moral de la prensa.

Los hijos de Sally murieron ambos siendo bebés, con dos años de intervalo entre ellos. El principal argumento de la acusación era estadístico: un “experto” testificó que la probabilidad de que las muertes fueran accidentales era de 1 entre 73 millones. Pero la estadística era errónea, a dos niveles: la probabilidad de muerte accidental era mucho mayor, y el experto cayó en la “falacia del fiscal“: no entender que lo que cuenta para rechazar una hipótesis no es su probabilidad absoluta, sino la relativa en comparación con las hipótesis alternativas. En este caso, las muertes accidentales son muy improbables, pero la alternativa (que sean crímenes) es más improbable todavía.

Pues bien, me he enterado (vía Tecnocidanos) de un caso muy similar en Holanda. Ahora se trata de una enfermera, Lucia de Berk, condenada en 2003 a cadena perpetua por siete asesinatos consumados y tres en grado de tentativa. De nuevo tenemos a un presunto experto testificando que la probabilidad de que se trate de accidentes es astronómicamente pequeña (en este caso, 1 entre 342 millones), y de nuevo tenemos los dos errores del caso de Sally Clark: la probabilidad de muertes accidentales no es en realidad tan pequeña, y se ha identificado esa probabilidad con la de inocencia, cayendo miserablemente en la falacia del fiscal.

El paralelismo se acentúa por el papel de los auténticos expertos. En el caso de Sally Clark, la Royal Statistical Society sacó una nota oficial para explicar los errores que había cometido el presunto experto que testificó . Este gesto sin precedentes contribuyó a reabrir el caso y a la postre a aclarar su inocencia. En el caso de Lucia de Berk, el filósofo de la ciencia Ton Derksen denunció la falacia del fiscal, y varios prestigiosos estadísiticos cuestionaron la estimación de 1 entre 342 millones. Parece ser que se llegó a este número multiplicando los valores p calculados para los tres hospitales en los que había trabajado la enfermera. Pero estos valores no se combinan así, sino de una manera más complicada. Aunque parezca mentira, los cálculos rehechos por Richard D. Gill, de la Universidad de Leiden, dan un probabilidad de 1 entre 9 de que se trate de accidentes.

La cosa ya ha llegado incluso al Nature, que le dedicó un artículo de dos páginas el pasado mes de enero. La revista de ciencia más prestigiosa del mundo lo tenía claro: concluía diciendo que “Lucia de Berk languidece en prisión, muy posiblemente por errores matemáticos”.

La ignorancia en estadística puede matar

20 / Abril / 2007

El 15 de marzo pasado ha muerto Sally Clark. Ningún medio en español ha dado la noticia. Y sin embargo, su historia merece ser conocida, y hay varias lecciones que todos deberíamos aprender de ella. Pero antes de contarla, tenemos que ponernos en un caso hipotético.

Supongamos que usted forma parte de un jurado. Tiene que juzgar un caso difícil: una madre a la que se acusa de asesinar a sus dos hijos recién nacidos. La defensa argumenta que se trata de dos casos de “muerte súbita del lactante”, un fenómeno sin causa conocida que afecta a uno de cada 8500 nacidos.

Con estos datos, usted razona que la probabilidad de que esto ocurra en dos ocasiones es de 1 entre 85002 (=73 millones). Y por tanto la probabilidad de que la acusada sea inocente es de 1 entre 73 millones. Esto es tan inverosímil que, en conciencia, tiene que votar “culpable”.

Bien, pues resulta que no se trata de un caso hipotético. Es el caso de Sally Clark, que fue juzgada en Inglaterra en noviembre de 1999, acusada del parricidio de sus hijos Christopher (muerto en 1996), y Harry (en 1998). Ocho de los diez miembros del jurado razonaron como usted y Sally fue condenada a cadena perpetua.

Tres años después fue puesta en libertad al revocarse la sentencia, que fue calificada de “uno de lo mayores errores judiciales de la historia moderna de Gran Bretaña”. Para Sally fue demasiado tarde. No consiguió sobreponerse a su desgracia. El pasado 15 de marzo apareció muerta en su casa.

(more…)

¿El YouTube de los datos?

16 / Diciembre / 2006

Me entero via DataMining del lanzamiento de Swivel, una web que promete ser el YouTube de los datos. Parece interesante, pero habrá que verlo. Desde luego, enlaza con lo de open data para open access que decía Antonio Lafuente

El mapa de proximidades genealógicas: ni Turner ni Mondrian

12 / Diciembre / 2006

Tras el post anterior sobre el escalado multidimensional la cosa estaba clara: esta técnica nos puede dar el mapa que buscábamos en nuestro estudio de los apellidos españoles por provincias, es decir, un mapa en el que las distancias se correspondan con las distancias genealógicas.

Aquí está el mapa [click para ver bien]:

Mapa de distancias genealogicas por multidimensional saling

¿Qué podemos concluir de aquí? Para mi gusto, hay una interesantísima mezcla de orden y sorpresa. (more…)

La estadística (multivariada) hace magia

9 / Diciembre / 2006

Tómese un mapa de carreteras. Destrúyase, salvo la primera página con la tabla de distancias entre las principales ciudades. ¿Hay alguna manera de reconstruir el mapa?

Dicho de otra manera: es evidente que el mapa determina las distancias, pero ¿determinan las distancias el mapa? Parece claro que no. La tabla contiene mucha menos información que el mapa; en particular, no contiene información espacial, no es más que una lista de números.

Aquí viene la magia. Lo cierto es que la tabla conserva la información espacial, pero, por así dercirlo, en forma latente. Hay una técnica de la estadística multivariada que es capaz de revelar la figura oculta en la lista de números. Se llama escalado multidimensional (multidimensional scaling). Hay que decirle al algoritmo en cuantas dimensiones van a estar nuestros puntos y los coloca de modo que sus distancias mutuas reproduzcan, en la medida de lo posible, las que hemos dado.

Me he tomado el trabajo de copiar a un archivo las distancias en km por carretera entre las capitales de provincia españolas. Hay 50 capitales no insulares, así que son 1225 datos (¡todo sea por la estadística recreativa!). Pero el resultado merece la pena. Dejamos trabajar al algoritmo et voila!:

Mapa de distancias geograficas por multidimensional saling

¿Es o no magia? [pinchar en la imagen para verla bien] (more…)