Memoria histórica

Casi nadie se ha dado cuenta de que Google Ngram Viewer funciona con números. Si esos números son años, salen cosas como éstas:

Curioso, ¿verdad? Pero más curioso aún si comparamos la gráfica anterior (para libros en español) con la siguiente (para libros en inglés). Quien sepa mirar, encontrará algunas diferencias muy significativas:

Esta entrada fue publicada en Computers & Internet, cultura, Ideas & Thoughts, Sociedad, Visualización y etiquetada , , . Guarda el enlace permanente.

19 respuestas a Memoria histórica

  1. Federico dijo:

    Parece que el máximo se alcanza después con los libros ingleses. Qué raro. Podría ser que las cosas pasaran de moda más rápido para los que hablamos español. No sé…

  2. Frenzo dijo:

    La forma de las ondas se parece mucho a una curva catódica de un voltagrama, el gráfico obtenido en una técnica muy común en electroquímica donde se hace variar el potencial de electrodo y se registra la corriente (http://wpcontent.answcdn.com/wikipedia/commons/4/4c/Cyclovoltammogram.jpg).

    La corriente está relacionada con una reacción (los electrones, que pasan de un metal a otro medio que tiene un aceptor de electrones, son los reactivos; la velocidad con que pasan es la corriente y está directamente relacionada con la velocidad de reacción). Si uno hace variar el potencial del electrodo, al principio, no pasa nada, pero alcanzado cierto potencial de electrodo, la reacción se dispara y la corriente aumenta rápidamente. Pero los aceptores de electrones que están cerca del metal (electrodo) se agotan bastante rápido y la corriente cae. Pasado el máximo, la cola de la onda es difusional (los aceptores de electrones tienen que difundir hasta el metal para que haya transferencia de electrones y por lo tanto corriente).

    Haciendo una analogía, la noticia de los años nos llega por un proceso difusional, lo cual podría probarse matematicamente graficando Nro de citas vs. t^(-1/2), porque los procesos difusionales (en el caso más simple) caen con la raíz cuadrada del tiempo.

    (Me quedó demasiado técnico el comentario, pero bueno…).

  3. Frenzo dijo:

    (Quise decir: “Me quedó demasiado técnico el comentario, pero, bueno, así salió…”, no que salió bueno.)

  4. eulez dijo:

    La posguerras es lo que tienen. ¡Viva la República!

  5. Pingback: Memoria histórica con Google Ngram Viewer

  6. Perdona que comente aquí mis juegos con Ngram…
    http://ngrams.googlelabs.com/graph?content=Europe,America&year_start=1800&year_end=2000&corpus=0&smoothing=3

    Periodicididad paralela de “America” y “Europe” en inglés.
    Sobre 1885 “America” supera a “Europe”. En español ocurre 10 años antes.

  7. Por cierto:
    http://www.sciencemag.org/content/early/2010/12/15/science.1199644

    We constructed a corpus of digitized texts containing about 4% of all books ever printed. Analysis of this corpus enables us to investigate cultural trends quantitatively. We survey the vast terrain of “culturomics”, focusing on linguistic and cultural phenomena that were reflected in the English language between 1800 and 2000. We show how this approach can provide insights about fields as diverse as lexicography, the evolution of grammar, collective memory, the adoption of technology, the pursuit of fame, censorship, and historical epidemiology. “Culturomics” extends the boundaries of rigorous quantitative inquiry to a wide array of new phenomena spanning the social sciences and the humanities.

  8. Pingback: Tweets that mention Memoria histórica « Pseudópodo -- Topsy.com

  9. Javier dijo:

    Acabo de comprobar que la terna Bach-Beethoven-Mozart gana por goleada a los demás compositores clásicos populares (aunque Schumann casi se les acercó en un momento determinado). Comenzó el siglo XX siendo más beethoveniano, pero en los 50, coincidiendo con la caída del interés por la música clásica fuimos haciéndonos bachianos.

    La clásica batalla decimonónica entre lo nuevo (Wagner) y lo tradicional (Brahms) la ha ganado Wagner. (Lo mismo se demuestra también comparando a Richard Wagner con Johannes Brahms.)

    Cervantes y Shakespeare ganan siempre en casa, el uno en español, el otro en inglés. Los hispano-parlantes “creemos” que Goya es mucho más importante que Velázquez, hecho que no está nada claro en inglés. (Esto tiene lecturas bien interesantes y las fechas de alternancia en inglés, también.)

    Las posibilidades lúdicas de este invento son infinitas.

  10. pseudópodo dijo:

    Alberto, precisamente en ese artículo leí lo de buscar años: no se me ocurrió a mí 😉 Lo que sí se me ocurrió fue comparar una serie de años que contuviera 1936, para ver si se notaba que ese año era distinto… y sí se nota, como bien ha visto eulez (hacía falta reunir las condiciones de ser físico y ser español para darse cuenta, está claro): mientras que todos los años tienen un decaimiento característico, el de 1936 es más lento y se reactiva incluso a partir de los 70. Es una pena que no dejen cambiar la escala vertical porque se vería muy bien, pero puede apreciarse si nos fijamos en el 2000: lo lógico es que la popularidad tuviera el orden inverso a la antigüedad, sin embargo el ranking es: 1986, 1976, 1936, 1966, 1956, 1946, 1926, 1916. Está clarísimo que se ha colado un intruso… Si comparamos con las gráficas en inglés, el orden es el esperable.

    Sobre la forma, es cierto como dice Federico que parece haber alguna diferencia entre las españolas y las inglesas, lo curioso es que las de los otros idiomas son más parecidas a las españolas. Lo único que se me ocurre es que el corpus de libros es mucho mayor en inglés y quizá eso pueda influir, quizá porque hay libros más variados, aunque tampoco veo claro por qué.

    Es curioso también que cada vez suban hasta más alto las curvas, eso parece indicar que cada vez tenemos más tendencia a usar fechas.

    Pero quizá lo más curioso es la propia forma de la gráfica. Tiene lógica pero no habría esperado que fuera tan repetitiva y tan universal. Frenzo, no sé si se puede traducir a términos sociológicos o psicológicos el mecanismo de la curva catódica (no lo veo fácil). Es una faena que no pueda uno bajarse los datos para hacer la gráfica que dices (u otros estudios por el estilo), pero a ojo el parecido es sorprendente.

    Javier, con este invento puede uno perder tardes enteras, es una gozada. Pero no sólo tiene posibilidades lúdicas, léete el artículo que enlaza Alberto y verás que están empezando a hacer ya bastante trabajo serio. Lo de la Culturomics va a ser un boom.

    Por cierto, una búsqueda que me tiene fascinado y que gustará a los matemáticos: ésta. Miradla, por favor, y decidme si a alguien se le ocurre una explicación.

  11. pseudópodo dijo:

    Otro ejemplo más previsible pero divertido: las cifras del 0 al 9

  12. Frenzo dijo:

    Lo que más llama la atención es la cola exponencial de la onda, que induce a pensar que los sucesos del pasado difunden por caminos aleatorios hasta llegar a los libros actuales. Cada año se suceden una cantidad de eventos que obstruyen el camino de los más antiguos a la actualidad; los eventos antiguos tienen que difundir a través de los nuevos, y de ahí que sus menciones decaigan con una forma característica. Por supuesto, también hay eventos particulares que siguen caminos diferentes, que pasan por un canal en lugar de mezclarse con los más nuevos.

  13. Javier dijo:

    Me aventuro a dar una pseudoexplicación de la frecuencia de “3.1415”. La caída en frecuencia desde mitad del siglo XX es (de esto estoy casi seguro) debida a la irrupción progresiva de sistemas de cálculo (calculadoras, ordenadores, etc) que incluyen al número pi en memoria y por tanto no requieren aproximación.
    Los dos picos del Siglo XX son más difíciles de explicar aunque, por colocación, corresponden a épocas de mucho desarrollo tecnológico (más que científico) antes y durante sendas guerras mundiales.

  14. pseudópodo dijo:

    Frenzo, eso ya es un esbozo de teoría de la memoria colectiva, sí señor. Yo recuerdo haber leído que sociólogos o economistas habían estimado cómo decae con el tiempo nuestra valoración de las cosas futuras pero no que se hubiera cuantificado el olvido. Habría que ver qué forma tienen realmente esas curvas, si son exponenciales o no…

    Javier, lo que me sorprende es que los picos están clavados en las guerras mundiales. Quizá en Google Books han digitalizado un número desproporcionado de manuales técnicos del ejército… La caída en frecuencia a partir de mediados del XX puede ser por lo que dices, aunque si buscas con un decimal más, 3.14159, tiende a aumentar. Lo he comentado a los microsiervos y tampoco ha salido mucho en claro.

  15. Aloe dijo:

    La tercera diferencia que yo veo entre ambas gráficas es que la trayectoria de los picos máximos es siempre creciente en inglés (con la excepción de 1946, probablemente por el reciente fin de la IIGM) y en cambio la española tiene forma de U: hasta el 66 no se alcanza el nivel del 36.
    Supongo que ese hecho refleja que la posguerra de nuestra guerra civil duró económicamente unos 25 años, pues de hecho tampoco se recuperó el nivel de PIB previo a la guerra, medido como fracción del promedio europeo, hasta los primeros sesenta, a pesar de que la posguerra en Europa empezó seis años después.
    No obstante, la bajada de 1916 a 1926 es más difícil de explicar. En esa década no hubo una crisis económica fuerte, como si la hubo en los años 30.

  16. pseudópodo dijo:

    Aloe, es verdad que es llamativa la tendencia que señalas, pero no le encuentro una explicación clara. He probado con otras terminaciones distintas de 6 y parece bastante similar, pero lo curioso es que en cada idioma los picos tienen una envolvente distinta: en inglés es creciente, en francés más o menos se mantiene constante, en español se ve la U… lo que no creo que tenga que ver con los factores económicos que mencionas. No olvides que lo que vemos en la gráfica son frecuencias de palabras, así que no influye que se publiquen menos libros. Una cosa curiosa que me he encontrado es el efecto brutal de la SGM en Alemania. Comparado con eso, en el 36 no pasó nada…

  17. Aloe dijo:

    Entonces no he entendido bien. Si las frecuencias son sobre el total de libros de cada año tú tienes razón, pero entonces ¿que hay que concluir? ¿Que algunos años los libros no llevan la fecha de publicación y otros años śi? ¿Que según qué becario escanee escanea la guarda (o como se llame la primera página donde está la referencia editorial) o no lo hace? Porque si no, entonces, no debería haber variaciones.
    Yo había entendido que el porcentaje era sobre el periodo total, pero reconozco que no me he estudiado el asunto bien.
    (he hecho pruebas sobre toda la dećada de los veinte y no hay una tendencia clara,durante ella, me parece).

  18. Aloe dijo:

    Mejor dicho, no debería haber variaciones marcadas. Además de la fecha de publicación, el año se cita en otros contextos. Pero no me cabe en la cabeza que unos años se cite el año corriente a esgalla, y otros años se cite mucho menos.
    Si las frecuencias son sobre los libros publicados ese año, lo normal es que tengas una mención mínimo por libro. Y además las menciones al año corriente que correspondan (y a los otros años, pero habalmos de los picos, que se dan ese año y los vecinos), que no parece que debieran cambiar así de frecuencia.
    ¿hay un sesgo enorme por anuarios y otras estadísticas? En ese caso, me temo que también la pobreza de esos años se debe a lo mismo que yo decía, pues las estadísticas brillaron por su ausencia en España hasta hace dos telediarios. Y en la laaaaaarga posguerra, más.

  19. pseudópodo dijo:

    Aloe, lo que se representa en la gráfica es el número de veces que aparece la palabra en cuestión (1936, por ejemplo, se considera una palabra) dividido por el número total de palabras que aparecen en los libros editados cada año. Si todos los libros llevaran impresa la fecha de su publicación, y ese número no apareciera en ningún otro sitio, está claro que en el año 1936 la “palabra” 1936 aparecería exactamente tantas veces como libros se publicaron. Si cada libro tuviera 10^5 palabras eso representaría una frecuencia de 10^-5 o sea, 0.001%. No habría variaciones marcadas de un año a otro porque el tamaño medio de los libros no puede variar excesivamente.

    Pero obviamente ese número no sólo aparece en la fecha de publicación en la primera página: por ejemplo, todas la veces que aparece la palabra “1936” en años que no son 1936 lo hace en otros contextos, y eso es lo que es significativo. Lo que se ve en la gráfica es que un año determinado (por ejemplo, 1966) aparece en los libros con mucha frecuencia tres o cuatro años después (por ejemplo, hacia 1969) y luego las menciones al año van siendo más infrecuentes, conforme va quedando en el pasado. Salvo años especiales como el 1936 en España o el 1945 en Alemania, que se siguen mencionando más de lo que sería de esperar incluso cuando ha pasado mucho tiempo. De hecho, esto sería una manera objetiva (y seguro que alguien acabará haciéndolo) de definir la importancia de un año determinado.

    Bueno, no sé si con esto habrá quedado más claro.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s