Google Books Ngram Viewer = Google Books + Google Trends

Probablemente a estas alturas ya hayan oído hablar del último invento de Google, pero si no, el título del post ya se lo ha explicado. Desde 2005 Google Books estaba digitalizando las bibliotecas del mundo entero. Desde 2006 (abril para ser más exactos) Google Trends permitía hacer gráficas de la frecuencia de una búsqueda en Google a lo largo del tiempo, lo que sirve para cosas tan instructivas como averiguar en qué momento Lady Gaga destronó a Britney Spears.

Sólo era cuestión de tiempo (y bien pensado, han tardado bastante) aplicar la tecnología de Trends al contenido de Books para hacer la gráfica de la frecuencia de una palabra en los libros publicados cada año. Ahora podemos comparar a Aristóteles con Platón, lo que sin duda tiene más nivel:

Me enteré de Google Ngram Viewer casi a la vez en varios blogs, y seguro que estos días veremos multitud de comparaciones de lo más ingenioso a lo más peregrino. Aparecerán muchísimas más, y seguro que en unos años la oportuna gráfica de Ngram no va a faltar en ningún ensayo que tenga algo que ver con la historia de las ideas (o de la tecnología, o de la ciencia…) porque la  herramienta es realmente una maravilla.

Pero cualquier herramienta hay que saber usarla, y además, en este caso, es fácil cometer errores si no se tiene alguna costumbre de tratar con datos (pocas advertencias he visto en este sentido, sólo la del imprescindible Data Mining). Lo mejor para explicarlo es usar un ejemplo, y aquí viene muy bien nuestro simpático personaje del post anterior. Supongamos que hubiera querido ilustrarlo con una gráfica de su popularidad, y para ello hubiera tecleado “newton”:

¿No es sorprendente que sólo se hiciera popular a partir de los años cuarenta? Aquí hay algo raro, y podemos darnos cuenta de qué es si buscamos ahora “Newton”:

Y es que a diferencia de Goole Trends, esta herramienta es “case sensitive”. Sin embargo, todo tiene errores, y en un pequeño porcentaje de libros Newton se ha registrado como newton. ¿Por qué sólo en las últimas décadas? Porque el número de libros es muchísimo mayor, y es por tanto más probable que se deslice un número de errores suficientemente grande para ser visualizado. En las gráficas no se ve que hay muchísimos más libros recientes que antiguos porque, con buen criterio, lo que aparecen son las frecuencias de una palabra (escalas en %) y no su número absoluto de apariciones.

Otra cuestión digna de mención es el intervalo temporal de las búsquedas. En la figura anterior lo he extendido para que abarque nada menos que desde el año 1500, la fecha más temprana que se puede buscar. Pero, ¿no es sorprendente que haya referencias a Newton antes de que alcanzara la fama, o antes incluso de que naciera, en 1642? Para averiguar por qué, viene bien hacer clic en la tabla de años que viene bajo la gráfica: así nos enteramos de que había un John Newton, un Thomas Newton, y de que algunos libros que se refieren a nuestro Newton tienen la fecha equivocada (por ejemplo, siendo actuales, la fecha que figura es la de nacimiento de Sir Isaac).

Las épocas más antiguas son en algunos aspectos las más interesantes, pero deberíamos tener mucho cuidado al sacar conclusiones referidas a antes de 1700. Una gráfica demuestra por qué:

He usado aquí unas palabras de control que deberían tener una frecuencia más o menos constante en el tiempo. Las fluctuaciones en los años anteriores a 1700 son ruido: indican que en ese periodo el corpus de libros es escaso y probablemente hay muchos errores en la digitalización (en español ocurre más o menos lo mismo para fechas anteriores a 1750).

Ahora parece que ya estamos en condiciones de medir la popularidad de sir Isaac. Para tener un término de comparación, le mediremos con otros dos gigantes de la física: Galileo y Einstein, y evitaremos el ruido de los datos limitándonos a años posteriores a 1800 y a libros en inglés (que hay más):

¡Newton gana por goleada! Pero quizá hemos sido imprudentes: hemos olvidado que también existen los Thomas Newton y a lo mejor los Rudolf Einstein… Probemos incluyendo los nombres:

El panorama cambia completamente: Einstein ha destronado a Newton a partir de los años 60. ¿Tan importante era Thomas Newton? No, claro, pero hay una razón por la que al ponerle “Isaac” al “Newton” la cosa cambia tanto (y sin embargo, “Einstein” no pierde tanto al anteponerle el “Albert”). Pero no me da tiempo a explicar más. Ya me contarán ustedes su experiencias y sus explicaciones.

Esta entrada fue publicada en Computers & Internet, cultura, fisica, personajes, Visualización y etiquetada , , , . Guarda el enlace permanente.

18 respuestas a Google Books Ngram Viewer = Google Books + Google Trends

  1. r_daneel dijo:

    Así, a bote pronto, me viene a la memoria el telescopio Newton, la unidad de medida Newton, las leyes de la gravitación de Newton……

  2. demairena dijo:

    -el “newton” también puede ser por la unidad de medida, que en los libros técnicos no se molestan en escribir con mayúscula.

    -Leibniz le pega una paliza a Isaac Newton en los últimos 120 años (no pude encontrar otros Leibniz que no sean Godofredo).

    -Descartes les gana por afano!

    -“la” vs. “el”… “feminismo” también le gana a “machismo”.

    Da para seguir revisando, yo usaba la versión que busca y compara entre páginas web, pero éste está buenísimo!!

  3. Joaquín dijo:

    Las gráficas son coherentes. He hecho la prueba con el par: Quevedo / Góngora.

    Platón y Aristóteles se siguen como a la sombra. Es curioso que ahora sea tiempo ligéramente aristotélico, en contraste con hace un siglo.

  4. Franwerst dijo:

    Bueno, supongo que las leyes de gravitación de Newton se las tiene bien merecidas, así que es justo que cuenten a su “favor”. En cuanto al telescopio, si te refieres a los telescopios de tipo Newton (telescopio óptico reflector), de algún modo también son en parte mérito de Sir Isaac. Lo de la unidad de fuerza ya lo veo más como una especie de “lobby” (un tanto afortunado) que seguramente le hace ganar muchas menciones en miles de libros de física e ingeniería. También cuentan a su favor las entradas en (miles de) textos universitarios de matemáticas o de computación (p.ej, el método de Newton-Raphson, etc)

    Creo que por todo esto gana en la actualidad Newton “a secas” frente a Einstein “a secas”.

    Ahora sí, si nos referimos a menciones a los personajes (con nombre y apellidos), Einstein es un icono cultural del siglo XX que además vivió su popularidad en mitad del apogeo mediático (sin contar con que tuvo cierta relevancia durante la II Guerra Mundial lo cual lo incluye en una buena tanda de libros sobre el tema). Sin embargo las menciones a “Isaac Newton” posiblemente se reduzcan a algunos libros física general o de historia de la ciencia.

    Me queda la duda de qué habría pasado si Newton y Einstein hubiesen sido contemporáneos ya que probablemente, a ese pico Newtoniano que aparece a principios del XIX se le sumaría quizás un impacto mediático-cultural similar al de Einstein.

    • r_daneel dijo:

      De hecho la polifacética vida de Newton (científico, alquimista, alto cargo del gobierno,…..), como también se apuntaba en un post de este blog hace poco, en nuestra actual sociedad mediática le habría grangeado toneladas de referencias en libros

  5. pseudópodo dijo:

    Yo creo que es el Newton (unidad de fuerza) el que hace “lobby”, como dice Franwerst, para pegarle el mayor empujón a don Isaac, porque otras menciones son más merecidas (en el sentido de tener una relación más directa con el personaje) y menos extendidas.

    Quería escribir el post sobre todo para advertir de las trampas que tiene esto, porque si uno quiere ser riguroso es realmente difícil desentrañar la mezcla, influyen muchas cosas. Por ejemplo: aunque sólo haya un Lebniz y sólo un Isaac Newton, no se pueden comparar, porque “Isaac Newton” se usará típicamente una vez en un libro y luego se le llamará sólo Newton, mientras que a Leibniz le llamarán siempre Leibniz. JuanPablo (digo, demairena), mira aquí lo que pasa si pones los nombres completos. Pero incluso comparando nombres completos hay efectos sutiles: Isaac Newton es más corto y más pronunciable que Gottfried Leibniz (sin contar con que a éste le llamen Godofredo), etc…

    Es interesante pensar en técnicas más sofisticadas para “descontar” estos factores. De momento, yo echo de menos que nos permitan bajarnos los resultados de la búsqueda en formato hoja de cálculo (dan los datasets pero eso es inmanejable). Eso sería muy útil para comparar por ejemplo resultados según idioma: es muy interesante lo diferente que puede ser la importancia de un autor u otro para unas culturas u otras… pero por desgracia no se puede ver en una misma gráfica. Un ejemplo que me ha llamado la atención: Descartes, Locke, Kant, Marx, Hegel, Nietzsche para los franceses, alemanes, ingleses y españoles

  6. projectcui dijo:

    Muy útiles los tips que has ofrecido Pseudópodo! No me imagine que Marx fuera tan popular, y en todos los idiomas, por cierto!

    Sería interesante probarlo con varias buzzwords, de momento se me ocurre “globalization”

    http://ngrams.googlelabs.com/graph?content=globalization&year_start=1800&year_end=2000&corpus=0&smoothing=3

  7. Marfil dijo:

    Ups, el ultimo comentario era mío, pero me logueé en la cuenta equivocada!

  8. Arvedui dijo:

    apostaría algo a que los hermanos Marx tienen algo que ver con la sorprendente popularidad del apellido 😉

  9. edulcorado dijo:

    No conocia esta pagina tan interesante. del Ngram.
    He escrito una serie de palabras desde 1800 en adelante:
    GOD, MONEY, SEX, HEALTH, LOVE.
    La grafica de Dios se parece a la de” palo de golf” del co2, pero con el maximo en 1800 para caer bruscamente hasta el 2000.
    El resto de las palabras se mantienen , compitendo y confluyendo mas o menos con GOD.
    Solo una, supera con cierta amplitud a GOD. La reina es HEALTH, a partir de 1960. ¿Moraleja?

  10. pseudópodo dijo:

    ¿Lo has metido todo en mayúsculas? Supongo que no, pero ten cuidado. Por si acaso pongo lo que me sale a mí.

  11. edulcorado dijo:

    Moraleja: He cometido un error mayúsculo.

  12. pseudópodo dijo:

    Pablo, no esperaba yo que la felicidad cotizara tan a la baja, y en todos los idiomas. A lo mejor nos estamos dando cuenta de que la felicidad no da la felicidad… Pero, ¿por qué Chateaubriand?

    Edulcorado, de todos modos no eran tan equivocadas tus conclusiones: la salud es el valor en alza, y a mediados del SXIX desbancó a la felicidad, tanto en inglés como en español.

  13. Pingback: TamTam » Books Ngram Viewer

  14. Epaminondas dijo:

    Voy a contribuir con otra búsqueda interesante que muestra la diferencia entre teoría y práctica:
    http://ngrams.googlelabs.com/graph?content=nuclear+fission%2Cnuclear+fusion&year_start=1880&year_end=2008&corpus=0&smoothing=3

  15. Aloe dijo:

    Yo me alegro de que Ari vaya ganando a Platón. Que sea por muchos años.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s