¿Nos librarán Google y Hirsch de la endogamia?

No, obviamente. Los problemas sociales (o morales) nunca tienen soluciones técnicas. Pero a veces la técnica ayuda. Antes de explicar cómo podrían ayudar Google y Hirsch (y por supuesto, antes de explicar quién demonios es Hirsch) tengo que hacer una pequeña disgresión.

Desde hace tiempo se vienen usando las publicaciones como medida del mérito de un científico. No vale cualquier publicación, sino aquellas en las que los artículos son sometidos a “revisión por pares“. En la práctica, son las revistas indexadas por el ISI (Institute for Scientific Information).

Lo bueno de las publicaciones está en que, en principio, pueden dar una medida objetiva del mérito: al fin y al cabo, no son los amiguetes del candidato los que aceptan sus artículos en Nature, y los trabajos publicados son públicos y todo el mundo puede juzgar su calidad.

La idea está bien establecida desde hace tiempo, pero su aplicación efectiva nunca ha sido sencilla. Hasta no hace mucho, era bastante difícil saber las publicaciones (los “papers”, que se dice) que tenía alguien: estaban en las bibliotecas, pero no había una manera directa de encontrarlas (podríamos decir que buscar todos los artículos escritos por una persona era un problema inverso, difícil por definición). Cuando un tribunal tenía que juzgar a un candidato, buscaba estas publicaciones en el curriculum y generalmente contaba el número de papers: a más papers, más méritos.

Este número era, obviamente, un indicador bastante burdo de la calidad del trabajo. Recuerdo que John Maddox, que fue muchos años editor de Nature, decía que un indicador mejor sería el peso en gramos de las publicaciones… Con el tiempo (yo diría que en España fue en la década de los 90) se fue generalizando el uso del “Factor de impacto” para distinguir revistas buenas de revistas del montón. La idea es que las revistas buenas son más influyentes y sus artículos más citados que los de las otras, de modo que el ISI calcula para cada una un “Factor de impacto” que es el número medio de citas que reciben sus artículos (en los dos primeros años tras su publicación). En los tribunales empezó a consultarse el JCR (Journal Citation Reports), la publicación anual que recopila estos índices, y a menudo la figura de mérito ya no era el número de papers, sino el impacto total: cada paper sumaba como el factor de impacto de la revista. Un miembro del tribunal ya lo tenía más difícil para defender a alquien que sólo hubiera publicado en el Journal of Irreproducible Results

La irrupción de las bases de datos tuvo un efecto importante: convirtió en un problema directo la búsqueda de los papers de un autor. Así, todos los candidatos a una plaza podían saber por anticipado qué papers tenían los demás (si tenían acceso a tales bases de datos en su institución, lo que en seguida fue la norma). Ahora ya los casos de tongo empezaban a ser más visibles, también desde fuera del tribunal.

No hubo que esperar mucho tiempo para que las bases de datos dieran una información fundamental: no sólo el número de citas promedio de cada revista, sino las citas que de hecho había recibido cada paper: ahora ya juzgamos al artículo en sí, no la revista en que fue publicado. Evidentemente esto es más realista. Pronto las bases de datos del ISI fueron accesibles por internet, de modo que cualquiera podía conseguir esta información sin salir de su despacho.

Ahora dos avances, uno teórico y otro de nuevo técnico (y por fin aparecen Google y Hirsch) parece que van a dar el empujón definitivo hacia la transparencia.

El avance teórico es el indice h de Hirsch. Oí hablar de él por primera vez hace algo más de un año, aquí (más información aquí, en la Wikipedia, y en la página de D. Jorge Hirsch -es argentino- que incluye un enlace al paper original donde propone su índice).

La definición es la siguiente: un autor tiene un h = n si tiene n papers que son citados n o más veces. Es decir: se ordenan los papers por orden decreciente de citas recibidas. Se va bajando por la lista. El número de orden crece y el número de citas disminuye. El último paper para el que las citas superan al número de orden da el índice h.

La principal ventaja práctica de esto es que con las bases de datos del ISI se calcula en treinta segundos. Muchísimo menos de lo que se tarda en sumar índices de impacto. De hecho, hace tan fácil comparar los méritos de dos científicos que estoy seguro que se va a convertir en una rutina mirar esto cada vez que oyes hablar de un colega… (el índice h tiene también otras ventajas teóricas, que no tengo tiempo de explicar aquí).

El avance técnico es, por supuesto, Google Scholar: ya no hace hace falta estar suscrito al ISI para saber cuantas citas tiene un paper. Y, claro está, ya hay quien se ha puesto a calcular índices h a partir de los datos de Google Scholar. Yo he probado dos aplicaciones:

  • Publish or perish es un ejecutable (ocupa muy poco) que calcula h a partir de Google Scholar.
  • HView visualizer es una página web: hacen una gráfica sin tener que instalarse nada en el ordenador.

Por lo que he visto, Google Scholar todavía da bastantes errores comparado con el ISI: no menciona papers con muchas citas; subestima las citas de los antiguos…pero al hacer una prueba un poquito más sistemática me ha sorprendido que en términos generales da resultados aceptables. En esta gráfica se comparanlos valores de h obtenidos con uno y otro método para diversos autores en el área de ciencias físicas:

h_index.jpg

Ahora la cuestión es: ¿usarán los tribunales estas herramientas? Mi apuesta es que se resistirán como gato panza arriba, pero cada vez será más difícil de justificar el que se ignoren.

Anuncios
Esta entrada fue publicada en Ciencia, Universidad. Guarda el enlace permanente.

6 respuestas a ¿Nos librarán Google y Hirsch de la endogamia?

  1. ¿Por qué van a utlizar estas herramientas cuando, hasta el momento, no han utlizado otros indicadores más sencillos?

    —>

    Un apunte, por el placer de ser quisquilloso.

    Tal y como presentas la gráfica comparativa del h según Google y según ISI parecería que es casi irrelevante qué medio de cálculo emplear, puesto que la correlación es muy alta. Ahora bien, creo que en contextos aplicados (en un tribunal) las decisiones tomadas podrían variar de un modo importante según la fuente empleada.

    Tú has presentado un rango de valores de h muy amplio. Lo común no es que el personal tenga valores de h próximos a cien. Has inflado la varianza y a más varianza, más correlación.

    Sin embargo, en un proceso de selección para una plaza el rango de valores de h de los CVs será mucho más pequeño. Quien quiere ser ayudante es poco probable que tengo un h alto. Los que quieren ser catedráticos lo más probable es que tengan valores de h que de lo más elevados en su campo.

    Cuando uno hace una correlación en valores que van de cero a cien, un valor pronosticado de 10, cuando el valor real es de 15, deja un residuo muy pequeño. La correlación puede seguir siendo alta. Sin embargo, cuando todo el mundo tiene h de entre cero y veinte, esos errores de predicción pueden cambiar completamente las decisiones.

    A tu gráfica la falta ‘validez ecológica’. 😉

  2. JuanPablo dijo:

    puestos a elegir, me quedo con el h. La diferencia en los casos de índices bajos puede ser porque el h+scholar cuentan por ejemplo libros, capítulos de libros, tesis, proceedings de congresos, reportes, apuntes de cursos,… mientras el ISI sólo mira ciertos journals preseleccionados que además deben pagar para figurar. Para alguien que está empezando, tener esas cosas o no tenerlas es un indicio a considerar

  3. pseudopodo dijo:

    No te creas, Topo, el índice h es lo más sencillo que hay (de calcular, aunque el concepto pueda ser más sutil). Pero claro, si no se quiere usar, da lo mismo.

    Sobre tu quisquillosa observación, pues tienes razón 😉 Para tener un intervalo lo más amplio posible he tenido que meter a Edward Witten (no hay mucha gente con h>100) y a otras cuantas vacas sagradas. Mis conocidos están en la parte de abajo de la gráfica (ahí estoy yo mismo, pero nunca me arrancaréis qué punto soy).

    Así que estoy de acuerdo contigo en que no se debería usar el h de Google para juzgar a un individuo, al menos mientras tenga esos errores. Pero a lo que voy es a que seguramente se convierta en una referencia que fuerce mayor transparencia, y probablemente además mejore (porque estos chicos de Google son listísimos).

    Juan Pablo, es verdad lo que dices, Google Scholar cuenta cosas que el ISI no cuenta. Lo que pasa es que no se sabe con qué criterios Google mete unos trabajos y otros no (me he encontrado algún caso inexplicable…), y mientras eso no cambie el ISI seguirá siendo el el estándar. Luego también las citas de los artículos antiguos salen subvaloradas en Google, pero eso importa sobre todo a los ya consagrados.

  4. pseudopodo dijo:

    Actualización: artículo en Madri+d sobre aplicación de h en España

  5. Pingback: El ministro que tuneó su CV « Pseudópodo

  6. Carlos Y. dijo:

    Una matización: lo correcto es escribir ‘digresión’, no ‘disgresión’.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s