jueves, 8 de noviembre de 2012

Culturomics


Cinco millones de libros
Por Adrián Paenza


En la era digital se pueden hacer cosas maravillosas, impensables hace nada más que diez años atrás. Podría exhibir múltiples ejemplos, pero me quiero detener en un episodio que ha merecido solo una atención tangencial/marginal en los medios. Me refiero al intento de digitalización de todos los libros que se han escrito hasta acá. Lo quiero escribir otra vez, para darle tiempo a que usted pueda pensar la frase: se trata de digitalizar todos los libros que se hubieran escrito en la historia de la humanidad.
Antes de seguir, tengo una pregunta para hacerle: ¿cuántos libros cree usted que son todos los libros? Por supuesto se trata de imaginar un número aproximado, y encima “dinámico”, porque mientras usted lee y yo escribo, esa cantidad está cambiando continuamente. Con todo, la estimación ronda los 130 millones en los últimos 600 años. Como era previsible... son muchos.
Hay un proyecto que encabeza Google (1), conocido con el nombre de Proyecto Google Books (Google Libros). Cientos de personas que trabajan en Google están digitalizando desde el año 2004, las colecciones de 40 de las bibliotecas más grandes del mundo, como también los libros que directamente les envían las editoriales.
Por supuesto, el proyecto de Google se complementa con lo que ya sucede en Internet. Indexar y agrupar todas las páginas de Internet, si bien es una tarea ciclópea, no tiene la antigüedad que ofrecen los libros, y además, ya está todo en formato digital. De todas formas, ¿de cuántos años estaríamos hablando? ¿Veinte? Digamos veinticinco para fijar las ideas. Pero el libro como tal, en forma articulada, existe desde 1440, cuando Johannes Gutenberg inventó la imprenta. Desde ese momento, la palabra escrita se masificó y la cultura comenzó a estar al alcance de todos. Sé que esto es una suerte de fantasía, porque no todo el mundo tiene acceso a alfabetizarse pero, en todo caso, lo que pretendo decir es que desde ese momento, las herramientas de comunicación ya estaban disponibles.
Hasta marzo del 2012, ya se llevaban digitalizados más de 20 millones de libros. Por un lado, conservar los libros en formato digital permitirá inmortalizarlos y ya nunca más habrá que preocuparse de “restaurarlos” o “preservarlos” de las potenciales inclemencias climáticas o del deterioro natural producto del paso de los años: los bits no envejecen. Por otro lado, tener semejante cantidad de datos en forma digital permite hacer análisis impractibles de cualquier otra forma. ¿A qué me refiero?
En el año 2007, Jean-Baptiste Michel (matemático e ingeniero francés) junto a Erez Lieberman Aiden (también matemático pero de origen norteamericano), ambos profesores en Harvard, implementaron un método para poder “analizar” datos que podían extraerse de los libros. Obviamente, no se trataba de leer todos los libros, sino que diseñaron un proceso que permite “seguir el rastro” de algunas frases (de hasta no más de cinco palabras) para estudiar la evolución que han tenido en el tiempo. Las llamaron ‘n’-gramas, en donde ‘n’ indica el número de palabras que forman la frase. Por ejemplo, una palabra aislada, cualquiera, “perro”, pongamos por caso, es un ‘1’-grama. “La República Argentina” es un ‘3’-grama, etc.
Tanto la gente de Google, encabezados por Peter Norvig y Jon Orwant, como Michel y Aiden, redujeron el número de libros a 5.195.769, lo que implica aproximadamente un 4 por ciento del total de libros publicados. Lo hicieron con la idea de desprenderse de todo el ruido por los errores, malas transcripciones, lugares en donde la tinta estaba borrosa, etc. Igualmente, el resultado termina siendo espectacular.
Una vez que tuvieron esa base de datos descomunal, se propusieron el siguiente organigrama con las palabras que figuraban en esos libros: contarlas, agruparlas, hacer comparaciones entre ellas, buscar patrones temporales de distribución, estudiar la frecuencia de su aparición, clasificarlas, catalogarlas, analizarlas. Y, con los resultados, publicaron un trabajo que apareció en la revista Science en enero del año 2011, que de hecho es la fuente principal de este artículo, y hoy, el paper de Michel y Aiden es consultado por lingüistas, epistemólogos e historiadores (entre otros científicos).
Los datos contienen más de 500 mil millones de palabras, de las que 361 mil millones son en inglés, 45 mil millones en español y otro tanto en francés, 37 mil millones en alemán, 35 mil millones en ruso, 13 mil millones en chino y 2 mil millones en hebreo.
Los trabajos más antiguos se remontan al siglo XVI (en los años 1500) y llegan hasta el 2008.
Obviamente, los datos no podrían nunca ser revisados por un humano. Dice Michel: “Si uno tratara de leer solamente los datos en inglés nada más que los que corresponden al año 2000, y pudiera leer a un paso de 200 palabras por minuto, sin interrupciones para comer o dormir, le llevaría 80 años. La secuencia de letras es mil veces mayor que la del genoma humano: si usted las escribiera todas en forma recta, le permitiría llegar hasta la Luna, volver a la Tierra y hacer ese camino diez veces”.
Por ejemplo, tanto Michel como Aiden muestran la incidencia que tuvieron los episodios de censura en el mundo sin necesidad de conocer ningún decreto que la impusiera. Por ejemplo, eligieron al famoso artista ruso-francés Marc Chagall (1887-1985) nacido en Liozna, en lo que hoy sería Bielorrusia. Como Chagall era de origen judío, al hacer el estudio de la aparición de su nombre en las publicaciones de origen alemán, se produce un bajón brusco, comparado con lo que sucedía en las escritas en inglés. Esa virtual “desaparición”, que duró casi diez años, marca lo que los autores llaman el “índice de supresión”.
Justamente, con el mismo sistema, aparecen en el artículo diversos nombres censurados en la literatura china, rusa y también la norteamericana, especialmente los diez autores y directores de cine que fueron virtualmente “desaparecidos” entre 1947 y 1960 por las acusaciones que pesaban sobre ellos de ser “simpatizantes comunistas”.
Yo hice la prueba poniendo Evita y es muy interesante observar la curva estrictamente creciente desde su irrupción en la política argentina para luego producir un bajón pronunciado y brusco en los años posteriores al golpe militar de 1955, para luego sí volver a crecer hasta ubicarse en un nivel acorde con el impacto que produjo su vida.

Aiden y Michel inventaron una palabra para definir su trabajo: culturomica (“culturomics”, en inglés).
La idea es replicar lo que la genética hace con la genómica. De la misma forma que el estudio del ADN revela patrones dentro de la biología, ambos sostienen que el enorme volumen de datos que provee la digitalización de los libros permitirá analizar y entender parte de la cultura humana.
Acá quiero hacerlo participar a usted. Consígase una computadora con acceso a Internet. Vaya hasta este link: http://books.google.com/ngrams y pruebe el sistema. Ponga por ejemplo dos palabras que quiera investigar/comparar, digamos sida y cáncer. Casi en forma instantánea aparecerán dos gráficos de dos colores diferentes, mostrando la “evolución” de ambas palabras en los últimos dos siglos (XIX y XX) desde los años 1800 hasta el 2000. Y lo mismo puede hacer en varios idiomas y con las palabras (o frases de hasta cinco palabras) que usted quiera. Se termina transformando en una adicción y se presta para intentar teorías que expliquen los resultados, algo que los científicos hacen en su tarea cotidiana.

El experimento es fascinante y si usted tiene tiempo y curiosidad, le sugiero que no se prive de intentarlo con algunas palabras que le despierten alguna intriga. En definitiva, está al alcance suyo (y mío) la posibilidad de avanzar en un trabajo de investigación: ¿cuántas veces tenemos oportunidad de hacer algo parecido sin tener que levantarse de la silla?

(1) Aprovecho para hacer una aclaración. En algunos lugares en donde aparece mi currículum, se menciona como que yo trabajo y/o trabajé para Google. Ese dato es falso. Por lo tanto, me siento totalmente libre para poder opinar sobre la empresa, sin que medie ningún tipo de conveniencia ni económica ni profesional. Conozco muchísima gente que trabaja en Google, pero ni trabajo ni nunca trabajé para Google. Algo más: tengo una profunda admiración y respeto por lo que han hecho y hacen en distintos campos de la informática, y por el impacto profundo que han producido en nuestras vidas (al menos de los privilegiados como yo que tienen/tenemos acceso virtualmente en forma instantánea a la información... o sea, al “poder”).

http://www.pagina12.com.ar
 

No hay comentarios:

Publicar un comentario