Opinión:

Google y el nacimiento de la culturomía

Google y el nacimiento de la culturomía

La revista Science publicó en el mes de diciembre de 2010 el artículo "Quantitative Analysis of Culture using Millions of Digitized Books" por un equipo de investigadores encabezados por Jean-Batiste Michel. El documento fue publicado por Science Express (www.sciencexpress.org), que es un sistema de publicación de artículos escogidos de la revista en avance a su publicación final en la versión impresa.

Antes de referirme al contenido del artículo, describiré un poco de información contextual. De acuerdo a John Bohannon (2010), el matemático Erez Lieberman-Aiden, mientras realizaba en el año 2007 su doctorado sobre genoma en la Universidad de Harvard, solicitó al jefe de investigación de Google el acceso a los datos del proyecto Google Books, que consiste en la digitalización de todos los libros publicados. El argumento de Lieberman-Aiden fue que es posible un estudio riguroso de la evolución de la cultura en gran escala mediante el análisis del crecimiento, cambio y declinación de las palabras publicadas a lo largo de los siglos.

El principal problema que enfrentaba la idea era que muchas de los obras tienen copyright y, por lo tanto, se necesitaba la autorización de dichos autores. La solución de Lieberman-Aiden fue que era posible ocupar dichos libros pues, en realidad, no los leería, si no que el libro digitalizado sería transformado a una lista de palabras, las cuales podían ser estudiadas en forma estadística. La unidad de análisis se llama "n-gram", que describiré más adelante.

Lieberman-Aiden solicitó ayuda a Jean-Baptiste Michel, en ese instante estudiante de doctorado de la Universidad de Harvard, pero del campo de la biología evolucionaria (o evolutiva, dependiendo de la traducción). El objetivo de ellos era explorar el lenguaje escrito con técnicas matemáticas prestadas de la biología evolucionaria. Michel y Lieberman-Aiden han bautizado este campo como "culturomics", siendo mi traducción culturomía.

Con respecto al artículo, los autores señalan que trabajaron con 5.195.769 de libros, lo que representa alrededor del 4% de todos los libros publicados en la historia de la humanidad. El proyecto Google Books posee al 2010 la cantidad de 15 millones de libros digitalizados, que corresponde alrededor del  12% de todos los libros publicados.

En su sentido más general, los autores señalan que la culturomía se inscribe dentro del campo de los estudios cuantitativos de la cultura. La principal diferencia con la tradición es la escala en la cual trabaja la culturomía. La base de datos que construyeron contiene 500 billones de palabras en inglés (361 billones), francés (45 billones), español (45 billones), alemán (37 billones), ruso (35 billones), chino (13 billones)y hebreo (2 billones).

En términos metodológicos, la unidad de análisis se llama "n-gram". Un "1-gram" es la unidad más básica, que consiste en una secuencia de caracteres no interrumpida por un espacio, por ejemplo, "manzana" o "FACSO". Un ejemplo de "2-gram" sería "elección presidencial" y un ejemplo de "5-gram" podría ser "La Facultad de Ciencias Sociales". El estudio se restringió hasta "5-gram" que tuvieran como mínimo una ocurrencia de 40 veces en la base de datos. Los autores señalan que la frecuencia es calculada dividiendo el número de instancias de un "n-gram" en un año dado por el número total de palabras en la base de datos para ese año. La base de datos, dado ese criterio, posee 2 billones de palabras y está disponible para descargar en www.culturomics.org.

De acuerdo a los autores, hay dos factores centrales que contribuyen a una tendencia culturómica. El primero es el cambio cultural, que guía los conceptos que son analizados y el segundo es el cambio lingüístico, que afecta las palabras que usamos para esos conceptos. Un ejemplo del primero es la palabra "guerra" (una palabra seleccionada que tiene sentido para nosotros). El ejemplo que aparece en el artículo es la palabra "esclavitud". Un ejemplo del segundo es "guerra contra el terrorismo", que es la manera como hablamos sobre la guerra.

Al ocupar esta metodología, los autores concentran su atención en algunos ejemplos del idioma inglés, de los cuales presentaré algunos. Entre ellos, calculan que en 1900 el inglés consistía en alrededor de 544.000 palabras, en 1950 de 597.000 y en el 2000 de 1.022.000 palabras. Este enorme crecimiento del léxico se relaciona con otro tema: los diccionarios. Claramente estos no pueden contener todas las palabras usadas hoy porque un libro así sería muy difícil de emplear (además del costo y su actualización permanente). Ocupando como referencia dos diccionarios importantes (uno de ellos Webster), los investigadores descubren que un 52% de las palabras ocupadas en los libros no aparece en diccionarios, a lo cual llaman "materia oscura", por analogía a la terminología astronómica.

Al estudiar inventos, descubren que entre 1800 y 1840, estos tomaban 66 años en tener un amplio impacto. Entre 1840 y 1880 el impacto se reduce a 50 años y entre 1880 y 1920 el impacto es de sólo 27 años. Esto les permite inferir que la adopción cultural de la tecnología se ha incrementado en la sociedad.

Al concentrarse en celebridades, analizan cómo estas aparecen, llegan a la cúspide de su fama y luego son olvidadas. Para tal efecto, tomaron las 740.000 personas que tienen una entrada en Wikipedia, hasta llegar a una lista de las 50 personas más referidas por cada año desde 1880. Descubren que no importa la época, el momento de mayor fama es 75 años después del nacimiento. La diferencia está en que una persona famosa en el siglo 19 tenía en promedio 43 años y a mediados del siglo 20 tenía 29 años (además, son famosos por menos tiempo).

Al concentrarse en ocupaciones en relación con la edad entre 1800 y 1920, específicamente actores, artistas, escritores, políticos, biólogos, médicos y matemáticos, descubren que los actores son famosos alrededor de los 30 años, los escritores a los 40 años y los políticos desde los 50 años. La ciencia no es un camino a la fama, señalan.

Otro ejemplo es la censura. Al comparar los libros en inglés y en alemán durante la época Nazi, descubren que el artista judío Marc Chagall casi no es mencionado en libros alemanes. También realizan este examen en China con "Plaza Tiananmen".

En las conclusiones del artículo, los autores definen la cultoromía como el estudio de la cultura humana mediante el análisis y recolección de datos procesados en gran escala. También plantean que los resultados de la cultoromía son un nuevo tipo de evidencia para las humanidades, siendo el principal desafío la interpretación de esta evidencia. El actual proyecto incluye libros, pero próximamente periódicos, manuscritos, mapas, arte, entre otros.

Dado que la base de datos está disponible, ingresé dos términos para ver su distribución estadística: "América Latina" y "Latinoamérica". Ocupé solamente los libros en idioma español, entre 1880 y 2000. El resultado muestra en el Gráfico 1.

¿Cómo podemos interpretar este resultado? Una descripción del gráfico indica que el uso de estos conceptos en libros digitalizados escritos en idioma español disponibles en la actual versión de la base datos, comienza a incrementarse desde el año 1900, con un fuerte crecimiento desde 1960 en adelante, pero que desde 1990 entran en declinación. Pero, ¿qué importancia tiene este dato?, ¿qué nos dice? Tal vez que la discusión sobre América Latina es una discusión de finales del siglo XX, asociada a los cambios sociales de la región entre el término de la Segunda Guerra Mundial y el fin de siglo, centrada tal vez en temas de industrialización y desarrollo.

Al ingresar los conceptos "industrialización" y "globalización" (ver Gráfico 2), podemos describir que el término "industrialización" se ocupa en el siglo XX, con un fuerte uso entre 1960 y 1990, declinando posteriormente. El concepto "globalización" es casi inexistente hasta 1980, momento desde el cual se emplea fuertemente. Repito la pregunta, ¿qué nos dice esto? Puedo describir que la conversación sobre industrialización ocurrió principalmente entre las décadas de 1960 y 1990, pero que la actual conversación es sobre globalización.

 

Empero, este es el problema para las ciencias sociales: cómo analizamos los datos que nos entrega la culturomía.

La antropología se ha definido como la ciencia que estudia la cultura humana. Tradicionalmente ha empleado la metodología cualitativa para tal propósito, aunque también la metodología cuantitativa. Los creadores de la culturomía tienen el mismo objeto de estudio, pero su metodología es específica: procesamiento de datos en gran escala mediante software. En su actual versión, ocupan las palabras publicadas en libros (a la fecha digitalizados).

Esto hace, por ahora, a la culturomía una actividad científica muy específica o limitada a un indicador de la cultura (los libros) y una metodología (frecuencias estadísticas). Sus autores no son científicos sociales. De hecho, ninguno de los actuales participantes del equipo lo son. Tal vez ahí esté la principal diferencia, pero también el principal reto: nosotros, los científicos sociales, en principio deberíamos ser capaces de analizar los datos generados por Google Books, dado que estamos parados sobre los hombros de gigantes de las ciencias sociales (para emplear la expresión de Merton) y que, dadas estas nuevas herramientas metodológicas, nos permitirán avanzar aún más en el estudio de la cultura humana.

Es justamente en la capacidad de hacer sentido de los datos donde podríamos sentirnos desafiados y, creo, que es uno de los desafíos más interesantes que nos han propuesto al comenzar la segunda década del siglo 21.

Bibliografía

Bohannon, J. 2010. Google opens books to new cultural studies. Science Magazine 330 (6011): 1600. DOI: 10.1126/science.330.6011.1600

Michel, JB. et. al. 2010.Quantitative analysis of culture using millions of digitized books.Science Express 16 December 2010: 1-12. DOI: 10.1126/science.1199644

 

Últimas noticias