Archivo por meses: septiembre 2016

Hacer historia en la era digital: big data

Hace justo unos tres años apareció un video en el canal de PHD Comics acerca del trabajo de tesis doctoral de Adam Crymble, uno de los principales animadores del proyecto The Programming Historian.

Con el reto de ¿Puedes contar tu tesis en dos minutos?, el video muestra la utilización de las nuevas tecnologías aplicadas a la investigación histórica, en este caso, la historia de la migración irlandesa a Londres de principios del siglo XIX. Este tipo de investigaciones es posible gracias a la gran cantidad de fuentes de archivo digitalizadas (por lo general, en los países anglosajones), que permiten la aplicación de métodos, técnicas y herramientas informáticas para el análisis del lenguaje natural.

Sin más, comparto el video y dejo abajo la transcripción, hecha por Jairo Melo para el proyecto Historia abierta.

Transcripción

¿Puedes describirnos tu tesis en dos minutos?

Muchas personas piensan que los historiadores gastan todo su tiempo en las bibliotecas leyendo libros y ciertamente no están tan equivocados sin embargo, recientemente las bibliotecas se han vuelto muy grandes, demasiado grandes, y se están creciendo a una velocidad impresionante.

Eso es porque millones de documentos han sido digitalizados y están disponibles actualmente en línea. Los historiadores se enfrentan ahora a más material del que pueden esperar leer en un vida o incluso en cien vidas.

Mi investigación aborda un típico problema histórico: ¿Cómo fueron tratados los Inmigrantes irlandeses en Londres, Inglaterrra al inicio de la revolución industrial?

Pero, en lugar de encerrarme en una biblioteca utilicé mi ordenador para aprovechar uno de los mejores trucos de la informática llamado Lectura Distante («Distant Reading»).

La lectura distante significa básicamente saber qué dice algo sin leerlo realmente. Es el tipo de clasificación que usa Google cuando quieres buscar la receta de un pastel de manzana. Google tiene una gran cantidad de páginas web pero ellos crearon un programa que les ayuda a buscar la información.

Yo estoy haciendo lo mismo, pero en lugar de buscar pasteles me hago preguntas como:
¿qué documentos se refieren a los irlandeses?

Como Google, tuve que desarrollar un programa que sistematizara la búsqueda de información y me ayudara a saber cuál es relevante y cual no lo cual es importante cuando estás trabajando con bases de datos que contienen cientos de millones de palabras.

Pero encontrar información relevante no es todo lo que puedes hacer en la era del Internet.

Los ordenadores también me han permitido evidenciar aspectos en los cuales la vida cotidiana de los irlandeses del siglo XIX se diferenciaba de la de los demás londinenses

Por ejemplo, puedo decirte que un irlandés tenía cuatro veces más posibilidades de ser llevado a juicio de las que tenía un londinense en toda su vida.

No hay manera en la que hubiese encontrado este hecho de no ser por la «lectura distante». Vivimos en un mundo sobre-informado y manejar la información correctamente puede representar la diferencia entre encontrar lo que necesitas o naufragar en un mar de datos. Hay mucho por leer, así que hay que encontrar una nueva manera para hacerlo.

Mi nombre es Adam Crymble estoy estudiando en el Kings College London del Reino Unido y el título de mi tesis es: «Entendiendo la experiencia del inmigrante irlandés en Londres a través de un análisis textual de larga-escala, 1801-1820»