Archivo de la categoría: historia digital

Ideas para un corpus digital DH2018-CDMX

Hoy por la mañana me tocó exponer una idea para un proyecto de historia digital en el que se podría analizar la cultura jurisdiccional de la monarquía hispánica. Como seguramente no tendrá mayor difusión que la presentación verbal en el contexto del DH2018, dejo aquí el amplio resumen por si alguien tiene interés en intercambiar ideas.

Corpus Jurídico Hispano Indiano Digital: Análisis de una Cultura Jurisdiccional

DH2018 – SP08 – Text Analysis, Cultural Studies

El proyecto Corpus de derecho castellano-indiano / digital es una propuesta colectiva e interdisciplinaria que abarca la compilación, digitalización, procesamiento, macroanálisis y publicación anotada en línea del conjunto de los textos jurídicos vigentes en el marco de la monarquía castellana entre el siglo XIII y principios del XIX. El núcleo principal del proyecto es la construcción de un modelo para el macroanálisis de estos textos jurídicos y, en consecuencia, la generación de herramientas analíticas y de consulta del corpus que permitan comprender la interrelación entre sus distintos elementos semánticos y conceptuales y su transformación a través de los siglos y así proponer una interpretación de cómo es que posiblemente funcionaban en el contexto del discurso y la práctica en el orden jurídico tradicional de la cultura jurisdiccional, tanto en el ámbito de la doctrina, del ejercicio de la potestad normativa como en el del actuar cotidiano del aparato de gobierno e impartición de justicia.

El proyecto implica diversas conexiones y diálogos en distintos ámbitos. En el ámbito interdisciplinario, entre los historiadores de la corriente crítica (cultural) del derecho, lingüistas, humanistas digitales y programadores; en el ámbito teórico y metodológico, entre dos posturas acaso antagónicas en apariencia: la lectura densa y cercana de los textos jurídicos hecha por la historia cultural del derecho a lo largo de varias décadas y la lectura distante. Lo anterior nos obliga a discutir ciertos principios teóricos, como lectura densa, tomada por la historia cultural del derecho de la idea de descripción densa (Geertz, 1973), como sistema capaz de ser leído como texto en relaciones contextuales, o un nivel más complejo (Genette, 1992) y su noción de transtextualidad. Varios historiadores del derecho han aplicado incluso algo parecido a la lectura cercana del criticismo literario (Clavero, 1991). Esto interesa al estudiar el derecho de antiguo régimen frente a la posibilidad de aplicación de metodologías computacionales enfocadas, generalmente, a una lectura distante (Moretti, 2013) en la búsqueda de estructuras formales mediante el análisis de grandes cantidades de texto/data. Es justamente necesario pensar en la posibilidad de ensayar no sólo una minería de texto cuantitativa sino en aspectos más cualitativos, modelando campos semánticos que se transforman históricamente.

Cabe aclarar que el criterio de selección de fuentes para la conformación del corpus es complejo y presenta muchos problemas. Responde a una historiografía que ha definido el campo de lo jurídico en el antiguo régimen hispánico como algo más allá del texto jurídico normativo (entendido como ley). Incluye la doctrina de los juristas y de los teólogos por considerarse que la cultura jurídica tiene una estrecha relación con la doctrina católica. El corpus completo abarcaría tanto normas como doctrina y costumbre y se consideran textos jurídicos producidos tanto en Castilla como en los territorios americanos de la monarquía. Por lo tanto, no se trata de un corpus reunido de antemano en su propia época, sino de un corpus compuesto por el conjunto de la comunidad de historiadores dado que se ha analizado su utilización práctica a lo largo de los siglos y en un contexto cultural determinado (Castilla y sus dominios ultramarinos entre los siglos XIII y XIX). Tener claro cómo suponemos que se definía un texto jurídico en el antiguo régimen es de suma importancia ya que el interés del proyecto es generar una comunidad colaborativa de investigación interdisciplinario que determine sus elementos semánticos necesarios para poder caracterizar digitalmente este tipo de textos. Esto es primordial puesto que son textos completamente distintos de los literarios o de otra índole que se han considerado, por ejemplo, en la iniciativa TEI. Dicho de otra forma, el nodo fundamental del problema es cómo se construye un corpus histórico jurídico particular para que sea útil en las humanidades digitales.

Como la reunión del corpus completo es un proyecto a muy largo plazo, en una etapa piloto consideramos que trabajar con los textos normativos puede ser suficiente para ensayar la propuesta de un modelo flexible y escalable. Además, para el caso de los textos normativos ya existe un ordenamiento y un proceso de digitalización previo de esa parte del corpus. De unas 35,355 normas referenciadas se han puesto en línea, de manera digital básica, 26,831 por un grupo de académicos españoles que viene trabajando al respecto desde la década de 1970 y en el que se han ya recogido la mayor parte de las normas legisladas entre el año 1020 y 1868. Por tanto, el objetivo de esta ponencia es discutir los diferentes ejes de nuestra propuesta teórica: 1) el aspecto de su realidad digital, es decir, cuáles son los requisitos para una digitalización óptima de fuentes jurídicas que se presentan en la realidad de maneras diversas –manuscritas, impresas, cuyos contenidos varían ortográfica y semánticamente a lo largo de los siglos-, 2) el problema de qué se concibe como texto propio de la cultura jurisdiccional en el orden jurídico tradicional –no sólo los obviamente jurídicos en apariencia-, y, en consecuencia, 3) los retos que implica el diseño de herramientas digitales propias que permitan el macroanálisis de los textos como datos masivos. Esto, a su vez, implica un problema mayor y de fondo que es el de la conexión entre un necesario abordaje hermenéutico de los textos jurídicos (lectura densa) en una perspectiva de larga duración –desde la baja edad media hasta el fin de la edad moderna– para entender su contexto cultural de sentido, y el reto de procesar dichos textos entendidos como corpus y en forma de datos masivos mediante computadora (lectura distante), no sólo en procesos de segmentación del corpus para su visualización (nubes de palabras, frecuencias relativas y absolutas, KWIC), sino la posibilidad de ensayar, sobre todo, un modelado tópico semántico con objeto de reflexionar sobre cuál sería un modelo de macroanálisis adecuado para este tipo de corpus. Finalmente, proponer un modelo particular para la edición digital del corpus de los textos jurídicos propios de la cultura jurisdiccional del orden jurídico tradicional.

Referencias

Clavero, B. (1991). Antidora: antropología católica de la economía moderna. Milano: Giuffrè
Geertz, C. (1973). The Interpretation of Cultures: Selected Essays. New York: Basic Books.
Genette, G. (1992). The architext : an introduction. Berkeley: University of California Press.
Moretti, F. (2013). Distant Reading. London: Verso.

Las instituciones académicas frente al reto digital

Cada año, en El Colegio de Michoacán se lleva a cabo un evento académico paralelo a la celebración del aniversario de la fundación de la institución, que fue el 15 de enero de 1979. En esta ocasión, trigésimo noveno aniversario, tuve la oportunidad de ser el organizador con una propuesta que nos permitiera reflexionar y discutir acerca de los retos que la revolución tecnológica a impuesto a las instituciones académicas, particularmente a las dedicadas a la investigación y docencia en humanidades y ciencias sociales.

Arrancamos el jueves 18 de enero por la tarde con un taller de introducción a las humanidades digitales, que estuvo estructurado como una presentación de la ruta a seguir para la gestión de proyectos digitales, desde su planeación, propuestas de elaboración hasta la evaluación final. Por ello, el taller tuvo por nombre Guía Roji para las humanidades digitales, como un homenaje al clásico callejero en la cultura mexicana. El taller fue impartido por Natalie M. Baur (Web) y Silvia Gutiérrez (Twitter), ambas bibliotecarias de la Bibliotesca Daniel Cosío Villegas de El Colegio de México. Aquí se encuentra la nota del programa y acá se puede leer más información.

El viernes 19 de enero, luego de la ceremonia de inauguración del aniversario, tocó el turno de Anaclet Pons (Weblog | Twitter), catedrático del Departamento de Historia Contemporánea de la Universidad de Valencia, quien dictó la conferencia La sensibilidad digital y la posición del historiador. La conferencia se puede seguir en el Canal de YouTube del Colegio de Michoacán.

Posteriormente a la conferencia, se llevó a cabo un panel de discusión en el que participaron: Alberto Santiago Martínez, Isabel Galina Russel, Rosario Rogel Salazar, Silvia Gutiérrez, Natalie M. Baur y Víctor Gayol, cada quien abordando un tópico en forma de reto.

Como testigos de memoria del evento, queda este pequeño sitio Web y el video de la jornada completa del día 19 de enero.

5 palabras clave sobre CSyHD

Hoy fue la primera sesión del Taller introductorio a las Ciencias Sociales y Humanidades Digitales (CSyHD) – The Programming Historian, en El Colegio de Michoacán, A.C.

Confieso que lo disfruté. Tengo que escribir mucho más sobre esta primera experiencia. Pero ahora lo que quiero hacer es mostrar cuál es la idea en este ámbito (mexicano, latinoamericano) que se tiene cerca de las CSyHD.

Pedí a los asistentes -antes de la plática- que escribieran 5 palabras clave que reflejaran lo que creían/pensaban respecto de qué son las CSyHD. Luego, las procesé con Voyant-tools para conseguir la visualización en forma de nube de palabras.

Este es el resultado:

¿Big data en la investigación histórica?

¿Análisis de big data en la investigación histórica? John Mashey, el científico informático que popularizó el término big data en los años 1990, seguramente moriría de risa si le dijéramos que quienes nos dedicamos a la historia podríamos procesar nuestros datos históricos digitalizados con métodos y técnicas utilizados para el análisis de grandes conjuntos de datos (big data sets). Big data es lo que procesan las grandes empresas de análisis de datos. Se calcula que Google manejaba unos 20 Petabytes de datos diariamente en 2008 (20 X 1,0005 bytes), mientras que toda la información de una investigación histórica no debe rebasar unos cuantos GB.

Sin embargo, los autores del libro Exploring Big Historical Data: The Historian’s Macroscope (2016) recurren al viejo proverbio inglés y argumentan, con razón que: “big is in the eye of the beholder”, algo así como que “el color depende del cristal con que se mire”. Porque en la investigación histórica hay tareas que parecen irrealizables para una sola persona investigadora o para un equipo, como la de procesar en un sólo estudio los 197,752 extractos de juicios criminales digitalizados que contiene el sitio The Procedings of the Old Bailey, la corte criminal de la ciudad de Londres entre 1674 y 1913.

Sobre este libro, la revista Virtualis. Revista de cultura digital del Tecnológico de Monterrey, México, acaba de publicar una reseña mía que puedes encontrar aquí y descargar el texto en PDF.

El libro fue escrito de manera colaborativa por Shawn Graham, Ian Milligand y Scott B. Weingart y es, en realidad, un manual de metodologías, técnicas y herramientas digitales para el procesamiento de datos, mayoritariamente aquellas diseñadas para el tratamiento de lenguaje natural. Por ello, está muy estrechamente vinculado al proyecto The Programming Historian y al ya clásico libro de Cohen y Rosenzweig Digital history: a guide to gathering, preserving, and presenting the past on the Web.

Si hay una forma amable de introducción a la historia digital para estudiantes de grado y posgrado, son esos tres caminos.

Referencias

  • Cohen, D. J., & Rosenzweig, R. (2006). Digital history: A guide to gathering, preserving, and presenting the past on the Web. University of Pennsylvania Press. http://chnm.gmu.edu/digitalhistory/
  • Gayol, V. (2016). Exploring big historical data. The historian’s macroscope. Virtualis, 7(13), 102–105.
  • Graham, S., Milligan, I., & Weingart, S. (2016). Exploring big historical data: The historian’s macroscope. Imperial College Press. http://www.themacroscope.org/2.0/

Hacer historia en la era digital: big data

Hace justo unos tres años apareció un video en el canal de PHD Comics acerca del trabajo de tesis doctoral de Adam Crymble, uno de los principales animadores del proyecto The Programming Historian.

Con el reto de ¿Puedes contar tu tesis en dos minutos?, el video muestra la utilización de las nuevas tecnologías aplicadas a la investigación histórica, en este caso, la historia de la migración irlandesa a Londres de principios del siglo XIX. Este tipo de investigaciones es posible gracias a la gran cantidad de fuentes de archivo digitalizadas (por lo general, en los países anglosajones), que permiten la aplicación de métodos, técnicas y herramientas informáticas para el análisis del lenguaje natural.

Sin más, comparto el video y dejo abajo la transcripción, hecha por Jairo Melo para el proyecto Historia abierta.

Transcripción

¿Puedes describirnos tu tesis en dos minutos?

Muchas personas piensan que los historiadores gastan todo su tiempo en las bibliotecas leyendo libros y ciertamente no están tan equivocados sin embargo, recientemente las bibliotecas se han vuelto muy grandes, demasiado grandes, y se están creciendo a una velocidad impresionante.

Eso es porque millones de documentos han sido digitalizados y están disponibles actualmente en línea. Los historiadores se enfrentan ahora a más material del que pueden esperar leer en un vida o incluso en cien vidas.

Mi investigación aborda un típico problema histórico: ¿Cómo fueron tratados los Inmigrantes irlandeses en Londres, Inglaterrra al inicio de la revolución industrial?

Pero, en lugar de encerrarme en una biblioteca utilicé mi ordenador para aprovechar uno de los mejores trucos de la informática llamado Lectura Distante («Distant Reading»).

La lectura distante significa básicamente saber qué dice algo sin leerlo realmente. Es el tipo de clasificación que usa Google cuando quieres buscar la receta de un pastel de manzana. Google tiene una gran cantidad de páginas web pero ellos crearon un programa que les ayuda a buscar la información.

Yo estoy haciendo lo mismo, pero en lugar de buscar pasteles me hago preguntas como:
¿qué documentos se refieren a los irlandeses?

Como Google, tuve que desarrollar un programa que sistematizara la búsqueda de información y me ayudara a saber cuál es relevante y cual no lo cual es importante cuando estás trabajando con bases de datos que contienen cientos de millones de palabras.

Pero encontrar información relevante no es todo lo que puedes hacer en la era del Internet.

Los ordenadores también me han permitido evidenciar aspectos en los cuales la vida cotidiana de los irlandeses del siglo XIX se diferenciaba de la de los demás londinenses

Por ejemplo, puedo decirte que un irlandés tenía cuatro veces más posibilidades de ser llevado a juicio de las que tenía un londinense en toda su vida.

No hay manera en la que hubiese encontrado este hecho de no ser por la «lectura distante». Vivimos en un mundo sobre-informado y manejar la información correctamente puede representar la diferencia entre encontrar lo que necesitas o naufragar en un mar de datos. Hay mucho por leer, así que hay que encontrar una nueva manera para hacerlo.

Mi nombre es Adam Crymble estoy estudiando en el Kings College London del Reino Unido y el título de mi tesis es: «Entendiendo la experiencia del inmigrante irlandés en Londres a través de un análisis textual de larga-escala, 1801-1820»

Nuevo equipo de editores en español para The Programming Historian

Ahora sí, podemos hacer público el anuncio. El pasado mes de julio se publicó una convocatoria para reclutar a una persona encargada de comenzar a traducir al español las más de 45 lecciones originales que forman parte de la plataforma The Programming Historian. Esto es un hecho sin precedentes pues, como es bien sabido, la mayor parte de los tutoriales e instrucciones disponibles sobre técnicas y herramientas para la humanidades y la historia digital están en inglés. Por supuesto que han habido intentos de traducción, como los que publicamos a principios de este año en el sitio original de Cibercliografía, entre otros. Pero nada mejor que hacerlo con la gente de la propia plataforma e integrándose al proyecto.

Después de recibir solicitudes y entrevistas, el equipo de PH decidió que los tres finalistas integráramos un equipo. Así que, a partir de esta fecha, estaré trabajando con mis colegas para dar forma a lo que hasta hace unos meses era sólo un sueño. Mis colegas de ruta son:

Maria José Afanador-Llach, quien obtuvo recientemente un doctorado en Historia de la Universidad de Texas en Austin. Actualmente está colaborando con colegas en la Fundación Histórica Neogranadina, una organización sin ánimo de lucro que está digitalizando archivos coloniales en peligro y promoviendo proyectos de humanidades digitales. Tiene amplia experiencia traduciendo escritos académicos del inglés al español y está comprometida con cultivar iniciativas de investigación digital en América Latina.

Antonio Rojas Castro, quien tiene un doctorado en Humanidades de la Universitat Pompeu Fabra en Barcelona, España. Como parte de su disertación construyó una edición digital crítica de las Soledades de Luis de Góngora (actualmente en versión beta). En 2013 creó el Grupo de Humanidades Digitales de Zotero, y actualmente es el Coordinador de Comunicaciones de la European Association for Digital Humanities (EADH).

Así que, ¡manos a la obra! Espero que pronto tengamos un The Programming Historian en español en línea…