Archivo del Autor: Víctor Gayol

Avatar de Desconocido

Acerca de Víctor Gayol

Historiador

Ideas para un corpus digital DH2018-CDMX

Hoy por la mañana me tocó exponer una idea para un proyecto de historia digital en el que se podría analizar la cultura jurisdiccional de la monarquía hispánica. Como seguramente no tendrá mayor difusión que la presentación verbal en el contexto del DH2018, dejo aquí el amplio resumen por si alguien tiene interés en intercambiar ideas.

Corpus Jurídico Hispano Indiano Digital: Análisis de una Cultura Jurisdiccional

DH2018 – SP08 – Text Analysis, Cultural Studies

El proyecto Corpus de derecho castellano-indiano / digital es una propuesta colectiva e interdisciplinaria que abarca la compilación, digitalización, procesamiento, macroanálisis y publicación anotada en línea del conjunto de los textos jurídicos vigentes en el marco de la monarquía castellana entre el siglo XIII y principios del XIX. El núcleo principal del proyecto es la construcción de un modelo para el macroanálisis de estos textos jurídicos y, en consecuencia, la generación de herramientas analíticas y de consulta del corpus que permitan comprender la interrelación entre sus distintos elementos semánticos y conceptuales y su transformación a través de los siglos y así proponer una interpretación de cómo es que posiblemente funcionaban en el contexto del discurso y la práctica en el orden jurídico tradicional de la cultura jurisdiccional, tanto en el ámbito de la doctrina, del ejercicio de la potestad normativa como en el del actuar cotidiano del aparato de gobierno e impartición de justicia.

El proyecto implica diversas conexiones y diálogos en distintos ámbitos. En el ámbito interdisciplinario, entre los historiadores de la corriente crítica (cultural) del derecho, lingüistas, humanistas digitales y programadores; en el ámbito teórico y metodológico, entre dos posturas acaso antagónicas en apariencia: la lectura densa y cercana de los textos jurídicos hecha por la historia cultural del derecho a lo largo de varias décadas y la lectura distante. Lo anterior nos obliga a discutir ciertos principios teóricos, como lectura densa, tomada por la historia cultural del derecho de la idea de descripción densa (Geertz, 1973), como sistema capaz de ser leído como texto en relaciones contextuales, o un nivel más complejo (Genette, 1992) y su noción de transtextualidad. Varios historiadores del derecho han aplicado incluso algo parecido a la lectura cercana del criticismo literario (Clavero, 1991). Esto interesa al estudiar el derecho de antiguo régimen frente a la posibilidad de aplicación de metodologías computacionales enfocadas, generalmente, a una lectura distante (Moretti, 2013) en la búsqueda de estructuras formales mediante el análisis de grandes cantidades de texto/data. Es justamente necesario pensar en la posibilidad de ensayar no sólo una minería de texto cuantitativa sino en aspectos más cualitativos, modelando campos semánticos que se transforman históricamente.

Cabe aclarar que el criterio de selección de fuentes para la conformación del corpus es complejo y presenta muchos problemas. Responde a una historiografía que ha definido el campo de lo jurídico en el antiguo régimen hispánico como algo más allá del texto jurídico normativo (entendido como ley). Incluye la doctrina de los juristas y de los teólogos por considerarse que la cultura jurídica tiene una estrecha relación con la doctrina católica. El corpus completo abarcaría tanto normas como doctrina y costumbre y se consideran textos jurídicos producidos tanto en Castilla como en los territorios americanos de la monarquía. Por lo tanto, no se trata de un corpus reunido de antemano en su propia época, sino de un corpus compuesto por el conjunto de la comunidad de historiadores dado que se ha analizado su utilización práctica a lo largo de los siglos y en un contexto cultural determinado (Castilla y sus dominios ultramarinos entre los siglos XIII y XIX). Tener claro cómo suponemos que se definía un texto jurídico en el antiguo régimen es de suma importancia ya que el interés del proyecto es generar una comunidad colaborativa de investigación interdisciplinario que determine sus elementos semánticos necesarios para poder caracterizar digitalmente este tipo de textos. Esto es primordial puesto que son textos completamente distintos de los literarios o de otra índole que se han considerado, por ejemplo, en la iniciativa TEI. Dicho de otra forma, el nodo fundamental del problema es cómo se construye un corpus histórico jurídico particular para que sea útil en las humanidades digitales.

Como la reunión del corpus completo es un proyecto a muy largo plazo, en una etapa piloto consideramos que trabajar con los textos normativos puede ser suficiente para ensayar la propuesta de un modelo flexible y escalable. Además, para el caso de los textos normativos ya existe un ordenamiento y un proceso de digitalización previo de esa parte del corpus. De unas 35,355 normas referenciadas se han puesto en línea, de manera digital básica, 26,831 por un grupo de académicos españoles que viene trabajando al respecto desde la década de 1970 y en el que se han ya recogido la mayor parte de las normas legisladas entre el año 1020 y 1868. Por tanto, el objetivo de esta ponencia es discutir los diferentes ejes de nuestra propuesta teórica: 1) el aspecto de su realidad digital, es decir, cuáles son los requisitos para una digitalización óptima de fuentes jurídicas que se presentan en la realidad de maneras diversas –manuscritas, impresas, cuyos contenidos varían ortográfica y semánticamente a lo largo de los siglos-, 2) el problema de qué se concibe como texto propio de la cultura jurisdiccional en el orden jurídico tradicional –no sólo los obviamente jurídicos en apariencia-, y, en consecuencia, 3) los retos que implica el diseño de herramientas digitales propias que permitan el macroanálisis de los textos como datos masivos. Esto, a su vez, implica un problema mayor y de fondo que es el de la conexión entre un necesario abordaje hermenéutico de los textos jurídicos (lectura densa) en una perspectiva de larga duración –desde la baja edad media hasta el fin de la edad moderna– para entender su contexto cultural de sentido, y el reto de procesar dichos textos entendidos como corpus y en forma de datos masivos mediante computadora (lectura distante), no sólo en procesos de segmentación del corpus para su visualización (nubes de palabras, frecuencias relativas y absolutas, KWIC), sino la posibilidad de ensayar, sobre todo, un modelado tópico semántico con objeto de reflexionar sobre cuál sería un modelo de macroanálisis adecuado para este tipo de corpus. Finalmente, proponer un modelo particular para la edición digital del corpus de los textos jurídicos propios de la cultura jurisdiccional del orden jurídico tradicional.

Referencias

Clavero, B. (1991). Antidora: antropología católica de la economía moderna. Milano: Giuffrè
Geertz, C. (1973). The Interpretation of Cultures: Selected Essays. New York: Basic Books.
Genette, G. (1992). The architext : an introduction. Berkeley: University of California Press.
Moretti, F. (2013). Distant Reading. London: Verso.

Las instituciones académicas frente al reto digital

Cada año, en El Colegio de Michoacán se lleva a cabo un evento académico paralelo a la celebración del aniversario de la fundación de la institución, que fue el 15 de enero de 1979. En esta ocasión, trigésimo noveno aniversario, tuve la oportunidad de ser el organizador con una propuesta que nos permitiera reflexionar y discutir acerca de los retos que la revolución tecnológica a impuesto a las instituciones académicas, particularmente a las dedicadas a la investigación y docencia en humanidades y ciencias sociales.

Arrancamos el jueves 18 de enero por la tarde con un taller de introducción a las humanidades digitales, que estuvo estructurado como una presentación de la ruta a seguir para la gestión de proyectos digitales, desde su planeación, propuestas de elaboración hasta la evaluación final. Por ello, el taller tuvo por nombre Guía Roji para las humanidades digitales, como un homenaje al clásico callejero en la cultura mexicana. El taller fue impartido por Natalie M. Baur (Web) y Silvia Gutiérrez (Twitter), ambas bibliotecarias de la Bibliotesca Daniel Cosío Villegas de El Colegio de México. Aquí se encuentra la nota del programa y acá se puede leer más información.

El viernes 19 de enero, luego de la ceremonia de inauguración del aniversario, tocó el turno de Anaclet Pons (Weblog | Twitter), catedrático del Departamento de Historia Contemporánea de la Universidad de Valencia, quien dictó la conferencia La sensibilidad digital y la posición del historiador. La conferencia se puede seguir en el Canal de YouTube del Colegio de Michoacán.

Posteriormente a la conferencia, se llevó a cabo un panel de discusión en el que participaron: Alberto Santiago Martínez, Isabel Galina Russel, Rosario Rogel Salazar, Silvia Gutiérrez, Natalie M. Baur y Víctor Gayol, cada quien abordando un tópico en forma de reto.

Como testigos de memoria del evento, queda este pequeño sitio Web y el video de la jornada completa del día 19 de enero.

Conoce mejor tu máquina: intro a línea de comandos

Uno de los graves problemas que tenemos quienes nos dedicamos a la historia y otros humanistas de la academia es que sub-utilizamos nuestras computadoras. Por lo general, no sabemos cómo comunicarnos con ellas de manera eficiente ya que nos han encadenado a la Interfaz gráfica de usuario y a los programas propietarios. Cosa de la mercadotecnia del capitalismo post-industrial que va de la mano con la obsolescencia programada. Mejor, acércate a la interfaz de línea de comandos.

Si utilizas una Mac, que corre en un sistema operativo Darwin (derivado de UNIX), convendría que te asomes a una maravilla que está en tu máquina:

Aplicaciones -> Utilidades -> Terminal

Para aprender a utilizarla te recomiendo comiences por un tutorial en The Programming Historian llamado «Introduction to the Bash Command Line«, escrito por Ian Milligan y James Baker. Incluso ahí, quienes usen Windows podrán acercarse a estas maravillas mediante la descarga de GitBash. [actualización = en mayo de 2018 se publicó mi traducción a la lección de Milligan y Baker: Introducción a la linea de comandos de Bash].

Si «corres» con Windows (perdón por el mal chiste), te convendrá echar un ojo a una cosa que puedes ejecutar en tu máquina llamada cdm. Si corres con suerte y tienes actualizado tu sistema operativo, quizá también te topes con PowerShell, que mezcla varios comandos de UNIX con los propios del viejo MS-DOS. Hay un tutorial para este intérprete en «Introduction to the Windows Command Line with PowerShell», escrito por Ted Dawson. [actualización = en junio de 2018 se publicó mi traducción a la lección de Dawson: Introducción a la línea de comandos de Windows con PowerShell].

Si usas Linux, poco te puedo decir, ya que conoces la Interfaz de línea de comandos por defecto.

Una buena compilación (acordeón, chuleta, cheat-sheet) de lo que puedes hacer con tu interfaz de línea de comandos independiente de plataforma está en esta maravillosa guía de referencia de Simon Shepard: ss64.com.

En todo caso: conoce tu máquina. Úsala desde el intérprete de línea de comandos. Esto ampliará tu capacidad para sacar mejor provecho de máquinas que pueden ser todo un laboratorio de análisis pero que sub-utilizamos como meras máquinas de escribir.

Así, por ejemplo, en vez de buscar el icono que abre tu navegador de Internet, puedas escribir:

$ open -a "firefox"

O quizá mejor, sabiendo la ruta del URL que te interesa:

$ open http://google.com

5 palabras clave sobre CSyHD

Hoy fue la primera sesión del Taller introductorio a las Ciencias Sociales y Humanidades Digitales (CSyHD) – The Programming Historian, en El Colegio de Michoacán, A.C.

Confieso que lo disfruté. Tengo que escribir mucho más sobre esta primera experiencia. Pero ahora lo que quiero hacer es mostrar cuál es la idea en este ámbito (mexicano, latinoamericano) que se tiene cerca de las CSyHD.

Pedí a los asistentes -antes de la plática- que escribieran 5 palabras clave que reflejaran lo que creían/pensaban respecto de qué son las CSyHD. Luego, las procesé con Voyant-tools para conseguir la visualización en forma de nube de palabras.

Este es el resultado:

¿Por qué aprender a programar?

El jueves de la semana pasada lanzamos públicamente la versión en español de un sitio web bastante conocido por los historiadores digitales: The Programming Historian. Tras unos meses de arduo trabajo colaborativo, la publicación en español es una versión bastante ligera, con una pequeña parte del conjunto de lecciones y tutoriales sobre herramientas digitales, técnicas y flujos de trabajo que se pueden encontrar en el sitio original. Había que comenzar por algo.

No obstante lo incompleto, The Programming Historian en español merece mucho la pena ser visitado porque contiene -por ahora solamente-, la Introducción a Python, un conjunto de tutoriales pensados para estudiarse de manera seriada que permite a los historiadores aprender los rudimentos de ese lenguaje de programación de alto nivel multipropósito. Muchos colegas historiadores y humanistas se preguntarán aquí, «¿para qué nos sirve saber esas cosas que les competen a los encargados de cómputo de mi institución?»

No podemos negar que nuestro quehacer académico se ha digitalizado a un grado superlativo en las últimas décadas. Nos hemos percatado que manipular datos digitalmente nos ofrece la posibilidad de ampliar nuestros horizontes de investigación. Hace tiempo que los historiadores trabajamos con bases de datos de diverso tipo, hacemos análisis de redes sociales auxiliados de programas de cómputo especializado, recurrimos a sistemas de información geográfica para el análisis espacial y para generar representaciones cartográficas, o usamos hojas de cálculo para tabular datos seriales para hacer historia económica o demografía histórica, obteniendo gráficas muy interesantes de tendencias de crecimiento. Pero también, entre otras muchas cosas, los historiadores podemos trabajar con conjuntos de datos masivos (big data), y es ahí donde radica la importancia de aprender un lenguaje de programación que nos permita sacarle provecho a una cantidad ingente de datos.

Los historiadores generalmente acudimos a documentos en los que quedó, en forma de texto, algún registro de los acontecimientos, de las ideas de una persona o de un grupo de personas, así como de las formas culturales de estructurar los discursos. Esos son algunos de los datos con los que trabajamos. Cuando leemos un documento lo interpretamos, es decir, diseccionamos y reorganizamos su discurso de tal manera que los datos nos ofrezca un significado. En otras palabras: manipulamos los datos de diversas maneras a través de un sinnúmero de operaciones de por medio. A veces, con un conjunto de textos, realizamos una serie de operaciones cuantitativas en busca de respuestas cualitativas. Por ejemplo, contamos la frecuencia (concordancia) con la que aparece una palabra o una frase, elaboramos la hipótesis de que esta palabra resulta clave para determinada época, así que buscamos el contexto en el que se encuentra ese término para reconstruir redes semánticas que nos ayuden a comprender un corpus documental mayor. También ponemos atención a las interrelaciones entre un concepto y otro, vemos cuáles juegan un papel intercambiable en el complejo contexto del discurso que nos ofrecen los documentos. Además, ponemos énfasis en las relaciones de intertextualidad entre un tipo de documentos y otros, para intentar reconstruir y explicarnos el contexto cultural en el que se produjeron.

Podemos hacer todo esto de manera más o menos sencilla cuando nos enfrentamos a un corpus documental restrigido, de cien, quinientos o mil quinietos expedientes de archivo… e, incluso, ahí comienzan nuestros peores dolores de cabeza: tenemos que organizar nuestros glosarios de términos, nuestras redes de interrelaciones conceptuales.

Ahora imaginemos que Internet pone a nuestra disposición la transcripción de la impresionante cantidad de ¡197,745! juicios criminales llevados a cabo frente a un tribunal londinense entre 1674 y 1913. Para un historiador solitario, tal cantidad de documentos resulta imposible de procesar y analizar, ya ni se diga de imaginar. Pero, de tener las herramientas, ¿no estaríamos tentados a hacer algunos análisis cuantitativos de esos documentos? ¿No sería maravilloso buscar algunas series de conceptos, sus interrelaciones, los contextos en los que se ubican y sus cambios a lo largo de varias décadas o siglos? La herramienta para hacerlo es posible, está en nuestra propia computadora y solamente es necesario aprender un poco de programación para echarla a funcionar.

En términos de la ciencia de la computación, de la información, de la data, una palabra es una secuencia de caracteres específica, es decir, una cadena de caracteres (string) organizada de una forma determinada que nos ofrece cierto significado, pero que para una computadora es un conjunto de datos procesables carentes de significado. Las frases son una secuencia de palabras interrelacionadas de cierta manera, es decir, cadenas de caracteres de mayor longitud. Un párrafo, el contenido escrito de un documento, el de un expediente, el de un legajo, el de todo un ramo del acervo de un archivo, contiene grandes series diferenciadas de cadenas de caracteres, de datos susceptibles de ser procesados y manipulados por computadora. Los programas de ofimática que utilizamos, como los procesadores de texto, ofrecen cierta capacidad de manipular esos datos, pero es una manipulación elemental y que nunca controlamos a nuestro gusto. En el procesador de texto podemos buscar una palabra determinada (una cadena de caracteres) y obtener un informe de las veces que aparece en el texto. Pero es imposible sacarle más jugo al asunto si queremos incluir las variables de esa palabra y obtener su concordancia en los diversos contextos en las que se encuentra, o construir modelos tópicos. Además, sería imposible trabajar con 197 mil expedientes en ese tipo de programas, por ejemplo, en un solo archivo de MS-Word.

Una de las bondades de Python es que es un lenguaje de programación muy sencillo en su sintaxis a la vez que poderoso (por ser un lenguaje interpretado de alto nivel). Ello facilita el uso del conjunto de funciones orientadas para operar sobre cadenas de caracteres, entre las que se incluyen comparación, búsquedas boleanas, organización por diccionarios, aprendizaje máquina, construcción de n-gramas, modelado tópico y otras más cuya utilización es muy eficaz para analizar datos masivos y generar, con la ayuda de otras herramientas, visualizaciones de los datos que nos permitan encontrar secuencias o tendencias a nivel macro que no podríamos detectar de otra manera; por ejemplo, cómo cambia la relación de sustantivos y adjetivos vinculados con la palabra «asesinato» a lo largo de 150 años, o encontrar, como lo hizo Fred Gibbs, cuál era el método preferido por los criminales londinenses para envenenar a sus víctimas a lo largo de varias décadas. Podemos también construir, estadísticamente, el conjunto de temas predominantes en un conjunto de documentos.

Veamos el ejemplo en el que se basan los tutoriales de Python en The Programming Historian. El proyecto de publicación en Internet de los expedientes criminales londinenses, The Proceedings of the Old Bailey, puso en línea 197,745 transcripciones de juicios criminales, es decir, cerca de 127 millones de palabras registradas a lo largo de 239 años de fuentes históricas capaces de ser analizadas. Esto supuso un reto para los historiadores digitales que generó varios proyectos de desarrollo de herramientas informáticas para proponer un macroanálisis de esto que, en términos de la práctica del historiador, es un conjunto de datos masivos. Entre los diversos proyectos se puede consultar el resultado de Data Mining with Criminal Intent, un proyecto multinacional; Exploring Big Historical Data: The Historian’s Macroscope, y el origen del sitio de tutoriales para historiadores digitales cuya primera versión escribieron WJ Turkel y A MacEarchen The Programming Historian version 1.

Parece que, de ahora en adelante, para los historiadores que se enfrentan de lleno al contexto digitalizado en su práctica cotidiana, saber programar, es decir, escribir código para hacer programas y extraer datos de sus documentos, es muy recomendable. En un mundo donde tenemos acceso a cantidades increíbles de datos, si se permite la comparación, será lo mismo que saber paleografiar.

Mesa de trabajo sobre lo digital en el COLMICH

Arrancamos la semana con una Mesa de Trabajo sobre el uso de la tecnología digital en las diversas investigaciones que se llevan a cabo en El Colegio de Michoacán. Dejo por aquí el programa por si a alguien le resulta de interés, generar algún diálogo.