Archivo de la etiqueta: humanidades digitales

The Programming Historian en DH2018-CDMX

Hoy terminó el Congreso DH2018 en la Ciudad de México, organizado por The Alliance of Digital Humanities Organization (ADHO), El Colegio de México y la Universidad Nacional Autónoma de México con la colaboración de la Red de Humanidades Digitales. Es la primera vez que este tipo de encuentros, que datan de 1990, se realiza en una ciudad de América Latina. La experiencia fue muy interesante; además de la oportunidad de presentar la idea para un proyecto sobre el Análisis de una cultura jurisdiccional, el Corpus jurídico hispano indiano digital, escuchar muchas ideas y propuestas para las humanidades digitales así como conocer a un montón de gente interesante, parte del equipo que editamos The Programming Historian nos reunimos por primera vez de manera presencial.

Del equipo editorial en inglés estuvieron James Baker, Matthew Lincoln y Brandon Walsh y del equipo editorial en español María José Afanador-Llach, José Antonio Motilla y yo.

Pero no solamente nos encontramos. En la mesa SP-13 “Local DH, non-standardization”, María José presentó el proyecto bajo el título: The Programming Historian en español: Estrategias y retos para la construcción de una comunidad global de HD.

El breve resumen dice:

The Programming Historian es un proyecto colaborativo de servicio académico voluntario, que se sostiene en la conformación de redes globales de conocimiento abierto. Desde la creación del equipo editorial de contenidos en español, el proyecto ha enfrentado los retos que suponen encontrar voluntarios que quieran revisar, traducir y crear nuevos tutoriales. Lo anterior, teniendo en cuenta la falta de reconocimiento y validez académica dada la carencia de mecanismos de evaluación de productos de investigación digital. De igual manera, ha resultado un reto garantizar la calidad de los contenidos desde un punto de vista lingüístico. Por último, el proyecto afronta el reto de combinar una aproximación global, que al mismo tiempo respete la diversidad local. Esta presentación es una reflexión sobre la experiencia del equipo de contenidos en español de The Programming Historian en relación al panorama general de las humanidades digitales en el mundo hispanoparlante.

Ideas para un corpus digital DH2018-CDMX

Hoy por la mañana me tocó exponer una idea para un proyecto de historia digital en el que se podría analizar la cultura jurisdiccional de la monarquía hispánica. Como seguramente no tendrá mayor difusión que la presentación verbal en el contexto del DH2018, dejo aquí el amplio resumen por si alguien tiene interés en intercambiar ideas.

Corpus Jurídico Hispano Indiano Digital: Análisis de una Cultura Jurisdiccional

DH2018 – SP08 – Text Analysis, Cultural Studies

El proyecto Corpus de derecho castellano-indiano / digital es una propuesta colectiva e interdisciplinaria que abarca la compilación, digitalización, procesamiento, macroanálisis y publicación anotada en línea del conjunto de los textos jurídicos vigentes en el marco de la monarquía castellana entre el siglo XIII y principios del XIX. El núcleo principal del proyecto es la construcción de un modelo para el macroanálisis de estos textos jurídicos y, en consecuencia, la generación de herramientas analíticas y de consulta del corpus que permitan comprender la interrelación entre sus distintos elementos semánticos y conceptuales y su transformación a través de los siglos y así proponer una interpretación de cómo es que posiblemente funcionaban en el contexto del discurso y la práctica en el orden jurídico tradicional de la cultura jurisdiccional, tanto en el ámbito de la doctrina, del ejercicio de la potestad normativa como en el del actuar cotidiano del aparato de gobierno e impartición de justicia.

El proyecto implica diversas conexiones y diálogos en distintos ámbitos. En el ámbito interdisciplinario, entre los historiadores de la corriente crítica (cultural) del derecho, lingüistas, humanistas digitales y programadores; en el ámbito teórico y metodológico, entre dos posturas acaso antagónicas en apariencia: la lectura densa y cercana de los textos jurídicos hecha por la historia cultural del derecho a lo largo de varias décadas y la lectura distante. Lo anterior nos obliga a discutir ciertos principios teóricos, como lectura densa, tomada por la historia cultural del derecho de la idea de descripción densa (Geertz, 1973), como sistema capaz de ser leído como texto en relaciones contextuales, o un nivel más complejo (Genette, 1992) y su noción de transtextualidad. Varios historiadores del derecho han aplicado incluso algo parecido a la lectura cercana del criticismo literario (Clavero, 1991). Esto interesa al estudiar el derecho de antiguo régimen frente a la posibilidad de aplicación de metodologías computacionales enfocadas, generalmente, a una lectura distante (Moretti, 2013) en la búsqueda de estructuras formales mediante el análisis de grandes cantidades de texto/data. Es justamente necesario pensar en la posibilidad de ensayar no sólo una minería de texto cuantitativa sino en aspectos más cualitativos, modelando campos semánticos que se transforman históricamente.

Cabe aclarar que el criterio de selección de fuentes para la conformación del corpus es complejo y presenta muchos problemas. Responde a una historiografía que ha definido el campo de lo jurídico en el antiguo régimen hispánico como algo más allá del texto jurídico normativo (entendido como ley). Incluye la doctrina de los juristas y de los teólogos por considerarse que la cultura jurídica tiene una estrecha relación con la doctrina católica. El corpus completo abarcaría tanto normas como doctrina y costumbre y se consideran textos jurídicos producidos tanto en Castilla como en los territorios americanos de la monarquía. Por lo tanto, no se trata de un corpus reunido de antemano en su propia época, sino de un corpus compuesto por el conjunto de la comunidad de historiadores dado que se ha analizado su utilización práctica a lo largo de los siglos y en un contexto cultural determinado (Castilla y sus dominios ultramarinos entre los siglos XIII y XIX). Tener claro cómo suponemos que se definía un texto jurídico en el antiguo régimen es de suma importancia ya que el interés del proyecto es generar una comunidad colaborativa de investigación interdisciplinario que determine sus elementos semánticos necesarios para poder caracterizar digitalmente este tipo de textos. Esto es primordial puesto que son textos completamente distintos de los literarios o de otra índole que se han considerado, por ejemplo, en la iniciativa TEI. Dicho de otra forma, el nodo fundamental del problema es cómo se construye un corpus histórico jurídico particular para que sea útil en las humanidades digitales.

Como la reunión del corpus completo es un proyecto a muy largo plazo, en una etapa piloto consideramos que trabajar con los textos normativos puede ser suficiente para ensayar la propuesta de un modelo flexible y escalable. Además, para el caso de los textos normativos ya existe un ordenamiento y un proceso de digitalización previo de esa parte del corpus. De unas 35,355 normas referenciadas se han puesto en línea, de manera digital básica, 26,831 por un grupo de académicos españoles que viene trabajando al respecto desde la década de 1970 y en el que se han ya recogido la mayor parte de las normas legisladas entre el año 1020 y 1868. Por tanto, el objetivo de esta ponencia es discutir los diferentes ejes de nuestra propuesta teórica: 1) el aspecto de su realidad digital, es decir, cuáles son los requisitos para una digitalización óptima de fuentes jurídicas que se presentan en la realidad de maneras diversas –manuscritas, impresas, cuyos contenidos varían ortográfica y semánticamente a lo largo de los siglos-, 2) el problema de qué se concibe como texto propio de la cultura jurisdiccional en el orden jurídico tradicional –no sólo los obviamente jurídicos en apariencia-, y, en consecuencia, 3) los retos que implica el diseño de herramientas digitales propias que permitan el macroanálisis de los textos como datos masivos. Esto, a su vez, implica un problema mayor y de fondo que es el de la conexión entre un necesario abordaje hermenéutico de los textos jurídicos (lectura densa) en una perspectiva de larga duración –desde la baja edad media hasta el fin de la edad moderna– para entender su contexto cultural de sentido, y el reto de procesar dichos textos entendidos como corpus y en forma de datos masivos mediante computadora (lectura distante), no sólo en procesos de segmentación del corpus para su visualización (nubes de palabras, frecuencias relativas y absolutas, KWIC), sino la posibilidad de ensayar, sobre todo, un modelado tópico semántico con objeto de reflexionar sobre cuál sería un modelo de macroanálisis adecuado para este tipo de corpus. Finalmente, proponer un modelo particular para la edición digital del corpus de los textos jurídicos propios de la cultura jurisdiccional del orden jurídico tradicional.

Referencias

Clavero, B. (1991). Antidora: antropología católica de la economía moderna. Milano: Giuffrè
Geertz, C. (1973). The Interpretation of Cultures: Selected Essays. New York: Basic Books.
Genette, G. (1992). The architext : an introduction. Berkeley: University of California Press.
Moretti, F. (2013). Distant Reading. London: Verso.

Las instituciones académicas frente al reto digital

Cada año, en El Colegio de Michoacán se lleva a cabo un evento académico paralelo a la celebración del aniversario de la fundación de la institución, que fue el 15 de enero de 1979. En esta ocasión, trigésimo noveno aniversario, tuve la oportunidad de ser el organizador con una propuesta que nos permitiera reflexionar y discutir acerca de los retos que la revolución tecnológica a impuesto a las instituciones académicas, particularmente a las dedicadas a la investigación y docencia en humanidades y ciencias sociales.

Arrancamos el jueves 18 de enero por la tarde con un taller de introducción a las humanidades digitales, que estuvo estructurado como una presentación de la ruta a seguir para la gestión de proyectos digitales, desde su planeación, propuestas de elaboración hasta la evaluación final. Por ello, el taller tuvo por nombre Guía Roji para las humanidades digitales, como un homenaje al clásico callejero en la cultura mexicana. El taller fue impartido por Natalie M. Baur (Web) y Silvia Gutiérrez (Twitter), ambas bibliotecarias de la Bibliotesca Daniel Cosío Villegas de El Colegio de México. Aquí se encuentra la nota del programa y acá se puede leer más información.

El viernes 19 de enero, luego de la ceremonia de inauguración del aniversario, tocó el turno de Anaclet Pons (Weblog | Twitter), catedrático del Departamento de Historia Contemporánea de la Universidad de Valencia, quien dictó la conferencia La sensibilidad digital y la posición del historiador. La conferencia se puede seguir en el Canal de YouTube del Colegio de Michoacán.

Posteriormente a la conferencia, se llevó a cabo un panel de discusión en el que participaron: Alberto Santiago Martínez, Isabel Galina Russel, Rosario Rogel Salazar, Silvia Gutiérrez, Natalie M. Baur y Víctor Gayol, cada quien abordando un tópico en forma de reto.

Como testigos de memoria del evento, queda este pequeño sitio Web y el video de la jornada completa del día 19 de enero.

5 palabras clave sobre CSyHD

Hoy fue la primera sesión del Taller introductorio a las Ciencias Sociales y Humanidades Digitales (CSyHD) – The Programming Historian, en El Colegio de Michoacán, A.C.

Confieso que lo disfruté. Tengo que escribir mucho más sobre esta primera experiencia. Pero ahora lo que quiero hacer es mostrar cuál es la idea en este ámbito (mexicano, latinoamericano) que se tiene cerca de las CSyHD.

Pedí a los asistentes -antes de la plática- que escribieran 5 palabras clave que reflejaran lo que creían/pensaban respecto de qué son las CSyHD. Luego, las procesé con Voyant-tools para conseguir la visualización en forma de nube de palabras.

Este es el resultado:

Mesa de trabajo sobre lo digital en el COLMICH

Arrancamos la semana con una Mesa de Trabajo sobre el uso de la tecnología digital en las diversas investigaciones que se llevan a cabo en El Colegio de Michoacán. Dejo por aquí el programa por si a alguien le resulta de interés, generar algún diálogo.

¿Big data en la investigación histórica?

¿Análisis de big data en la investigación histórica? John Mashey, el científico informático que popularizó el término big data en los años 1990, seguramente moriría de risa si le dijéramos que quienes nos dedicamos a la historia podríamos procesar nuestros datos históricos digitalizados con métodos y técnicas utilizados para el análisis de grandes conjuntos de datos (big data sets). Big data es lo que procesan las grandes empresas de análisis de datos. Se calcula que Google manejaba unos 20 Petabytes de datos diariamente en 2008 (20 X 1,0005 bytes), mientras que toda la información de una investigación histórica no debe rebasar unos cuantos GB.

Sin embargo, los autores del libro Exploring Big Historical Data: The Historian’s Macroscope (2016) recurren al viejo proverbio inglés y argumentan, con razón que: “big is in the eye of the beholder”, algo así como que “el color depende del cristal con que se mire”. Porque en la investigación histórica hay tareas que parecen irrealizables para una sola persona investigadora o para un equipo, como la de procesar en un sólo estudio los 197,752 extractos de juicios criminales digitalizados que contiene el sitio The Procedings of the Old Bailey, la corte criminal de la ciudad de Londres entre 1674 y 1913.

Sobre este libro, la revista Virtualis. Revista de cultura digital del Tecnológico de Monterrey, México, acaba de publicar una reseña mía que puedes encontrar aquí y descargar el texto en PDF.

El libro fue escrito de manera colaborativa por Shawn Graham, Ian Milligand y Scott B. Weingart y es, en realidad, un manual de metodologías, técnicas y herramientas digitales para el procesamiento de datos, mayoritariamente aquellas diseñadas para el tratamiento de lenguaje natural. Por ello, está muy estrechamente vinculado al proyecto The Programming Historian y al ya clásico libro de Cohen y Rosenzweig Digital history: a guide to gathering, preserving, and presenting the past on the Web.

Si hay una forma amable de introducción a la historia digital para estudiantes de grado y posgrado, son esos tres caminos.

Referencias

  • Cohen, D. J., & Rosenzweig, R. (2006). Digital history: A guide to gathering, preserving, and presenting the past on the Web. University of Pennsylvania Press. http://chnm.gmu.edu/digitalhistory/
  • Gayol, V. (2016). Exploring big historical data. The historian’s macroscope. Virtualis, 7(13), 102–105.
  • Graham, S., Milligan, I., & Weingart, S. (2016). Exploring big historical data: The historian’s macroscope. Imperial College Press. http://www.themacroscope.org/2.0/

Procesadores de texto vs escritura académica sostenible

Un serio problema

Hace unos días, un tesista me envió un correo electrónico diciéndome que me remitía ahí mismo el borrador completo de su tesis para hacer la última lectura de revisión antes de someterla al comité académico. Verdaderamente entusiasmado -porque es un trabajo excelente y que lo va a llevar pronto a obtener su grado- abrí el correo, pero mi sorpresa fue mayúscula ya que no encontré ningún archivo adjunto. En cuanto me percaté que el email no tenía un attachment, me comuniqué con el tesista para decirle que su texto no se había adjuntado al correo. Unas (muchas) horas después recibí otro correo en el que me explicaba que había tenido innumerables problemas para adjuntar el archivo al envío y que optaba por hacérmelo llegar por Dropbox. El archivo, que está escrito de origen y guardado como un documento .docx de MS Word ocupa casi 18MB de unidades de información. Sin embargo, su extensión no rebasa las 310 cuartillas y sólo contiene algunas cuantas ilustraciones y mapas. Nada del otro mundo, en cuanto a extensión, que amerite los 18MB (¡18’000,000 de bytes!) de espacio en mi disco duro, cuando bien podría tener solamente 1MB, considerando que cuenta apenas con cerca de 780 mil caracteres más las imágenes, que son pocas, si se ponen en baja resolución. Para tener una idea de qué es a lo que me refiero en términos de extensión, cada carácter equivale aproximadamente a 1 byte por lo que 10MB de unidades de información equivalen a dos veces la obra completa de Shakespeare.

El problema no es solamente la extensión o «peso» del archivo, sino la posibilidad de manipularlo. Como todo borrador de un trabajo, aún debe ser corregido y anotado con las observaciones del director. Si bien MS Word cuenta con una herramienta para ello (-> Herramientas -> Control de cambios), su uso es realmente engorroso y no permite una apreciación cabal y por separado de las correcciones y de las anotaciones. Por otro lado, cualquier cosa que se modifique en el texto, aún siendo solamente el añadido de una coma u otro signo de puntuación, hace tambalear todo el formato del documento, muy probablemente porque el mismo fue generado en una plataforma distinta a la que utilizamos para su corrección (el paso de Windows a Mac, por ejemplo). Incluso, después de trabajar una nota sobre un cambio sustancial, el programa se colapsa y se cierra, descartando los cambios. De esta manera, ponerse a corregir y anotar con la atención debida un trabajo tan interesante, es imposible pues acaba uno por desesperarse y restarle atención al contenido (que es lo importante) por estar preocupado del funcionamiento del procesador de textos. Más valdría entonces imprimirlo en papel para corregirlo y anotarlo de la manera tradicional, lo cual es un contrasentido tratándose de un documento digital, por no hablar del peso que sobre mi conciencia ecológica significaría gastar papel en un borrador.

En los años que tengo de trabajar en entornos digitales (por lo menos 35), ningún procesador de textos me ha dado tantos problemas como el MS Word, en cualquiera de sus versiones. En tiempos de los sistemas operativos DOS, tanto en MS como en Apple, los procesadores como WordStar, WordPerfect o Apple Writer ofrecían un buen servicio: eran robustos, sencillos y eficaces. Raramente se colapsaban, generaban archivos ligeros, y uno podia concentrarse en la tarea fundamental: escribir. Y es que aquellos procesadores carecían de las características actuales, estructuradas con la filosofía del WYSIWYG,1 y uno podía dedicarse a escribir vertiendo fluidamente las ideas en el texto sin distraerse con los detalles del diseño de los márgenes, el formato de los títulos y subtítulos de cada capítulo, el acomodo de las notas a pie y de las referencias bibliográficas así como los demás agregados, gráficos o textuales. Uno escribía y, después del punto final, se dedicaba a acomodar las cosas.

Los procesadores de texto, particularmente el MS Word, no están diseñados para la escritura académica o la literaria. Esto lo han discutido ya varios escritores, científicos sociales y humanistas. Charles Stross, un conocido escritor de ciencia ficción radicado en Escocia, fue al extremo de argumentar Why Microsoft World must Die -«Por qué debe morir MS Word»:

Microsoft Word es un tirano de la imaginación, un pequeño dictador carente de
imaginación e inconsistente, que es inadecuado para cualquier uso en la escritura creativa.
Peor aún, es casi un monopolio que domina el campo de los procesadores de texto.

Soluciones

La entrada del blog de Stross es muy interesante ya que expone varias razones por las cuales MS Word es inútil para la escritura de textos largos, como las novelas, los libros o las tesis académicas. Más aún, uno de los más graves problemas de éste y otros procesadores de texto, es que resulta imposibile producir un documento digital fiable y con garantía de permanencia dado que las actualizaciones de los programas vuelven obsoletos los archivos con la rapidez inusitada de seis meses en promedio. Todos nos hemos dado cuenta en alguna ocasión que es prácticamente imposible abrir un archivo .docx creado y guardado en la versión más actualizada, con una versión anterior del programa. MS World es un buen recurso para el flujo de trabajo de las oficinas y empresas que generan una ingente cantidad de memoranda, circulares, oficios y cartas con una vida efímera; pero no funciona cuando se trata de generar textos cuyos originales necesariamente deben estar a la mano, funcionales y legibles muchos años después, como los textos académicos. Como una alternativa para contrarrestar los diversos problemas de los procesadores de texto como MS Word, Stross sugiere el uso de Scrivener, un procesador de texto pensado para la escritura de archivos largos. Pero, sobre todo, la mejor alternativa es escribir todo en texto plano, generando y guardando archivos .txt, mucho más flexibles, almacenables, distribuibles, independientes de plataforma2 y con garantía de permanencia y legibilidad a largo plazo. Y para ello no necesitamos un procesador de texto sino simplemente un humilde editor de textos como los que vienen por defecto en todas las máquinas: Notepad++ en Windows, TextEdit en OS-X, o la gran variedad de editores que hay para Linux como Vim o gEdit.

El punto de vista de un novelista como Stross es compartido por muchos académicos, pues los problemas que representan los procesadores de texto no son una novedad entre el gremio. W. Caleb McDaniel, un joven historiador de la Rice University en Houston, TX, y egresado de la prestigiosa Johns Hopkins University, es un verdadero entusiasta de este tipo de escritura sostenible independiente de plataforma y con garantía de permanencia. Basta con leer alguno de sus varios textos dedicados al tema, como por ejemplo, Why (and How) I Wrote My Academic Book in Plain Text -«Por qué (y cómo) escribí mi libro académico en texto plano.» En este texto, McDaniel explica detalladamente el cómo es posible adaptar la escritura en texto plano a los requerimientos de los textos académicos mediante la aplicación de un marcaje semántico en el propio texto con el lenguaje de marcado Markdown, desarrollado por John Gruber y Aaron Swartz. Así, es posible hacer uso de cursivas, negritas, listados, referencias y listas bibliográficas, tablas, notas a pie de página y demas florituras de los modos de escribir en nuestro oficio, con sólo un editor de texto plano. ¡Exacto! Hace falta solamente un editor de texto plano, conocer la sintaxis de Markdown y recurrir a herramientas pensadas especialmente para la escritura académica como Pandoc,3 un traductor que funciona en línea de comandos y que convierte archivos .txt o .md a cualquier formato imaginable: .doc, .docx, .odt, .pdf, .html, .tex y un amplio etcétera. Cabe decir que Pandoc fue desarrollado por John MacFarlane, un profesor de filosofía de la University of California, Berkeley; es decir, se trata de una herramienta para académicos pensada y hecha por académicos. En otras palabras: humanidades digitales en su máxima expresión. Al final de su entrada, McDaniel termina explicando el porqué no volvería a utilizar MS Word en su vida. Y yo estoy de acuerdo con él.

Desde que hace casi un año me topé con el sitio The Programming Historian (de cuyo equipo editorial ahora formo parte),4 descubrí varias herramientas y lecciones que me permitieron dejar de complicarme la existencia con los procesadores de texto, así como otra serie de prácticas sostenibles para la producción académica, al grado de que tengo ya varios meses en los que no he abierto MS Word para escribir mis textos, sino única y exclusivamente para leer los que recibo. A continuación dejo algunas pistas de lo que nos puede ser útil como científicos sociales o humanistas para crear textos académicos digitales sostenibles.

En The Programming Historian se encuentra una buena introducción a Markdown, escrita por Sarah Simpkin, «Getting Started with Markdown.» También hay una excelente lección que nos enseña a generar una escritura sostenible con texto plano, Markdown y Pandoc, escrita por Dennis Tennen y Grant Wythoff, «Sustainable Authorship in Plain Text using Pandoc and Markdown.» Si a esto le sumamos buenas prácticas para la conservación de los datos de nuestra investigación, como las que sugiere James Baker en «Preserving Your Research Data«, podemos tener la seguridad de que nos ahorraremos los incontables dolores de cabeza, pérdidas y problemas que nos depara (casi) siempre el uso de software propietario, lo cual redundará en la calidad, permanencia, posibilidad de distribución y colaboración, almacenamiento y más de nuestros textos académicos.

Para leer más

  • Dougherty, Jack y Kristen Nawrotzki. 2013. Writing History in the Digital Age. Ann Arbor: University of Michigan Press. http://writinghistory.trincoll.edu
  • Rosenzweig, Roy. 2011. Clio Wired: The Future of the Past in the Digital Age. New York: Columbia University Press. http://public.eblib.com/choice/publicfullrecord.aspx?p=895110.
  • Voutssas Márquez, Juan. 2013. Cómo preservar mi patrimonio digital personal. México: Universidad Nacional Autónoma de México, Instituto de Investigaciones Bibliotecnológicas y de la Información.

  1. Acrónimo de «what you see is what you get» (lo que ves es lo que obtienes), para referirse a la capacidad de la interfaz gráfica de usuario de las aplicaciones para desplegar el diseño de un documento digital tal y como se verá impreso. Sin embargo, la idea de WYSIWYG es tramposa, pues lo que en realidad conseguimos es un archivo con un código y un marcado muy complejos y confusos para nuestro entendimiento, que se aloja en una capa «invisible», lo cual lo hace inmanejable.
  2. Es decir, legibles sin pérdidas o alteraciones en cualquier plataforma o sistema operativo como Mac, Linux o Windows.
  3. Pandoc es una «biblioteca» o conjunto de módulos o programas escritos en Haskell, un lenguaje de programación de alto nivel multi propósito, y cuenta con una herramienta de línea de comandos que permite utilizar dicha biblioteca.
  4. Estamos trabajando muy duro y en breve contaremos con una versión en español de todo el contenido alojado en The Programming Historian.