Archivo de la etiqueta: historia digital

Procesadores de texto vs escritura académica sostenible

Un serio problema

Hace unos días, un tesista me envió un correo electrónico diciéndome que me remitía ahí mismo el borrador completo de su tesis para hacer la última lectura de revisión antes de someterla al comité académico. Verdaderamente entusiasmado -porque es un trabajo excelente y que lo va a llevar pronto a obtener su grado- abrí el correo, pero mi sorpresa fue mayúscula ya que no encontré ningún archivo adjunto. En cuanto me percaté que el email no tenía un attachment, me comuniqué con el tesista para decirle que su texto no se había adjuntado al correo. Unas (muchas) horas después recibí otro correo en el que me explicaba que había tenido innumerables problemas para adjuntar el archivo al envío y que optaba por hacérmelo llegar por Dropbox. El archivo, que está escrito de origen y guardado como un documento .docx de MS Word ocupa casi 18MB de unidades de información. Sin embargo, su extensión no rebasa las 310 cuartillas y sólo contiene algunas cuantas ilustraciones y mapas. Nada del otro mundo, en cuanto a extensión, que amerite los 18MB (¡18’000,000 de bytes!) de espacio en mi disco duro, cuando bien podría tener solamente 1MB, considerando que cuenta apenas con cerca de 780 mil caracteres más las imágenes, que son pocas, si se ponen en baja resolución. Para tener una idea de qué es a lo que me refiero en términos de extensión, cada carácter equivale aproximadamente a 1 byte por lo que 10MB de unidades de información equivalen a dos veces la obra completa de Shakespeare.

El problema no es solamente la extensión o «peso» del archivo, sino la posibilidad de manipularlo. Como todo borrador de un trabajo, aún debe ser corregido y anotado con las observaciones del director. Si bien MS Word cuenta con una herramienta para ello (-> Herramientas -> Control de cambios), su uso es realmente engorroso y no permite una apreciación cabal y por separado de las correcciones y de las anotaciones. Por otro lado, cualquier cosa que se modifique en el texto, aún siendo solamente el añadido de una coma u otro signo de puntuación, hace tambalear todo el formato del documento, muy probablemente porque el mismo fue generado en una plataforma distinta a la que utilizamos para su corrección (el paso de Windows a Mac, por ejemplo). Incluso, después de trabajar una nota sobre un cambio sustancial, el programa se colapsa y se cierra, descartando los cambios. De esta manera, ponerse a corregir y anotar con la atención debida un trabajo tan interesante, es imposible pues acaba uno por desesperarse y restarle atención al contenido (que es lo importante) por estar preocupado del funcionamiento del procesador de textos. Más valdría entonces imprimirlo en papel para corregirlo y anotarlo de la manera tradicional, lo cual es un contrasentido tratándose de un documento digital, por no hablar del peso que sobre mi conciencia ecológica significaría gastar papel en un borrador.

En los años que tengo de trabajar en entornos digitales (por lo menos 35), ningún procesador de textos me ha dado tantos problemas como el MS Word, en cualquiera de sus versiones. En tiempos de los sistemas operativos DOS, tanto en MS como en Apple, los procesadores como WordStar, WordPerfect o Apple Writer ofrecían un buen servicio: eran robustos, sencillos y eficaces. Raramente se colapsaban, generaban archivos ligeros, y uno podia concentrarse en la tarea fundamental: escribir. Y es que aquellos procesadores carecían de las características actuales, estructuradas con la filosofía del WYSIWYG,1 y uno podía dedicarse a escribir vertiendo fluidamente las ideas en el texto sin distraerse con los detalles del diseño de los márgenes, el formato de los títulos y subtítulos de cada capítulo, el acomodo de las notas a pie y de las referencias bibliográficas así como los demás agregados, gráficos o textuales. Uno escribía y, después del punto final, se dedicaba a acomodar las cosas.

Los procesadores de texto, particularmente el MS Word, no están diseñados para la escritura académica o la literaria. Esto lo han discutido ya varios escritores, científicos sociales y humanistas. Charles Stross, un conocido escritor de ciencia ficción radicado en Escocia, fue al extremo de argumentar Why Microsoft World must Die -«Por qué debe morir MS Word»:

Microsoft Word es un tirano de la imaginación, un pequeño dictador carente de
imaginación e inconsistente, que es inadecuado para cualquier uso en la escritura creativa.
Peor aún, es casi un monopolio que domina el campo de los procesadores de texto.

Soluciones

La entrada del blog de Stross es muy interesante ya que expone varias razones por las cuales MS Word es inútil para la escritura de textos largos, como las novelas, los libros o las tesis académicas. Más aún, uno de los más graves problemas de éste y otros procesadores de texto, es que resulta imposibile producir un documento digital fiable y con garantía de permanencia dado que las actualizaciones de los programas vuelven obsoletos los archivos con la rapidez inusitada de seis meses en promedio. Todos nos hemos dado cuenta en alguna ocasión que es prácticamente imposible abrir un archivo .docx creado y guardado en la versión más actualizada, con una versión anterior del programa. MS World es un buen recurso para el flujo de trabajo de las oficinas y empresas que generan una ingente cantidad de memoranda, circulares, oficios y cartas con una vida efímera; pero no funciona cuando se trata de generar textos cuyos originales necesariamente deben estar a la mano, funcionales y legibles muchos años después, como los textos académicos. Como una alternativa para contrarrestar los diversos problemas de los procesadores de texto como MS Word, Stross sugiere el uso de Scrivener, un procesador de texto pensado para la escritura de archivos largos. Pero, sobre todo, la mejor alternativa es escribir todo en texto plano, generando y guardando archivos .txt, mucho más flexibles, almacenables, distribuibles, independientes de plataforma2 y con garantía de permanencia y legibilidad a largo plazo. Y para ello no necesitamos un procesador de texto sino simplemente un humilde editor de textos como los que vienen por defecto en todas las máquinas: Notepad++ en Windows, TextEdit en OS-X, o la gran variedad de editores que hay para Linux como Vim o gEdit.

El punto de vista de un novelista como Stross es compartido por muchos académicos, pues los problemas que representan los procesadores de texto no son una novedad entre el gremio. W. Caleb McDaniel, un joven historiador de la Rice University en Houston, TX, y egresado de la prestigiosa Johns Hopkins University, es un verdadero entusiasta de este tipo de escritura sostenible independiente de plataforma y con garantía de permanencia. Basta con leer alguno de sus varios textos dedicados al tema, como por ejemplo, Why (and How) I Wrote My Academic Book in Plain Text -«Por qué (y cómo) escribí mi libro académico en texto plano.» En este texto, McDaniel explica detalladamente el cómo es posible adaptar la escritura en texto plano a los requerimientos de los textos académicos mediante la aplicación de un marcaje semántico en el propio texto con el lenguaje de marcado Markdown, desarrollado por John Gruber y Aaron Swartz. Así, es posible hacer uso de cursivas, negritas, listados, referencias y listas bibliográficas, tablas, notas a pie de página y demas florituras de los modos de escribir en nuestro oficio, con sólo un editor de texto plano. ¡Exacto! Hace falta solamente un editor de texto plano, conocer la sintaxis de Markdown y recurrir a herramientas pensadas especialmente para la escritura académica como Pandoc,3 un traductor que funciona en línea de comandos y que convierte archivos .txt o .md a cualquier formato imaginable: .doc, .docx, .odt, .pdf, .html, .tex y un amplio etcétera. Cabe decir que Pandoc fue desarrollado por John MacFarlane, un profesor de filosofía de la University of California, Berkeley; es decir, se trata de una herramienta para académicos pensada y hecha por académicos. En otras palabras: humanidades digitales en su máxima expresión. Al final de su entrada, McDaniel termina explicando el porqué no volvería a utilizar MS Word en su vida. Y yo estoy de acuerdo con él.

Desde que hace casi un año me topé con el sitio The Programming Historian (de cuyo equipo editorial ahora formo parte),4 descubrí varias herramientas y lecciones que me permitieron dejar de complicarme la existencia con los procesadores de texto, así como otra serie de prácticas sostenibles para la producción académica, al grado de que tengo ya varios meses en los que no he abierto MS Word para escribir mis textos, sino única y exclusivamente para leer los que recibo. A continuación dejo algunas pistas de lo que nos puede ser útil como científicos sociales o humanistas para crear textos académicos digitales sostenibles.

En The Programming Historian se encuentra una buena introducción a Markdown, escrita por Sarah Simpkin, «Getting Started with Markdown.» También hay una excelente lección que nos enseña a generar una escritura sostenible con texto plano, Markdown y Pandoc, escrita por Dennis Tennen y Grant Wythoff, «Sustainable Authorship in Plain Text using Pandoc and Markdown.» Si a esto le sumamos buenas prácticas para la conservación de los datos de nuestra investigación, como las que sugiere James Baker en «Preserving Your Research Data«, podemos tener la seguridad de que nos ahorraremos los incontables dolores de cabeza, pérdidas y problemas que nos depara (casi) siempre el uso de software propietario, lo cual redundará en la calidad, permanencia, posibilidad de distribución y colaboración, almacenamiento y más de nuestros textos académicos.

Para leer más

  • Dougherty, Jack y Kristen Nawrotzki. 2013. Writing History in the Digital Age. Ann Arbor: University of Michigan Press. http://writinghistory.trincoll.edu
  • Rosenzweig, Roy. 2011. Clio Wired: The Future of the Past in the Digital Age. New York: Columbia University Press. http://public.eblib.com/choice/publicfullrecord.aspx?p=895110.
  • Voutssas Márquez, Juan. 2013. Cómo preservar mi patrimonio digital personal. México: Universidad Nacional Autónoma de México, Instituto de Investigaciones Bibliotecnológicas y de la Información.

  1. Acrónimo de «what you see is what you get» (lo que ves es lo que obtienes), para referirse a la capacidad de la interfaz gráfica de usuario de las aplicaciones para desplegar el diseño de un documento digital tal y como se verá impreso. Sin embargo, la idea de WYSIWYG es tramposa, pues lo que en realidad conseguimos es un archivo con un código y un marcado muy complejos y confusos para nuestro entendimiento, que se aloja en una capa «invisible», lo cual lo hace inmanejable.
  2. Es decir, legibles sin pérdidas o alteraciones en cualquier plataforma o sistema operativo como Mac, Linux o Windows.
  3. Pandoc es una «biblioteca» o conjunto de módulos o programas escritos en Haskell, un lenguaje de programación de alto nivel multi propósito, y cuenta con una herramienta de línea de comandos que permite utilizar dicha biblioteca.
  4. Estamos trabajando muy duro y en breve contaremos con una versión en español de todo el contenido alojado en The Programming Historian.

Hacer historia en la era digital: big data

Hace justo unos tres años apareció un video en el canal de PHD Comics acerca del trabajo de tesis doctoral de Adam Crymble, uno de los principales animadores del proyecto The Programming Historian.

Con el reto de ¿Puedes contar tu tesis en dos minutos?, el video muestra la utilización de las nuevas tecnologías aplicadas a la investigación histórica, en este caso, la historia de la migración irlandesa a Londres de principios del siglo XIX. Este tipo de investigaciones es posible gracias a la gran cantidad de fuentes de archivo digitalizadas (por lo general, en los países anglosajones), que permiten la aplicación de métodos, técnicas y herramientas informáticas para el análisis del lenguaje natural.

Sin más, comparto el video y dejo abajo la transcripción, hecha por Jairo Melo para el proyecto Historia abierta.

Transcripción

¿Puedes describirnos tu tesis en dos minutos?

Muchas personas piensan que los historiadores gastan todo su tiempo en las bibliotecas leyendo libros y ciertamente no están tan equivocados sin embargo, recientemente las bibliotecas se han vuelto muy grandes, demasiado grandes, y se están creciendo a una velocidad impresionante.

Eso es porque millones de documentos han sido digitalizados y están disponibles actualmente en línea. Los historiadores se enfrentan ahora a más material del que pueden esperar leer en un vida o incluso en cien vidas.

Mi investigación aborda un típico problema histórico: ¿Cómo fueron tratados los Inmigrantes irlandeses en Londres, Inglaterrra al inicio de la revolución industrial?

Pero, en lugar de encerrarme en una biblioteca utilicé mi ordenador para aprovechar uno de los mejores trucos de la informática llamado Lectura Distante («Distant Reading»).

La lectura distante significa básicamente saber qué dice algo sin leerlo realmente. Es el tipo de clasificación que usa Google cuando quieres buscar la receta de un pastel de manzana. Google tiene una gran cantidad de páginas web pero ellos crearon un programa que les ayuda a buscar la información.

Yo estoy haciendo lo mismo, pero en lugar de buscar pasteles me hago preguntas como:
¿qué documentos se refieren a los irlandeses?

Como Google, tuve que desarrollar un programa que sistematizara la búsqueda de información y me ayudara a saber cuál es relevante y cual no lo cual es importante cuando estás trabajando con bases de datos que contienen cientos de millones de palabras.

Pero encontrar información relevante no es todo lo que puedes hacer en la era del Internet.

Los ordenadores también me han permitido evidenciar aspectos en los cuales la vida cotidiana de los irlandeses del siglo XIX se diferenciaba de la de los demás londinenses

Por ejemplo, puedo decirte que un irlandés tenía cuatro veces más posibilidades de ser llevado a juicio de las que tenía un londinense en toda su vida.

No hay manera en la que hubiese encontrado este hecho de no ser por la «lectura distante». Vivimos en un mundo sobre-informado y manejar la información correctamente puede representar la diferencia entre encontrar lo que necesitas o naufragar en un mar de datos. Hay mucho por leer, así que hay que encontrar una nueva manera para hacerlo.

Mi nombre es Adam Crymble estoy estudiando en el Kings College London del Reino Unido y el título de mi tesis es: «Entendiendo la experiencia del inmigrante irlandés en Londres a través de un análisis textual de larga-escala, 1801-1820»

Nuevo equipo de editores en español para The Programming Historian

Ahora sí, podemos hacer público el anuncio. El pasado mes de julio se publicó una convocatoria para reclutar a una persona encargada de comenzar a traducir al español las más de 45 lecciones originales que forman parte de la plataforma The Programming Historian. Esto es un hecho sin precedentes pues, como es bien sabido, la mayor parte de los tutoriales e instrucciones disponibles sobre técnicas y herramientas para la humanidades y la historia digital están en inglés. Por supuesto que han habido intentos de traducción, como los que publicamos a principios de este año en el sitio original de Cibercliografía, entre otros. Pero nada mejor que hacerlo con la gente de la propia plataforma e integrándose al proyecto.

Después de recibir solicitudes y entrevistas, el equipo de PH decidió que los tres finalistas integráramos un equipo. Así que, a partir de esta fecha, estaré trabajando con mis colegas para dar forma a lo que hasta hace unos meses era sólo un sueño. Mis colegas de ruta son:

Maria José Afanador-Llach, quien obtuvo recientemente un doctorado en Historia de la Universidad de Texas en Austin. Actualmente está colaborando con colegas en la Fundación Histórica Neogranadina, una organización sin ánimo de lucro que está digitalizando archivos coloniales en peligro y promoviendo proyectos de humanidades digitales. Tiene amplia experiencia traduciendo escritos académicos del inglés al español y está comprometida con cultivar iniciativas de investigación digital en América Latina.

Antonio Rojas Castro, quien tiene un doctorado en Humanidades de la Universitat Pompeu Fabra en Barcelona, España. Como parte de su disertación construyó una edición digital crítica de las Soledades de Luis de Góngora (actualmente en versión beta). En 2013 creó el Grupo de Humanidades Digitales de Zotero, y actualmente es el Coordinador de Comunicaciones de la European Association for Digital Humanities (EADH).

Así que, ¡manos a la obra! Espero que pronto tengamos un The Programming Historian en español en línea…