Técnica

Este documento tiene por objeto enunciar y describir cada una de las fases del algoritmo de procesos propuesto para cubrir la reproducción de la expresión textual contenida en una reprografía facsimilar digital a un reservorio digital que habrá de albergar ese corpus de manera que resulte apto para su análisis por medios digitales, reutilizable para otros fines y transformable para el futuro. Particularmente, este documento técnico contiene la secuencia del algorítimo de procesos propuesto para el Proyecto “Noticias del Viejo Imperio, 1860-1866”, mismo que le da marco, intención y cabida. Su redacción responde a la necesidad de explicar las fases del proceso general de transferencia textual que se requiere para el desarrollo de este proyecto, y se pretende con él responder a las necesidades del agente técnico, usuario o investigador que pretenda acercarse al mismo, no sólo para su utilización, como para su cabal comprensión.

Más allá de la definición que del término ‘algoritmo’ –tan en boga hoy día– nos pudiera dar la Real Academia Española de la Lengua, instrumentalizada mediante su Diccionario de la Lengua Española, emplearemos aquí la reelaboración de la misma, más concreta, menos ambigua, que propone el artículo de la Wikipedia en español: “un algoritmo […] es un conjunto prescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una actividad mediante pasos sucesivos que no generen dudas a quien deba realizar dicha actividad”. La necesidad de establecer un algoritmo que describa los procesos técnicos viene dada por que este mismo proceso establece, según Kozen (1992),

  • una entrada –en este caso, el texto contenido en la reprografía documental– y una salida –aquí, el texto extendido, en formato plaintext/markdown– del sistema;
  • una serie de pasos que constituyen una forma concreta de discretización –de secuenciación selectiva, si se quiere– del tiempo, lo que provoca que la producción de este algoritmo sea independiente de su reproducción; y
  • una descripción concreta y físicamente acotada, sin que deje lugar a la ambigüedad, de las transiciones entre las fases, que es lo que se pretende en el presente conjunto de documentos técnicos.

Antes de la implementación de este proyecto, y dadas las antedichas premisas, hemos desarrollado una serie de documentos técnicos cuyo objetivo es el de permitir la consecución exitosa de nuestros objetivos. Durante la elaboración de estos documentos técnicos, hemos tenido siempre en mente la especificidad de los conceptos tratados, la ejemplificación de todos los casos comprendidos en las explicaciones, y la facilidad de uso por parte del usuario final. Estos documentos técnicos, elaborados a partir del conocimiento de diversos proyectos digitales –entre los que destacan Avisos de Levante, la Biblioteca Digital del Pensamiento Novohispano, el Medici Archive Project, la plataforma Transcribe Bentham y el proyecto RELMIN– y de algunas recomendaciones y experiencias en la elaboración de proyectos digitales, son los siguientes:

  • el presente documento técnico, nombrado Secuencia del Algoritmo de Procesos, que enuncia y describe cada una de las fases del algoritmo propuestas para cubrir la reproducción del texto contenido en un documento a un reservorio digital que habrá de albergar el corpus resultante;
  • unas pautas de Selección, cuya finalidad es la de mostrar de forma transparente los procesos inherentes a los criterios búsqueda y selección de fuentes en la presente investigación histórica;
  • unas reglas de Catalogación, que permiten la correcta implementación de un esquema de metadatos en cada uno de los productos finales del proyecto;
  • unas reglas de Transcripción de tradición paleográfica latina, cuyo objeto es el de expresar las acciones a desarrollar en la transferencia del texto contenido en una reprografía facsimilar digital a un entorno textual digital en formato plaintext/markdown;
  • unas reglas de Edición, que muestran los distintos procedimientos paralelos necesarios para completar la sistematización de la información textual digitalizada por transcripción mediante la aplicación, sobre los textos transcritos, primero, de la división discreta de la información en ellos contenida, y después, de la reestructuración de los fragmentos producidos en una estructura etiquetada en formato JSON para su almacenamiento, procesamiento, visualización y análisis; y
  • unos lineamientos de Publicación, íntimamente vinculados a las antedichas reglas de Catalogación, que servirán a la disponibilización pública prolongada de los objetos fruto de este proyecto.

En el texto subsiguiente, producto de la reflexión y del empirismo en cuanto a su definición, podrá el lector –agente, usuario, investigador…– encontrar descripciones que, como indicara Cormen (et al., 2009), pueden ser consideradas de alto nivel técnico, puesto que buscan establecer el problema, seleccionar el modelo o estándar a seguir y explicar el algoritmo de manera verbal, vienen acompañadas de descripciones formales en las que se usan formas codificadas de lenguaje técnico con la intención de describir la secuencia de pasos necesaria para obtener el resultado pretendido, y en muchos casos una ejemplificación de su implementación.

I. Selección

La primera fase técnica será la de Selección, que se aplicará sobre las fuentes para designar el origen y el orden de su inclusión dentro del sistema. La incorporación discrecional de elementos reprográficos siempre estará sujeta al dictamen de los responsables del proyecto, quienes serán en todo momento responsables también del propio reservorio digital.

Se ha determinado, a partir de un minucioso examen de la documentación preservada en distintos acervos, una tipología de documentos relevantes para su inclusión en este proyecto. En esta primera etapa de desarrollo del proyecto, nos ceñiremos únicamente a periódicos, revistas, diarios de sesiones, imágenes y libros. La selección de estos obligará a que sean sometidos a registro y almacenamiento, y deberán para su selección contener información que haga referencia directa a la Escuadra del Pacífico, la expedición de la misma y la posterior Guerra Hispanosudamericana, todo ello en una cronología que vaya de 1862 a 1866, dejando para una etapa de revisión de la selección posterior el período 1860-1862. Se podrán, asímismo, registrar y almacenar fuentes cuyo contenido haga referencia a la política exterior y americana de la Monarquía española.

Como objeto técnico producto de esta fase obtendremos una reprografía de cada documento que se haya seleccionado de su acervo original, que será sobre la que se apliquen las acciones técnicas de la siguiente fase.

II. Catalogación

Dentro del algoritmo de procesos del presente proyecto se producen tres objetos técnicos concretos: una reprografía facsimilar digital proporcionada por diversas instituciones de resguardo y/o digitalización de fondos, un archivo de texto plano con la transcripción del texto en formato Markdown y un archivo JSON que contiene el texto segmentado, serializado y semantizado. Todos ellos integrarán metadatos, aunque desde este proyecto dichos metadatos sólo se integrarán en dos de ellos.

La labor de catalogación por metadatos de los objetos técnicos concretos producto de la transcripción textual se realiza, en este proyecto, en dos momentos diferenciados dentro del algoritmo de procesos, puesto que son dos los productos finales de esta técnica. Un primer momento corresponde a la segunda fase de dicho algoritmo, propiamente de Catalogación, mientras que el segundo momento de catalogación por metadatos se produce en la quinta fase, de Edición, según se especifica en el antedicho documento.

Se aplican, mediante el etiquetado de metadatos dentro de los archivos de texto plano de la fase de Transcripción, tres conjuntos de metatados –Archivo, Versión y Publicación– que servirán como base para la elaboración de los cinco conjuntos de metadatos –Archivo, Estructura, Relación, Versión y Publicación– durante la fase de Edición.

En esta fase, por tanto, no se producen objetos técnicos concretos que puedan servir por sí mismos, sino partes de otros objetos técnicos: durante su aplicación en la fase de Transcripción se completan los objetos técnicos fruto de dicha fase con los metadatos necesarios, y lo mismo sucede en la fase de Edición con sus objetos técnicos finales.

III. Transcripción

La tercera fase será la de Transcripción, en la que se llevará a cabo la creación de un archivo de texto plano en formato Markdown a partir de la información que se capture digitalmente del texto contenido en el facsímil digital, bajo ciertas normas de transcripción ya establecidas. Dichas normas han sido elaboradas con base en una tradición latina de paleografía. Parece necesario hacer notar al usuario que al hablar de códigos de caracteres no estamos haciendo referencia a idiomas o lenguas concretas, sino a los esquemas generales de expresión escrita de las mismas, dentro de los condicionantes del ambiente digital en el que se pretende desarrollar el proyecto.

Esta fase debe incluir también las notas de transcripción, que reflejan información editorial sobre la elaboración del texto –paginación o foliación, firmas ilegibles y errores del escribano, daños y falencias del documento, etcétera– contenida tanto en el documento preservado en el acervo de origen, como en la reprografía y en el facsímil digital en forma de contenido textual o textualizable, pero que se considera de valor para la investigación histórica.

Esta fase es una de las más complejas del algoritmo de procesos, y requiere por tanto de capacitación especial, dado que el objeto técnico fruto de la misma –el archivo plaintext/markdown– es ya un objeto sobre el cual se pueden realizar investigaciones históricas con herramientas digitales.

IV. Edición

En la cuarta fase, de Edición, se transformarán aquellos documentos en formato plaintext/markdown –algunos en solitario, otros en conjunto…– en documentos digitales en formato application/json, sujeto a la RFC 4627, que permitirán aprovechar mejor las ventajas de los entornos digitales para su visualización, publicación y reutilización.

La elección de este formato, basado en el lenguaje JSON –las siglas en inglés de JavaScript Object Notation–, se detalla en el documento técnico correspondiente. Después de una investigación bastante intensa, y del establecimiento de una comparación entre las virtudes y defectos de ambos sistemas, nos decantamos por JSON en detrimento de XML/TEI.

Podemos anticipar que una de las razones antedichas es la coexistencia de varias colecciones, o corpora, dentro del mismo proyecto. Tal y como se explica en el documento técnico relativo a la Selección, varias series documentales han sido seleccionadas para su digitalización. Se han definido, a partir de las necesidades del presente proyecto, cuatro estructuras generales de datos en JSON, una de ellas particular para cada documento integrado en el sistema, y otras tres, una por cada forma de serialización establecida. En cuanto a estas, fueron establecidas en función de la forma de los distintos corpus definidos a partir de la realización de la fase de Selección. A partir de dicha selección, se encontró que la mayor parte de la documentación respondía a los siguientes rubros: diarios, narraciones e informes de viaje; artículos de prensa política, tanto oficial como particular; correspondencia diplomática y de gobierno; y debates legales y políticos en las Cortes.

V. Publicación

La última fase será la de Publicación, en la cual se procederá a poner a disposición del público la mayor parte de los objetos digitales intermedios y finales a la investigación producidos en el marco del presente proyecto, con la excepción consabida de aquellos cuya publicación se realice de forma externa al sitio web del proyecto. Estos objetos se pueden clasificar en cuatro tipos:

  • en primer lugar, las transcripciones en formato plaintext/markdown, según se detalla en el documento técnico relativo a la fase de Transcripción;
  • el segundo tipo estará constituido por las serializaciones elaboradas en formato application/json a partir de las transcripciones, que podrán tener una estructura narrativa, espacial, cronolineal o de red evolvente, como se detalla en la documentación técnica correspondiente a la fase de Edición;
  • el tercer tipo es la propia documentación técnica del proyecto, del que el presente documento es buena muestra, y que, por haber sido elaborada en el mismo formato plaintext/markdown, se compartirá en dicho formato además de publicarse en el sitio web tras convertirla de forma automatizada a HTML5;
  • y, por último, los desarrollos de software que se contemplan como parte esencial de esta misma fase, dada la necesidad de adaptar un software preexistente a las necesidades de una edición digital documental —aplicable tanto a la gestión de corpora como de documentos independientes, aun con múltiples variantes y/o versiones—, que se empaquetarán para su distribución en formatos abiertos.

En esta fase se utilizarán los servicios ofrecidos por Humanities Commons tanto para la publicación directa de la documentación técnica y de algunas transcripciones en formato HTML5 a partir de sus correspondientes documentos plaintext/markdown, como para la publicación de dichos originales y de la documentación técnica en formato PDF, de las serializaciones en formato application/json, y del código fuente del software empaquetado para su distribución e instalación en su repositorio CORE.

Sólo resta añadir que se emplearán tres licencias distintas de distribución y uso dependiendo de los objetos digitales a que nos refiramos, información que podrá ser consultada de forma explícita en cada una de las publicaciones, como se puede comprobar al final del presente documento técnico.

Referencia

El presente documento, Procesos técnicos del proyecto “Noticias del Viejo Imperio, 1860-1866”, creado por David Domínguez Herbón y Álvaro Casillas Pérez, es una publicación respaldada por el Centro de Estudios Americanos y la Facultad de Artes Liberales de la Universidad Adolfo Ibáñez, el Instituto Universitario de Investigación en Estudios Latinoamericanos de la Universidad de Alcalá y el Centro Europeo para la Difusión de las Ciencias Sociales, instituciones bajo cuyos auspicios se publica.

URL: https://envi19.hcommons.org/proyecto/tecnica/

DOI: 10.17613/bpgd-k097