La marcación de textos en el proceso editorial

La introducción durante el proceso editorial de marcas (tags, en inglés) en el texto que se va a publicar es una práctica tan antigua como la imprenta. Algunas de esas marcas se formalizaron pronto y adquirieron valor casi universal, como las usadas en la corrección de textos. La marcación añade información e instrucciones y lo esencial es que pueda ser entendida y ejecutada por otra persona.

Con la universalización de las computadoras e internet, la marcación del contenido, especialmente texto, ha adquirido una importancia extraordinaria, pues los lectores de los documentos que se crean, editan y transmiten, no son sólo personas sino máquinas, y las máquinas necesitan unas instrucciones muy precisas para entender, representar y trabajar con lo que leen. Hoy en día, la inmensa mayoría de la información que se transmite y procesa, sea en el ámbito que sea, está tageada. Cuanta mas estructurada es la información que se facillita a una computadora, mejor puede ser procesada.

Como lo esencial de la marcación es que tenga un significado inequívoco para una computadora, son necesarios lenguajes, dialectos y equemas de marcación, algunos de propósito general y otros adaptados a sectores específicos de actividad. Estos lenguajes establecen las reglas sintácticas y el significado de las marcas que definen. Los que más se han extendido son SGML y sus derivados HTML y XML. Estos lenguajes tienen la ventaja añadida de escribirse en texto plano, de forma que un documento escrito con lenguajes de marcado puede ser editado por un usuario con un sencillo editor de textos, sin perjuicio de que se puedan utilizar programas más sofisticados que faciliten el trabajo y, lo que es más importante, el texto plano puede ser manipulado con facilidad y exactitud por procesos programáticos.

Las marcas que se pueden añadir a un texto pueden tener el nivel de detalle (granularidad) que se quiera y aportar información tanto del significado de la información marcada (semántica) como instrucciones sobre cómo representar o procesar el texto marcado. Por tanto, se pueden marcar los textos y otros contenidos hasta convertirlos en una especie de conjunto de entradas de una base de datos con multitud de campos, lo que permite, mediante la programación adecuada, presentarlos en múltiples formas y formatos; dividirlos en unidades reutilizables; extractarlos, almacenarlos, distribuirlos, imprimirlos y un largo etcétera.

Aunque los lenguajes de marcación están muy relacionados con la industria editorial, sólo en el sector de los libros de Texto, Científicos, Técnicos y Médicos, se han adoptado procesos de trabajo basados en XML; en el resto, las editoriales no han encontrado rentable invertir en nuevos procesos y siguen firmemente apegadas al procesador de texto y el programa de diseño y maquetación InDesign o Quark. La razón es muy sencilla: hasta hace poco tiempo, la única forma que tenía la industria editorial de producir libros impresos de calidad utilizando como base del proceso lenguajes de marcación era usando SGML-XML. Pero estos idiomas, aunque tienen una sintaxis sencilla, su adopción en un proceso de trabajo editorial real es muy complicada, tanto técnica como operativamente y requieren una considerable cantidad de apoyo de programación. Baste un ejemplo ilustrativo de ello. O’Reilly, el más importante editor de libros sobre computación y software del mundo, lleva décadas haciendo sus libros usando SGML y XML. Sus famosos colofones normalmente dan algunos detalles de la cadena de trabajo usada en la producción del libro. Este es un ejemplo de uno de ellos:

The text was prepared by Jeffrey Friedl in a hybrid markup of his own design, mixing SGML, raw troff, raw PostScript, and his own markup. A home-grown filter translated the latter to the other, lower-level markups, the result of which was processed by a locally-modified version of O’Reilly’s SGML tools (this step requiring upwards of an hour of raw processing time, and over 75 megabytes of process space, just for Chapter 7!). That result was then processed by a locally-modified version of James Clark’s gtroff, producing camera-ready PostScript for O’Reilly. (de Mastering Regular Expressions. Primera edición, 1997)

Eso era en 1997. La aprobación en 1998 de la Recomendación sobre XML por el World Wide Web Consortium con el objetivo, entre otros, de simplificar SGML, ha facilitado que XML sea hoy la lingua franca de intercambio de datos entre ordenadores, pero su implementación en los procesos editoriales sigue siendo complicada.

Afortunadamente, la reciente extensión de las funcionalidades de CSS3 para la presentación del contenido web en una forma paginada, como es el libro impreso, cambia las cosas, al permitir que la implementación de procesos productivos basados en lenguajes de marcación sea mucho más sencilla, barata y escalonada.

Fernando Nolla

Diciembre 2014