La gestaci贸n de libros digitales y de bibliotecas virtuales en el marco de la Uni贸n Europea (y el caso concreto de Espa帽a)

The creation of digital books and virtual libraries in the frame of the European Union (and particularly in Spain)

Enrique Mart铆n Mart铆n (Digib铆s)

Art铆culo recibido: 9-4-2012 | Art铆culo aceptado: 28-4-2012

ABSTRACT: The purpose of this article is to state the methods of scanning used by the company Digib铆s. Throughout these pages we will state the kind of business of this company and their greatest achievements, in order to expose the projects of development of virtual libraries in the EU in general and particularly in Spain.
RESUMEN: El prop贸sito de este art铆culo es el de ofrecer una explicaci贸n acerca de los m茅todos de digitalizaci贸n llevados a cabo por la empresa Digib铆s. A lo largo de estas p谩ginas enunciaremos a qu茅 se dedica esta plataforma y cu谩les han sido sus mayores logros, con el fin de poner en conocimiento los proyectos de creaci贸n de bibliotecas virtuales en la UE en general y en Espa帽a en particular.

KEYWORDS: ebook, DigiPro, Virtual Library, digitalization, Linked Open Data
PALABRAS CLAVE: ebook, DigiPro, biblioteca virtual, digitalizaci贸n, Linked Open Data

____________________________

1. Las Nuevas Humanidades y las TIC

Dentro de mi carrera como inform谩tico, mi relaci贸n con las Humanidades empez贸 hace m谩s de tres a帽os cuando empec茅 a trabajar en la empresa Digib铆s. La empresa se dedica al desarrollo de aplicaciones inform谩ticas en el 谩mbito de las bibliotecas, los archivos y los museos. Dentro de estos campos, el que tiene m谩s relevancia es el de las bibliotecas, debido a la gran demanda actual de bibliotecas virtuales. Es importante aclarar que lo que nosotros entendemos como biblioteca virtual es una aplicaci贸n web donde se pueden consultar libros e incluso descargarlos en diferentes tipos de formatos de forma totalmente gratuita.

Digib铆s es, por tanto, una empresa especializada en la digitalizaci贸n y en el desarrollo de aplicaciones para el intercambio y gesti贸n de informaci贸n en Internet. Trabaja principalmente en Espa帽a, pero tambi茅n a nivel europeo en Europeana (cuyo centro de control se sit煤a en la Haya), y est谩 en contacto con pa铆ses de Am茅rica Latina, donde se espera que se comience el desarrollo de nuevos proyectos. Dentro de la gama de servicios que ofrece la firma, las aplicaciones web m谩s destacadas hasta el momento desarrolladas por Digib铆s han sido las siguientes: Biblioteca Virtual de Prensa Hist贸rica, Fundaci贸n Ignacio Larramendi e Hispana.

La Biblioteca Virtual de Prensa Hist贸rica contiene m谩s de un mill贸n de n煤meros de prensa de toda Espa帽a, comprendidos desde 1753 hasta la actualidad. Adem谩s de la cantidad de n煤meros que tiene esta aplicaci贸n web, lo que tambi茅n destaca es que se pueden realizar b煤squedas de textos dentro de cada n煤mero, ya que a trav茅s del proceso OCR se obtuvo el texto de cada n煤mero.

La Fundaci贸n Larramendi es una biblioteca virtual de pol铆grafos que destaca debido al uso de 煤ltimas tecnolog铆as, como es el caso de los epubs y al uso de los 煤ltimos est谩ndares como Linked Open Data o EDM.

Por su parte, Hispana es una aplicaci贸n web muy diferente a todas las dem谩s desarrolladas por Digib铆s, ya que no posee datos propios, sino que los datos que tiene los ha obtenido de otras bibliotecas, museos y archivos de Espa帽a utilizando Internet y el protocolo OAI-PMH.

As铆, destaca que Hispana tiene m谩s de 3 millones de objetos digitales recolectados de m谩s de 170 repositorios. Como se ha comentado, Hispana contiene muchos de los datos de las bibliotecas espa帽olas. Estos datos son recolectados por Europeana (a partir del mismo mecanismo que utiliza Hispana) permitiendo que tenga m谩s relevancia a nivel internacional. As铆 pues, Hispana funciona como punto de recogida de informaci贸n por parte de Europeana, agilizando el proceso de recolecci贸n de los datos en Espa帽a.

Por 煤ltimo, Europeana es un proyecto de la Uni贸n Europea, cuyo objetivo es preservar y compartir la cultura Europea en todo el mundo. Actualmente Europeana contiene m谩s de 20 millones de libros, pinturas, pel铆culas, objetos de museo y documentos de archivos que han sido digitalizados en toda Europa.

El prop贸sito de estas p谩ginas no es otro que el de mostrar c贸mo se crean en la actualidad las bibliotecas virtuales, qu茅 programas se utilizan y c贸mo se lleva a cabo el trabajo.  Tambi茅n hablar茅 acerca de las posibilidades en el futuro de este tipo de programas y de c贸mo se perfila el futuro de este tipo de tecnolog铆a.

2. La estructura interna de Digib铆s

El departamento de inform谩tica de la empresa Digib铆s est谩 dividido en dos partes: zona web (y no web) y clientes. El personal de la parte web se dedica al mantenimiento y desarrollo de las aplicaciones web. El personal de la parte de los clientes se dedica principalmente a gestionar la aplicaci贸n DigiPro que controla el flujo de trabajo y a mantener y mejorar las aplicaciones que utilizan los bibliotecarios para gestionar la biblioteca virtual.

Como he comentado antes, mi labor dentro de Digib铆s estaba dentro de la parte web, y era mantener las aplicaciones web del Ministerio de Cultura desarrolladas por la empresa  y gestionar los posibles problemas que pudieran ocurrir en estas. Tambi茅n desarrollaba nuevas funcionalidades, tanto para las aplicaciones web del Ministerio de Cultura, como para otras bibliotecas, por ejemplo, desarroll茅 un generador de micrositios, o lo que es lo mismo, llev茅 a cabo una web dentro de la aplicaci贸n web, es decir, es una serie de p谩ginas web que versa sobre un tema en concreto y que contiene un subconjunto de los datos de la aplicaci贸n, que pueden ser consultados. Por ejemplo, en la direcci贸n que acompa帽a a esta nota se puede ver el micrositio Prensa clandestina, que contiene documentos del Partido Comunista de Espa帽a en el periodo comprendido entre 1932 y 1976, y que est谩 dentro de la aplicaci贸n web Biblioteca Virtual de Prensa Hist贸rica.

Uno de los 煤ltimos desarrollos que se ha llevado a cabo en Digib铆s fue la creaci贸n de epubs a partir de las im谩genes y textos de cada libro para que su lectura en libros electr贸nicos o eReaders fuera m谩s sencilla, ya que, aunque los libros electr贸nicos aceptan documentos en formato PDF,  este formato no ofrece facilidades a la hora de visualizarlos.

No puedo contar en detalle acerca de c贸mo fue el desarrollo de estas funcionalidades, ya que no estuve implicado, pero lo que s铆 puedo decir es que epub es un formato abierto, por lo que si se accede a la p谩gina web de la International Digital Publishing Forum (IDPF), que son los creadores del formato, es posible ver cu谩les son las especificaciones que tiene un epub, que no es otra cosa que un fichero comprimido que contiene una serie de ficheros y directorios y que, por lo tanto, con seguir las especificaciones se pueden crear epubs de forma simple.

Recuerdo que en Digib铆s hay una amplia gama de eReaders para poder probar la correcta visualizaci贸n de los epubs, y que la visualizaci贸n del mismo epub en cada uno de los eReaders variaba debido a que cada uno sigue sus propios criterios para mostrarlo. No quiero decir que dependiendo del eReader la calidad del resultado sea diferente, sino que mostrar un epub de forma exacta resuelta del todo imposible.

3. El proceso de digitalizar un libro (algo que vaya m谩s all谩 del simple escaneo)

Nosotros incluimos dentro del proceso de digitalizaci贸n no solo el escaneo del libro, sino tambi茅n el proceso de verificaci贸n y de generaci贸n de los metadatos asociados, ya que sin incluir estos dos procesos la digitalizaci贸n no ser铆a nada m谩s que una fotocopia de un libro sin m谩s.

Aunque ya existen m谩quinas que de forma autom谩tica digitalizan libros, todav铆a el proceso se realiza de forma manual debido a muchos motivos pero principalmente porque el objeto puede sufrir da帽os. V茅ase este v铆deo, muy aclaratorio:

Al ser un proceso realizado por personas se puede cometer errores, por lo que para minimizar al m谩ximo esos posibles errores todo el flujo de trabajo, que va desde que la pieza a digitalizar se sit煤a sobre el esc谩ner hasta que la imagen est谩 perfectamente descrita y, una vez dotada de todos sus metadatos, se controla por una aplicaci贸n inform谩tica llamada DigiPro.

En cuanto a la digitalizaci贸n en s铆 del libro no conozco en detalle c贸mo se realizaba, s贸lo que se utiliza una serie de esc谩neres especiales dependiendo del tama帽o y del tipo de material (libro, mapa, peri贸dico, etc.) y que el contraste entre la luz que le llega al objeto y la exterior debe ser grande para que la digitalizaci贸n se realice de forma correcta.

Despu茅s de la digitalizaci贸n del objeto, se comprueba p谩gina por p谩gina que se ha realizado de forma correcta, utilizando la aplicaci贸n inform谩tica. Posteriormente, se a帽aden los metadatos. Estos metadatos corresponden a los siguientes est谩ndares principalmente: PREMIS y MARC 21.

PREMIS (PREservation Metadata: Implementation Strategies) es un est谩ndar para la preservaci贸n digital, por lo que los metadatados que se le a帽ade contienen la informaci贸n de:

    • El formato espec铆fico, donde el formato puede ser de audio, video o imagen.
    • El soporte o el hardware.
    • Agentes (personas, organizaciones o software) distintos de los m铆nimos necesarios para la identificaci贸n.
    • Los derechos y permisos.

MARC 21 (MAchine-Readable Cataloging) es un formato desarrollado por la Library of Congress que permite describir la informaci贸n del objeto, como por ejemplo, el t铆tulo, el a帽o de publicaci贸n y el (o los) autores.

La principal mejora que se ha llevado a cabo de forma interna en la empresa es la de controlar y automatizar lo m谩ximo posible todo proceso. Con este fin se desarroll贸 la aplicaci贸n DigiPro, la cual como se ha comentado anteriormente, controla todo el flujo de trabajo. El utilizar DigiPro nos ha permitido dar una trazabilidad al libro y as铆 conocer cu谩ndo se escane贸, con qu茅 esc谩ner y automatizar procesos que se realizaban a mano.

 4. El proceso de digitalizar desde que se escanea hasta que el libro sale a la luz

El proceso de creaci贸n que se realiza pasa por las siguientes etapas:

  • Digitalizaci贸n: utilizando un esc谩ner especial transformamos libros, mapas, revistas o peri贸dicos en im谩genes que se almacenen para su correspondiente utilizaci贸n.
  • OCR: utilizando un proceso inform谩tico especial, que se llama reconocimiento 贸ptico de caracteres (en ingl茅s optical character recognition), se puede obtener de las im谩genes las palabras que aparecen. Que este proceso se realice de forma correcta depende de la calidad del objeto, esto es, si, por ejemplo, el libro est谩 muy desgastado o la calidad de las hojas es mala el proceso OCR obtendr谩 palabras que no se parecer谩n al original.
  • Metadatados: en cada imagen se a帽ade mucha informaci贸n, pero la m谩s significativa es el esc谩ner utilizado y la calidad de la imagen.
  • Almacenamiento: las im谩genes, los ficheros de texto y los metadatados son almacenados en un sistema de almacenamiento.
  • Base de datos: la aplicaci贸n DigiPro va creando la base de datos con toda la informaci贸n de los metadatos y las im谩genes mientras se pasa de una fase a otra. La aplicaci贸n relaciona dentro de la base de datos los objetos almacenados y generados.
  • Aplicaci贸n web: el cliente elige el dise帽o y las funciones que quiere. Y en Digib铆s tenemos un 煤nico producto web que est谩 divido en m贸dulos, donde cada m贸dulo es una funcionalidad. As铆, seg煤n las funciones que quiera el cliente, vamos a帽adiendo o quitando m贸dulos.
  • Internet: finalmente se sube la aplicaci贸n web a unos servidores para poder verla en Internet.

 5. 驴C贸mo llegan esos libros al p煤blico y qu茅 se hace con ellos?

Estos libros digitales pueden verse de forma totalmente gratuita a trav茅s de las aplicaciones web de la propia biblioteca o archivo. Adem谩s de poderse ver en Internet, se puede descargar un libro completo en formato pdf o en formato epub, o descargarse una p谩gina en concreto, en un formato  de tipo imagen (generalmente jpg).

En muchas de las bibliotecas adem谩s de compartir los libros en Internet se pueden consultar en la propia biblioteca, utilizando el mismo mecanismo de pr茅stamo que se ha utilizado siempre, excepto para los libros m谩s antiguos o deteriorados que no se pueden ser consultados de forma f铆sica, sino s贸lo por Internet.

En el 谩mbito espa帽ol, el proceso de digitalizaci贸n de libros y su posterior visualizaci贸n de forma totalmente libre y gratuita se promueve principalmente gracias al Ministerio de Cultura y, m谩s espec铆ficamente, por medio de las subvenciones que ofrece.

En el 谩mbito europeo, Europeana es la encargada, gracias al aporte econ贸mico de la Uni贸n Europea, de subvencionar a los pa铆ses para que se digitalicen y compartan su patrimonio. En mi opini贸n, aunque el caso de Europa, y el de Espa帽a en particular, parezcan el mismo, no es as铆. Ambas comparten un mismo objetivo, que es el preservar y compartir la cultura, pero el caso de Europa-Europeana va m谩s all谩.

Europeana pretende que, despu茅s de que en unos a帽os se realice el proceso de digitalizaci贸n y de visualizaci贸n de los libros, se pueda utilizar toda esta informaci贸n para desarrollar aplicaciones y servicios que proporcionen un beneficio econ贸mico. Esto se puede ver m谩s claramente en el plan estrat茅gico de Europeana. Seguramente, si no fuera por las subvenciones de los gobiernos, la digitalizaci贸n de la cultura europea ser铆a un mero rumor.

En cuanto al libro electr贸nico o epub, su acogida a nivel mundial es todo un hecho y personalmente no creo que el libro electr贸nico vaya a provocar que el libro de toda la vida desaparezca, pueden vivir en armon铆a, ya que cada uno tiene su p煤blico y su situaci贸n o momento dentro de cada p煤blico. Lo que s铆 creo (o al menos deseo con todo mi coraz贸n) es que con la entrada en vigor del epub todo el mundo de los intermediarios que rodea al libro desaparecer谩 o se reducir谩 dr谩sticamente.

Caracteres n潞1

路 Descargar el vol. 1 n潞1 de Caracteres como PDF.

路 Descargar este art铆culo como PDF.

路 Regresar al 铆ndice de la edici贸n web.

Caracteres. Estudios culturales y cr铆ticos de la esfera digital | ISSN: 2254-4496 | Salamanca