Open-access Accesibilidad de los contenidos en un repositorio institucional: análisis, herramientas y usos del formato EPUB

Content accessibility in an institutional repository: analysis, tools and usage of the EPUB format

Resumen.

El objetivo de este trabajo es describir alternativas incorporadas en el formato EPUB3 para promover el acceso a la producción académica y científica de las instituciones por parte de personas con discapacidades visuales. Como punto de partida se toma la figura del repositorio institucional como espacio que alberga y difunde esta producción, y cuyos objetivos incluyen darle mayor visibilidad y maximizar su impacto, manteniéndose así en la misma línea con la propuesta de este estudio. Se analizan los aportes introducidos en el formato EPUB3 con respecto a sus antecesores. En particular, se estudian las extensiones existentes que sirven para optimizar la síntesis de voz a partir de los textos (TTS, text-to-speech), la incorporación de voces adicionales y múltiples voces, y finalmente las herramientas disponibles para visualizar y reproducir documentos EPUB3 con incorporaciones TTS. En este aspecto, se hace énfasis en las aplicaciones accesibles gratuitamente desde dispositivos móviles actuales a fin de asegurar el aprovechamiento de estos aportes por cualquier potencial persona usuaria. Por último, se evalúa la viabilidad de implementar un circuito de generación de documentos EPUB3 accesibles, y se analizan posibles servicios adicionales que el repositorio institucional

Palabras clave: Accesibilidad; Texto a voz; Repositorio institucional; EPUB3

Abstract

The aim of this work is to describe alternatives introduced in EPUB 3 format to promote access to the academic and scientific institutional production by users with visual disabilities. The figure of the Institutional Repository is taken as starting line, understood as a space which hosts and disseminates this production, and whose objectives include maximizing its impact and fostering its visibility, both in the same line with the proposal of the study.Contributions in EPUB 3 format are analyzed and compared to its predecessors. Particularly, the existent extensions that are useful to optimize the voice synthesis for text to speech (TTS), the ability to add spare and multiple voices, and some of the available tools to visualize and reproduce TTS-enabled EPUB 3 documents. In this matter, the stress has been put on applications freely available for current mobile devices, in order to ensure that any potential user will be able to take advantage of these contributions. Lastly, the viability of implementing a circuit for accessible EPUB 3 documents generation is discussed, and further services for an institutional repository to offer from these tools are briefly mentioned.

Keywords: Accessibility; Text-to-speech; Institutional repository; EPUB3

Introducción

1.1 Contexto

Un repositorio digital tiene entre sus objetivos dar acceso e incrementar la visibilidad de los objetos digitales que almacena (Swan y Carr, 2008). En el caso particular de los repositorios institucionales, estos objetos forman parte de la producción intelectual de una institución u organización, cuyas características estarán determinadas por el tipo de actividades que allí se desarrollan; de esta manera los distintos repositorios colaboran para conocer distintas formas de trabajo para mejorar el impacto, la visibilidad y los recursos que poseen (Sterman, 2014). En las instituciones académicas contempladas en este trabajo, dicha producción incluye documentos multimediales (artículos científicos, presentaciones en congresos, resultados de investigaciones, materiales de estudio y documentos administrativos, por ejemplo), recursos educativos, documentos institucionales, entre otros (Sánchez y Melero, 2007). Es importante destacar esto dado que, desde hace ya algunos años, la búsqueda de información y recursos utilizados en el ámbito científico y académico se inicia primeramente en el marco digital, por lo que estas instituciones deben asegurar la preservación de los recursos, su accesibilidad en el largo plazo, su originalidad y el contexto en el cual han sido generados, y para ello deben incorporar metodologías de trabajo que permitan almacenar, catalogar, transformar y recuperar tales recursos (Li, Thelwall y Kousha, 2015). Existen normativas, en algunas regiones, que obligan a las instituciones académicas y científicas que reciben fondos estatales a crear repositorios propios, o que instan a quienes investigan a depositar los resultados de sus proyectos en repositorios temáticos o institucionales, para dar cumplimiento con el acceso abierto, el cual es definido como

un movimiento que promueve el acceso libre y gratuito a la literatura científica, fomentando su libre disponibilidad en Internet y permitiendo a cualquier usuario su lectura, descarga, copia, impresión, distribución o cualquier otro uso legal de la misma, sin ninguna barrera financiera, técnica o de cualquier tipo. La única restricción sobre la distribución y reproducción es dar al autor el control sobre la integridad de su trabajo y el derecho a ser adecuadamente reconocido y citado. El principal objetivo del acceso abierto es aumentar el impacto de la investigación al incrementar el acceso a la misma. (Universidad de Salamanca, 2016, párr. 1)

De esta forma, se promueve su reuso para aumentar la visibilidad a su producción, y brindar transparencia en cuanto a los recursos invertidos por el Estado en educación e investigación (World Wide Web Consortium [W3C], 2005). La República Argentina, donde se desarrolla este trabajo, es uno de los países que poseen normativas de este tipo, como la Ley de Acceso a la Información Pública (Ley 26.899, 2013), que garantiza la igualdad de oportunidades y la no discriminación de las personas con discapacidades.

Tomando en consideración estas normativas los repositorios digitales toman la responsabilidad de proveer un acceso a los objetos de manera que puedan preservarse y ser legibles a largo plazo (De Giusti, 2014). Para realizar dicha preservación, dado que los objetos están mediados por la tecnología (hardware y software), se ejecutan determinadas tareas de preservación

1.2 Transformación de texto a voz y su aporte para usuarios con capacidades visuales diferentes

Como se mencionó, resulta de especial interés en este trabajo las personas usuarias con capacidades visuales disminuidas o nulas. Para estas la comunicación es un elemento esencial en el proceso de integración en el ámbito social, económico, educativo y cultural (Forgrave, 2002). Para acceder al contenido de textos electrónicos, o incluso para hacer uso de dispositivos electrónicos, como computadoras, estas personas suelen apoyarse en sistemas de lectura de pantalla y de transformación de texto a voz (text-to-speech o TTS) (Sánchez y Sáenz, 2008) que les permiten manipular aplicaciones y dispositivos (celulares, tabletas y computadoras).

La tecnología de TTS es la capacidad de un sistema para reproducir un texto impreso en lenguaje hablado. Es decir, son sistemas que realizan la conversión de textos escritos a una voz sintética. Desde la óptica de un repositorio digital, es preciso analizar este tipo de herramientas, cómo funcionan, cómo interpretan los objetos digitales expuestos, y principalmente cuáles son las adaptaciones y mejoras que pueden realizarse desde el repositorio para facilitar y promover el acceso a sus contenidos para estas personas.

Esta nueva forma de comunicación para las personas con capacidades visuales disminuidas o nulas está dada por la accesibilidad fehaciente que posee el utilizar este tipo de herramientas; su practicidad en la conversión de libros en audios o el uso de libros digitales con TTS por sobre los libros en braille; la difusión que adquirió esta herramienta en el ámbito web ha dado como resultado un acceso mucho mayor para los usuarios aquí descriptos, aunque todavía estas herramientas no se han incorporado a los repositorios en forma masiva. Otra característica a destacar es que la lectura de los libros digitales utilizando TTS es fácil y rápida, pues sólo se debe manejar requerimientos técnicos básicos de las aplicaciones para poder utilizarlas.

2. Accesibilidad y EPUB 3

2.1 Evolución del formato EPUB 3

EPUB (del inglés Electronic Publication) es un formato de documento estándar, actualmente versión 3.0, diseñado para permitir la generación de contenidos adaptativos al dispositivo utilizado para su visualización. Su especificación está enteramente construida a partir de otras tecnologías web existentes como XHTML, CSS, SVG, entre otras. Es un estándar relativamente reciente, pero que ha alcanzado un importante nivel de madurez tecnológica y con un buen grado de adopción en el mercado, en parte gracias a la importancia de las empresas y organismos que lo promueven, entre los que se incluyen el W3C (Archer, 2016), DAISY Consortium (DAISY Consortium Group, 2016; véase además Chapman, 2015; Junus, 2015), Google (De Giusti, Lira, Villarreal y Texier, 2013), International Digital Publishing Forum (IDPF) y eBook Technologies.

El estándar fue inicialmente publicado en 2007 y logró su mayor difusión en 2009 con la versión 2.0.1. En 2011 fue mejorado considerablemente en su tercera y actual versión. EPUB2 se definió a partir de tres especificaciones estándares específicas: Open Publication Structure (OPS), Open Packaging Format (OPF) y Open Container Format (OCF) (Pritchett y Gylling, 2016). EPUB 2.0.1 fue reemplazado por EPUB3 en octubre de 2011: de este modo, EPUB 2.x ahora se considera obsoleto y ya no se encuentra en mantenimiento activo.

2.2 Prinicipales características del EPUB3

La versión 3 (Garrish, 2013; IDPF, 2010) de este formato involucra una revolución tecnológica frente a su antecesor. Entre sus principales aportes, se destaca su fundación sobre el último estándar HTML5 (Oeste, 2013), lo cual garantiza la compatibilidad con todos los navegadores actuales y permite aprovechar muchas de las ventajas que introduce este lenguaje de descripción de documentos web. Por ejemplo, un documento EPUB puede contener vídeo, audio y elementos interactivos como objetos digitales multiestado , y se permite también el uso de imágenes vectoriales en formato SVG (Scalable Vector Graphics), así como funciones de módulos de CSS3 y código Javascript; esto permite, en consecuencia, el desarrollo de publicaciones interactivas y visualmente complejas.

EPUB3 es compatible con dos formatos de fuente estrechamente relacionadas: OpenType y Web Open Font Format (WOFF). WOFF (Kew, Leming, van Blokland, 2012) es esencialmente,

This document specifies a simple compressed file format for fonts, designed primarily for use on the Web and known as WOFF (Web Open Font Format) ... The WOFF format is a container for the table-based sfnt structure used in e.g. TrueType [TrueType], OpenType [OpenType] and Open Font Format [OFF] fonts, hereafter referred to as sfnt fonts. ... The WOFF file format also allows font metadata and private-use data to be included separately from the font data. WOFF encoding tools convert an input sfnt font into a WOFF formatted file, and user agents restore the sfnt font data for use with a Web document1 (Kew, Leming y Van Blokland, 2009, párr. 1).

También, permite la incorporación de fórmulas matemáticas en formato MathML (Mathematical Markup Language) (IDPF, 2016; Math Working Group, 2016), un lenguaje de marcado basado en XML cuyo objetivo es expresar notación matemática legible por computadoras. Esto es particularmente interesante en el caso de un repositorio académico, en el que se almacena gran cantidad de artículos científicos, objetos de conferencias, libros y tesis de disciplinas que hacen un uso intensivo de esta notación: física, ingenierías, química, ciencias naturales, biología, sistemas, entre otras.

Otra de las ventajas introducidas en EPUB3, en comparación con sus versiones anteriores, "se basa en serializaciones XML para la mayoría de los tipos de contenido, lo que puede aprovecharse para validación automática" (Daly, 2012, "Validación de documentos EPUB 3", párr. 1). Asimismo, "el archivo NCX TOC [Navigation Control file for XML Table of Content] de EPUB2 daba soporte a un amplio conjunto de marcas para navegación jerárquica y asignación de páginas, se deriva del Digital Talking Book del Digital Accessible Information System (DAISY)" (Daly, 2012, "Navegación y jerarquía en documentos EPUB 3", párr. 1). Sin embargo, la Definición de Tipo de Documento (DTD, una descripción de estructura y sintaxis de un documento XML o SGML) del NCX resulta bastante grande e incluye recursos no pertinentes a EPUB2. En EPUB3, el NCX fue reemplazado por el EPUB Navigational Document (END), que utiliza XHTML5 en vez de un DTD personalizado, reduciendo así la cantidad de formatos XML (Megginson, 1998) a implementar y validar.

2.3 Extensiones de EPUB para TTS

Además de la funcionalidad y la aceptación de los estándares mencionados, EPUB3 incorpora muchas facilidades para el soporte de accesibilidad (Handley, 2009). Una de ellas es el añadido de tres nuevas tecnologías complementarias que permiten a las autoras y los autores de contenido mejorar la calidad de la reproducción de texto a voz: Especificación Diccionario de Pronunciación PLS, léxicos, lenguaje de marcado SSML y, como se dijo, módulos CSS3. En esta sección se describe brevemente el funcionamiento de estas herramientas.

2.3.1 Especificación PLS

El Diccionario de Pronunciación Específica (IDPF, 2016) (PLS, Pronunciation Lexicon Specification, en inglés) es una recomendación de W3C diseñada para permitir la especificación interoperable de la información de pronunciación tanto para el reconocimiento de voz como la síntesis de voz de motores dentro de las aplicaciones de navegación por voz. Define un formato XML para permitir la especificación de una o más pronunciaciones de una palabra o frase, a partir de un alfabeto estándar o, si fuese necesario, por medio de alfabetos específicos de un proveedor. Estas pronunciaciones se agrupan en un documento PLS que puede ser referenciado desde otros lenguajes de marcas como el SSML. Cuando se encuentran las palabras que coincidan con las entradas definidas, la pronunciación proporcionada se utiliza en lugar de la prestación por defecto del motor TTS. Los diccionarios proporcionan una manera sencilla de definir las pronunciaciones de palabras cuyos significados no cambian en función del contexto, como por ejemplo nombres propios que tienen distintas pronunciaciones.

En la Figura 1 se muestra un ejemplo de uso del documento PLS, en el cual se muestra la forma en que se puede pronunciar una misma palabra (fiance), según la connotación que se declare en el fonema. Podría utilizarse este documento XML en un texto para ser interpretado para una lectura en voz alta por un sintetizador de voz en alguna aplicación existente en el teléfono móvil o dispositivo; otros usos comunes pueden ser múltiples pronunciaciones para la misma ortografía, y el uso de homófonos: palabras que, en algunos idiomas, se escriben igual pero se pronuncian diferente de acuerdo a su significado.

2.3.2. Lenguaje SSML

El SSML es una propuesta de la W3C para fortalecer la voz de la web y para que múltiples aplicaciones implementen y hagan uso del sintetizador de voz de una forma más natural y así mejorar la pronunciación (Wu, Cao, Meng y Cai, 2009). Con este lenguaje es posible enfatizar ciertas palabras y darle pausas al diálogo, proveer de un control sobre el tono de voz del sintetizador y de un estilo de énfasis configurados para destinarlo a partes del texto, controlar la velocidad, configurar el rango tonal (opciones de entonación más planas o más dinámicas) y configurar la energía (permite controlar el volumen de una locución). Cuando se encuentran atributos SSML sobre los elementos del documento XML, la pronunciación proporcionada en SSML se utiliza en lugar del procesamiento predeterminado del motor o especificado por una entrada de PLS. SSML se puede utilizar para definir todas las pronunciaciones, pero se utiliza mejor como un complemento a los léxicos PLS. En la Figura 2 se describe un ejemplo del uso SSML para el cambio de voz entre párrafos de un texto; se muestra en el ejemplo de un documento XML con las voces específicas que se quieren utilizar en un texto. Se puede observar cómo, para un mismo texto, el documento de SSML altera la elección de voces sintéticas para la lectura en voz alta así como el género de la voz que se desea escuchar.

Figura
1.Especificación PLS

Figura 2
Lenguaje de Marcado de Síntesis del Habla.

2.3.3. CSS3 Speech

Las propiedades CSS3 (Weck, Raggett, Glazman y Santambrogio, 2012), definidas en el módulo de voz, permiten a las personas autoras declarar la forma de controlar la presentación de un documento en la dimensión sonora. El procesamiento sonoro de un documento combina la síntesis de voz y los íconos auditivos (que se refieren como "señales de audio" en esta especificación). Las propiedades CSS del habla proporcionan la capacidad de controlar el cabeceo del habla y la velocidad, los niveles de sonido, voces TTS, etc. Estas propiedades de hojas de estilo se pueden utilizar junto con las propiedades visuales (técnicas mixtas), o como una alternativa sonora completa a una presentación visual.

En la Figura 3 se presenta un ejemplo del uso del módulo CSS3 que especifica el uso de distintas voces declaradas para cada clase que se aplicará en los elementos del texto. En el ejemplo se muestra la configuración de voz general para todos los tipos de encabezados H1, H2, ... H6, y luego configuraciones particulares para los párrafos (p) de clase heidi, peter y special (p.heidi, p.peter y p.special, respectivamente). En el caso de los títulos, se declara una señal de audio que está ubicada en la URL descripta, junto con la voz elegida, llamada "Paul", que tendrá un énfasis moderado. Se describe para la clase p.paul la voz elegida llamada "Paul", con uso de énfasis "moderado", voz masculina y el canal de audio derecho. Para la clase p.heidi se declara una voz llamada "Heidi", se establece el canal de audio izquierdo, voz femenina y una velocidad de lectura veloz. Por último, se detalla para la clase special un volumen de voz suave y una pausa marcada (se observa que esta clase "hereda" de la clase p.peter por lo que utilizará esta voz y se le adjunta los atributos recién descritos).

Figura 3:
Propiedades CSS3

3. Lectores con soporte para EPUB 3

Una de las consecuencias de las incorporaciones en EPUB3 arriba mencionadas fue la implementación de una gran cantidad de lectores (W3C España, 2005) con soporte TTS (Prahallad y Patel, 2006), muchos de ellos orientados especialmente como sistema de apoyo para usuarios con capacidades visuales disminuidas u otras afecciones visuales. En esta sección se describen algunos de estos lectores con soporte TTS. En todos los casos, se buscaron herramientas que brindasen compatibilidad con sistemas móviles actuales, a fin de asegurar que podrán ser usadas por cualquier persona usuaria que tenga acceso a un dispositivo móvil promedio, ya que es necesario asegurar que podrá hacer uso de estas tecnologías utilizando las herramientas que tienen al alcance de su mano. De lo contrario, si debe adquirir equipos especiales, licencias de software o dirigirse a una instalación geográfica particular, el objetivo de acceso igualitario ya no será satisfecho.

El listado de lectores con soporte para libros digitales en EPUB3 que se presenta incluye la herramienta Text-To-Speech y funciona en dispositivos móviles que ejecutan Android (instalables desde Play Store) y/o MS Windows (instalables desde Windows Market). En este trabajo no se mostrarán aplicaciones de lectura para el sistema operativo iOS dado que no se ha tenido acceso a plataformas con este sistema para realizar las pruebas necesarias sobre él.

3.1 FB Reader with Plugin TTS 2.6.13

FB Reader es un lector de libros electrónicos (Lukeš, 2008) popular, gratuito y distribuido bajo la licencia GNU/GPL (Licencia Pública General, que asegura que el material bajo esta licencia estará disponible de forma libre para todas las personas usuarias de la aplicación). Esta aplicación funciona correctamente con los sistemas operativos Android y MS Windows.

FB Reader brinda una interfaz amigable con el usuario, con un tiempo de respuesta veloz y es altamente personalizable. Si bien brinda soporte para el formato EPUB, lo hace parcialmente para la versión 3.

Entre las herramientas que incluye se destacan la sincronización con la biblioteca personal descargada por la persona usuaria y la posibilidad de realizar una conexión en red con bibliotecas externas a FB Reader; incluye también un sitio de descargas para ebook, catálogos OPDS y tiendas en diversos lenguajes. Asimismo, la persona usuaria puede descargar los libros manualmente e incorporarlos en una tarjeta de memoria (dentro de la carpeta /sdcard de su dispositivo).

Una característica muy útil es la posibilidad de adaptar el brillo de la pantalla durante la lectura. Otra es que, a su vez, soporta diferentes esquemas de color preconfigurados para la lectura de día y de noche. Por otro lado, se integra con diccionarios externos, lo que permite a la persona usuaria buscar definiciones de palabras en los textos que lee; provee patrones de división de palabras para 24 idiomas y brinda soporte para TTS mediante un plugin adicional.

En la Figura 4 se observa la interfaz del lector FB Reader en la versión que se provee para el sistema operativo Android. Se puede ver cómo se muestra la herramienta de TTS, y cómo se controla el ritmo, tono y volumen de la voz. En la misma imagen se muestra el formato de marcado de texto que puede ser utilizado para su lectura o marcado. En la segunda parte de la imagen se muestra un ejemplo de uso de diccionario sobre una palabra del texto.

Figura 4
FB Reader with Plugin TTS 2.6.13

3.2 PocketBook 1.2.2

En la segunda parte de la imagen se muestra un ejemplo de uso de diccionario sobre una palabra del texto.

PocketBook es un lector para libros en formato digital, gratuito, con una licencia propietaria (esto significa que su copia, redistribución o modificación están acotadas por su propietario). Además de soportar el formato EPUB, provee soporte para otros formatos (PDF, DjVu, MOBI, PDB, TXT, FB2, FB2.zip, CHM, HTML, CBZ, CBR, СBT). Esta aplicación incluye una serie de herramientas para la adaptación de la interfaz de lectura, como ajuste de tamaño de texto, diseños, colores (diurno, sepia, nocturno) y ajuste del brillo de la pantalla durante la lectura.

Por otro lado, entre las herramientas de lectura que provee se encuentran: buscar, hacer notas y marcar partes del texto; y desplazamiento dentro del texto o entre las distintas páginas deslizando, tocando en el borde de la pantalla o usando las teclas de volumen del dispositivo. Con respecto al formato EPUB, PocketBook ofrece acceso rápido a la tabla de contenidos,comentarios y texto resaltado, catálogos OPDS y, como aporte para la accesibilidad, incorpora soporte de lectura en voz alta.

En la Figura 5 se muestra un ejemplo de la interfaz de la aplicación de lectura para libros en formato digital PocketBook. Se muestran varias de las características que esta aplicación aporta a la lectura, como su menú de opciones para incrementar el tamaño de letra, rotar pantalla, escribir comentarios, etc. En la siguiente imagen, se provee una muestra de selección de texto y el menú que se despliega para esa tarea (marcar, buscar, escribir un comentario). Finalmente, en la figura 5, última imagen, se muestra la presentación de los distintos comentarios realizados en el texto.

Figura 5
PocketBook 1.22

3.3 Cool Reader 3.3.48

Cool Reader es un lector para libros digitales de software libre (Uptodown, 2015), código abierto (GPL) y multiplataforma (puede ser utilizado tanto en Windows como en Android). Provee opciones para personalización de interfaz y para asistencia durante la lectura. Las herramientas para personalización de la interfaz visual incluyen perfiles de día y de noche (dos juegos de colores, fondo, niveles de luz de fondo) y diferentes texturas de fondo (estirada o en mosaico) o de color sólido. Las herramientas para texto permiten marcar como favoritos los fragmentos de texto que se desee y agregarle un texto como comentarios o corrección, exportar marcadores en archivo de texto, buscar en el texto y notas al pie; permite también realizar un desplazamiento automático e instalar fuentes adicionales (el lugar donde se deben guardar las fuentes con extensión .ttf en / sdcard / fonts /).

En relación al formato EPUB, esta aplicación provee las opciones de tabla de contenidos, catálogos en línea (OPDS) de apoyo; y, como característica a destacar a los fines de este trabajo, permite la traducción de texto a voz (TTS) y diccionarios de separación de sílabasEn la Figura 6 se muestra la imagen de su interfaz en el sistema operativo Android. En la figura se observan las distintas interfaces que provee la aplicación de lectura de libros digitales CoolReader. Se presentan tres imágenes que representan la biblioteca, la lectura y el formato de libros que acepta este lector. Se visualiza su tipo de color estándar y el tamaño de letra por defecto que provee la aplicación.

Figura 6
Cool Reader 3.3.48

3.4 Freda 3.13.0.1

Freda es un

programa gratuito para la lectura de libros electrónicos (ebooks) en Windows. Él lee libros a EPUB, FB2, HTML y TXT. El programa ofrece controles personalizables, fuentes y colores, así como anotaciones y marcadores. También es posible buscar definiciones y traducciones de diccionario (Turnipsoft, 2016, párr. 1).

Freda posee soporte para EPUB, por lo que puede ofrecer información de formato (textos en negrita y/o cursiva, márgenes y alineación) y, además, puede mostrar imágenes y diagramas en los libros.

Esta aplicación puede obtener libros a partir de catálogos en línea. O si se tiene una colección de libros existente, se puede utilizar SkyDrive, Dropbox o Calibre y compartirlo con la aplicación. Freda también puede descargar libros desde cualquier página web y desde losarchivos adjuntos de correo electrónico. A su vez, puede descargar libros y mantenerlos en el teléfono, por lo que la persona usuaria puede continuar la lectura cuando no esté conectada a la red, y puede fijar sus libros favoritos a la página de inicio.

En la Figura 7 se incluye una captura del lector ejecutándose en el sistema operativo Windows. En esta figura se representa la interfaz gráfica de la aplicación para la lectura de libros digitales Freda. Esta aplicación provee distintas herramientas para la lectura, y específicamente soporte para TTS. En la primera imagen, se utiliza la selección de libro con el menú de propiedades que puede utilizarse sobre este texto remarcado, como buscador, marcador y resaltado de texto. En la otra imagen, se muestra la visualización de la biblioteca de libros, el origen de su entrada a la biblioteca y la reseña del libro seleccionado.

Figura 7
Freda

3.5 Book Bazzar Reader 3.0

Por su parte, Book Bazaar Reader es un lector que posee una licencia con la cual "no se puede realizar ingeniería inversa ni reutilizar ninguna parte sin nuestro permiso" (Refrelent Software Lab, 2016, "Términos adicionales", párr. 3), pero sí permite acceder a miles de libros gratuitos provenientes de múltiples fuentes de publicaciones abiertas. Dispone de un navegador de catálogos OPDS personalizable que permite descargar libros. El lector (Refrelent Software Lab, 2014) puede importar libros desde archivos locales y desde páginas web de descarga directa.

Para una mejor lectura, se tiene la opción de navegar por las páginas de los libros utilizando la tabla de contenidos, la barra de progreso de lectura, los enlaces de hipertexto (enlaces denavegación), los marcapáginas y el historial de páginas pasadas. El organizador de la biblioteca de libros de la aplicación permite diferentes maneras de clasificación y de creación de grupos de libros (por personas autoras, géneros, títulos, tamaños, fecha de publicación, fecha de descarga). Los libros más recientes se encuentran disponibles en la lista de "Estoy leyendo". Otras de sus herramientas es la que le permite a la persona usuaria colocar marcapáginas, resaltar áreas de texto con diferentes colores y añadir notas. Book Bazaar puede copiar los textos resaltados y citas de forma individual. La aplicación provee también soporte para el uso de todas las características del formato HTML5 (tablas, imágenes, SVG, CSS) y utiliza las capacidades de Windows 8 para compartir enlaces de libros entre aplicaciones como Mail o Quick Note, tanto desde como hacia la aplicación.

En la Figura 8 se muestra la interfaz de la aplicación para lectura de libros digitales en el sistema operativo Windows. Se observa el listado de libros en lectura actualmente, la biblioteca de libros en la aplicación y el color por defecto que provee el lector. Esta aplicación, además de lo descripto, cuenta con herramientas de lectura como marcado de texto, buscar en diccionarios, comentarios, etc.

Figura 8
Bazzar Book 3.0

4. Selección de voces para lectores

La selección de voces para lectores tiene gran relevancia y aplicación en el uso de lectores digitales para personas con disminución visual, estudiantes y para quienes se dedican a la investigación.

Las aplicaciones de lectura reseñadas en la sección anterior proveen la posibilidad de instalar nuevas voces para la lectura TTS y, de esta manera, instalar sintetizadores de voz que posean mayor calidad de voz por la similitud que tienen con la voz humana y su habilidad para ser entendidos de manera más clara. Los sintetizadores de voz recomendados para los dispositivos móviles con sistemas operativos Android y Windows Phone, junto con sus características esenciales y las versiones de las plataformas que soportan, se detallan en la Tabla 1.

Tabla 1:
Sintetizadores de Voz

5. Conclusiones

Como puede observarse, luego de la revisión realizada en este trabajo, EPUB3 llegó como un estándar justificado por las limitaciones de su antecesor en cuanto al modo de visibilidad de contenido. Esta nueva versión ofrece mejoras sustanciales en casi todas las áreas funcionales: integración de audio y video, ventajas relativas a la accesibilidad, soporte de idiomas globales y la capacidad de convertir contenido tal como se diseñó en vez de tener que adaptarlo a las limitaciones que traía aparejado EPUB2.

En este sentido, es importante entonces destacar que los repositorios institucionales pueden aprovechar estas tecnologías para adaptar sus materiales buscando mayor alcance y mejor aprovechamiento, en particular, tomando en consideración a personas en condición de discapacidad. Evidentemente, esta tarea demandará tiempo y recursos, tanto humanos como informáticos, y es poco probable que pueda aplicarse a todo el acervo bibliográfico alojado en un repositorio de tamaño mediano.

Para hacer esta tarea realizable, como primera medida, debieran priorizarse determinados materiales teniendo en cuenta la comunidad designada del repositorio; en una institución de enseñanza, se podrían tomar inicialmente, por ejemplo, libros de cátedra, apuntes y objetos de aprendizaje para su conversión a EPUB3 con soporte para texto-a-voz. Una vez identificado el subconjunto de materiales con los que se trabajará, se deberá buscar un mecanismo para agilizar este trabajo. En las pruebas realizadas, se observó que los principales problemas surgen a la hora de generar los documentos EPUB3 iniciales, generalmente a partir de documentos en formato PDF (no siempre formados correctamente), al momento de ajustar el XHTML obtenido hasta lograr un EPUB3 correcto (es decir, validable), y finalmente al incorporar las marcas y extensiones de TTS descriptas en este trabajo.

Todas estas tareas deben ser realizadas de manera artesanal, pero el proceso puede simplificarse considerablemente si se parte del documento de texto original, como por ejemplo un ODT de LibreOffice o un DOCX de Microsoft Office. En este caso, es mucho más simple ajustar primero estos documentos (generando encabezados, subsecciones, viñetas, etc.), y luego, a partir de allí, realizar una exportación a EPUB3 base, que luego deberá ser ajustado y ampliado para mejorar el soporte TTS. De esta forma, si bien el trabajo manual no deja de realizarse, se acortará mucho camino. Para lograr esto, el repositorio puede ajustar sus políticas de autoarchivo, solicitando el envío de los documentos crudos u originales (y quizás aplicarlo a ciertas colecciones sobre las que se realizarán las adaptaciones), o puede contactarse explícitamente con las personas autoras de los trabajos a transformar para solicitarles las versiones originales. La metodología aplicada dependerá tanto de la cantidad de materiales a transformar como de la idiosincrasia de la comunidad designada del repositorio institucional.

La licencia de difusión que utiliza el repositorio es otra cuestión no menor que debe tenerse en cuenta. En este trabajo se propone la generación de obras derivadas a partir de las obras originales enviadas por las autoras y los autores. Esto no es nuevo, ya que muchos repositorios realizan estas tareas con fines de la preservación digital; en algunos casos, se exponen y en otros casos simplemente se almacenan. Sin embargo, aquí se está proponiendo exponer y difundir nuevos documentos, con lo cual será necesario que las personas autoras de los materiales autoricen explícitamente al repositorio a generar obras derivadas y a compartirlas con la comunidad designada. En este sentido, una licencia Creative Commons que permite obras derivadas (o sea, que no incluya la sigla ND) puede ser un buen comienzo (Creative Commons, 2016).

5.1 Trabajos futuros

El trabajo aquí iniciado abre muchos caminos posibles para continuar aprendiendo y experimentando (Bain, Basson y Wald, 2002). Como se mencionó, es necesario simplificar y optimizar la generación y procesamiento de los documentos. Por lo tanto, una de las primeras líneas de trabajo a considerar debe ser el desarrollo de procesos y la implementación de herramientas informáticas que automaticen algunas de estas tareas, por ejemplo: la selección de documentos objetivos, transformación de ODT/DOCX a EPUB3, y la validación de los documentos generados.

Además de las ventajas analizadas, desde el punto de vista de accesibilidad e integración de personas con discapacidad usuarias, Text-To-Speech (TTS) permite generar nuevos servicios y objetos digitales multimediales. Esto también genera nuevas posibilidades de trabajo con estas tecnologías. Ejemplos de tales nuevos servicios y objetos digitales incluyen:

Audiolibros: es posible adosar la lectura de todo el libro en un audio (por ejemplo, en formato MP3) que produce la lectura en voz alta. Si bien esto incrementa el tamaño del archivo, permite su acceso y lectura sin depender de las aplicaciones TTS.

La incorporación de SSML puede significar una excelente utilidad de los sintetizadores de voz en lecturas de tipo lírico, desde poesía hasta un libro de cuentos infantiles.

Libros con audio incorporado: esto da la opción de contenido más rico al momento de lecturas de texto de tipo informativo. Por ejemplo, se puede dar el caso de un libro de historia política con audios de las declaraciones de los protagonistas del momento.

Utilización de lectores que tengan soporte para el formato EPUB3 que posean TTS y atributos multimedia para mejorar la lectura.

Finalmente, se puede esperar un crecimiento en los sistemas de lectura con soporte para la tercera versión de EPUB, dado que hasta el momento son pocas las aplicaciones que aprovechan realmente todas las posibilidades que permite el estándar. Sin embargo, es de suponer que en el corto plazo surgirán nuevas aplicaciones o se incorporarán nuevas características a las aplicaciones analizadas aquí, por ejemplo para la generación de libros interactivos infantiles en formato 3D o libros de texto escolares con interactividad.

Referencias Bibliográficas

  • 1
    "Este documento especifica un formato de archivo simple comprimido para fuentes, diseñado principalmente para el empleo sobre la web conocido como WOFF (Web Open Font Format, Formato Abierto de Fuente Web) ... El formato WOFF es un contenedor para la estructura basada en tabla sfnt usada por ejemplo en TrueType, OpenType y el Open Font Format [OFF], fuentes en el futuro llamadas sfnt ... El archivo de formato WOFF también permite metadatos de fuentes y datos de uso privado para incluir de manera separada de los datos de la fuente. Las herramientas WOFF de codificación convierten una entrada de fuente sfnt a un archivo de formato WOFF, y un agente de usuario puede restaurar los datos de fuente sfnt para utilizarlos con un documento Web" (Traducción propia).

Disponibilidad de datos

Citaciones de datos

Bagshaw, P., Burnett, D. C., Carter, J., y Scahill, J. (2008). Pronunciation Lexicon Specification (PLS)Version 1.0. Recuperado de https://www.w3.org/TR/pronunciation-lexicon/

Burnett, D. C., Walker, M. R., y Hunt, A. (2004). Speech Synthesis Markup Language (SSML)Version 1.0.Recuperado de https://www.w3.org/TR/speech-synthesis/

Fechas de Publicación

  • Publicación en esta colección
    Jul-Dec 2016

Histórico

  • Recibido
    05 Abr 2016
  • Revisado
    27 Mayo 2016
  • Acepto
    20 Jun 2016
location_on
None Universidad de Costa Rica, Escuela de Bibliotecología y Ciencias de la Información, Costa Rica, San José, San José, CR, 2060, 2511-1919, 2511-1949 - E-mail: revista@ebci.ucr.ac.cr
rss_feed Acompanhe os números deste periódico no seu leitor de RSS
Acessibilidade / Reportar erro