Mejoras en el text-to-speech

Jun 26, 2025

—

A lo largo de las publicaciones de este blog he mencionado la importancia de describir diferentes elementos que encontramos en los libros digitales: lo más importante y en lo que más he insistido son las imágenes, pero también se deben describir tablas, gráficos, enlaces, etc.

Pero ¿por qué? Como comenté en el artículo en el que hablaba de la descripción de imágenes (enlace), una vez añadimos la descripción en el atributo ALT, esta será leída por un sintetizador de voz o text-to-speech.

El text-to-speech reproduce y pronuncia, en voz alta, todo el texto de nuestro libro. Si nos encontramos un sistema básico, este lo hará de forma automática. Así, si encontramos vocabulario complejo o elementos narrativos como una palabra que necesita énfasis, puede llevar a la confusión y, por lo tanto, la inaccasibilidad. Esto se puede evitar al añadir ciertas modificaciones:

PLS lexicons

El léxico PLS (Pronunciation Lexicon Specification) es un formato XML que define las pronunciaciones universales de las palabras para que el sistema lea las palabras correctamente. Este léxico es una manera directa y simple de definir las pronunciaciones para todas las palabras que tienen un solo significado y que no dependen del contexto.

<lexeme>
<grapheme>defence</grapheme>
<grapheme>defense</grapheme>
<phoneme>dI'fEns</phoneme>
</lexeme>

Etiquetas SSML

El SSML (Synthetic Speech Markup Language) permite que las pronunciaciones se anclen al mismo código semántico. Se encarga de señalar la pronunciación de elementos individuales. Es decir, a diferencia del PLS, este es más indicado para aquellas palabras que pueden tener un significado ambiguo. En este sentido, se recomienda como un complemento de la anterior mejora.


… farther <span ssml:alphabet="ipa" ssml:ph="nɔrθ">N.
another elevation begins …

CSS

También es posible determinar la pronunciación mediante el archivo CSS. Esta mejora es ideal para elementos como el deletreo de palabras o números, añadir pausas dentro de una frase o la pronunciación de abreviaciones, fechas, etc.

En el código HTML se vería así:

<abbr class="spell">IBM</abbr>
IOU

Y en el archivo CSS quedaría así:

.spell {
speak-as: spell-out
}

Normativa y obligatoriedad

Estas mejoras todavía no son obligatorias. Pero sí que son compatibles, única y exclusivamente, con la versión ePub 3. Así que probablemente, a medida que se vaya instaurando la nueva Ley de Accesibilidad, se estandarizarán. De momento, son pequeñas mejoras que incrementarán considerablemente la accesibilidad de los libros digitales.

Referencias

Este artículo se ha escrito con la información proporcionada por la Accessible Publishing Knowledge Base, de Daisy (enlace a continuación): https://kb.daisy.org/publishing/docs/text-to-speech/

Mejoras en el text-to-speech

PLS lexicons

Etiquetas SSML

CSS

Normativa y obligatoriedad

Referencias

Comparte esto:

Comentarios

Deja un comentario Cancelar la respuesta