Las lenguas en la Internet en tiempos de IA. 2/4

Daniel Pimienta es Responsable del Observatorio de la diversidad lingüística y cultural en la Internet (https://obdilci.org).

La segunda entrega sobre el tema explica como la Internet he evolucionado de un lugar originalmente anglófono hacia el espacio el más multilingüe de la humanidad. Al mismo tiempo, revela que ese innegable multilingüismo de la Internet de hoy, desafortunadamente, deja de lado más del 90% de las lenguas existentes y se concentra en unas 700 lenguas. Se reconoce además que hay distintos niveles de presencia digital para las lenguas, provocando una dura selección en favor de una minoría de lenguas.

Es cierto que, en los orígenes, en 1992, año del nacimiento de la Web, el contexto era, en cierto modo, más marcadamente anglófono que el del mundo de la investigación. La Internet nació del encuentro entre el mundo de la informática, fuertemente influenciado por el inglés, y el de la investigación científica. La creatura resultante de tal mezcla solo podía ser abrumadoramente anglófona, al menos en sus inicios.

Esta creatura, sin embargo, pagó un alto precio, con un defecto de nacimiento que finalmente se curó, pero cuyas cicatrices permanecen visibles: una codificación inicial no inclusiva. El inglés, a diferencia de la mayoría de los idiomas que usan el alfabeto latino, no tiene diacríticos. Esta peculiaridad permitió una codificación completa (minúsculas, mayúsculas, signos de puntuación y caracteres especiales) contenida en 128 caracteres, o 7 bits de información: el código ASCII ( Código Estándar Americano para el Intercambio de Información ). Esta codificación reducida penalizó, durante varios años, a las numerosas lenguas cuyo inventario alfabético excedía este umbral, lo que causó una frustración legítima.

Como acotación al margen, un curso de verano organizado por la Universidad Complutense de Madrid en 2002 se tituló " Interñet en español ". La presencia de la tilde (~), imposible de representar correctamente en el espacio digital de la época, lo tradujo fonéticamente como "Inter niet en español", un testimonio irónico de la indignación provocada por la exclusión de un símbolo que afectaba a la soberanía española. Durante esta fase inicial, el inglés era más que una lingua franca: era una auténtica lingua absoluta de la Internet. Sin embargo, este fue solo un período de transición, relativamente breve en el panorama general.

El mundo de la investigación, internacional por naturaleza, y el de la informática, creativo y flexible por naturaleza, han ido curando gradualmente esta herida original. Tras algunos vendajes[1], finalmente se implementó una codificación universal con Unicode [2], eliminando el obstáculo fundamental para el plurilingüismo. Las lenguas europeas encontraron rápidamente su lugar, seguidas por las asiáticas, luego el árabe y, finalmente, el plurilingüismo, el flujo natural de la "red de redes", regresó con fuerza. Cabe recordar también que los nombres de dominio lograron liberarse del dominio exclusivo del alfabeto latino y ser elegibles para definirse en varios alfabetos codificados gracias a la creación de los "nombres de dominio internacionalizados" en 2010, tras un largo proceso de desarrollo iniciado en 1998. Al mismo tiempo, se permitió el uso de diacríticos en los nombres de dominio que utilizan el alfabeto latino. Así, dominios como .みんな para el japonés, o españa.com, para la venganza de la tilde, se han hecho posibles…

La Internet es ahora el espacio más multilingüe jamás creado por la humanidad, aunque este plurilingüismo aún afecta solo a una minoría de las lenguas existentes: menos del 10 %. La desinformación persistente continúa oscureciendo esta realidad multilingüe, estructural e innegable.

La evolución del porcentaje de contenido en inglés ilustra claramente esta transformación. Partiendo de casi el 100% en 1992, la proporción descendió a alrededor del 50% a principios de la década de 2000, antes de alcanzar un nivel asintótica ligeramente superior al 20% en la actualidad, compartiendo el primer puesto con el chino. El español ocupa el tercer puesto, con alrededor del 7% del contenido, mientras que el francés ocupa el cuarto lugar, con alrededor del 3,5%, empatado con el hindi, el árabe, el ruso y el portugués.

Las proyecciones a medio y largo plazo favorecen al hindi, cuyo crecimiento demográfico podría permitirle superar al español. Las perspectivas para el francés, por otro lado, dependen en gran medida de la población de África, que se prevé que se duplique para 2050, así como de una presencia notablemente alta del francés en la Web africana, en relación con el número de francófonos en los países en cuestión.

La dificultad estructural que tienen muchas lenguas para existir plenamente en el mundo digital se aprecia claramente en los siguientes datos, que reflejan aproximadamente la situación actual, aunque también ponen de relieve el camino que aún queda por recorrer:

De las casi 7.500 lenguas existentes en el mundo, sólo alrededor del 10% tienen una existencia digital mínima, es decir una codificación que permita su representación en sistemas informáticos.
De las aproximadamente 750 lenguas así codificadas, sólo una tercera parte se beneficia de un nivel suficiente de apoyo tecnológico: por ejemplo, la posibilidad de ser procesadas por programas de traducción automática.
De estos 750 idiomas codificados, aproximadamente la mitad tienen un volumen de contenido suficientemente grande y diverso en la Web.
De las menos de 400 lenguas para las que realmente existe contenido, menos de una cuarta parte tiene contenido razonablemente "descubrible"[3], es decir, contenido destacado por las herramientas de búsqueda dominantes.
Finalmente, entre el centenar de lenguas que realmente pueden ser descubribles, menos de la mitad tienen corpus lingüísticos de tamaño suficiente para ser integradas en grandes modelos lingüísticos.
En la actualidad, menos de veinte idiomas se benefician de grandes modelos de lengua completamente funcionales.

¿Cómo explicar tal cuello de botella en el camino de las lenguas hacia una presencia plena en el mundo digital?

Existe una paradoja estructural que vincula el número de lenguas con el número de sus hablantes, lo que arroja luz sobre la ecuación económica selectiva inherente a la diversidad lingüística en el mundo digital. Las lenguas con más de un millón de hablantes suman 336 (antes de agruparse en macrolenguas), lo que representa menos del 5% de todas las lenguas existentes. Sin embargo, estas lenguas son habladas por más del 95% de la población mundial.

En el otro extremo de la curva, aproximadamente el 95% de las lenguas del mundo son hablados por menos del 5% de la población humana. Dada la fuerte correlación entre tener existencia digital y tener más de un millón de hablantes, esta situación se traduce en una ecuación sorprendente: casi el 95% de los humanos podrían, en teoría, acceder a la Internet en su propia lengua, mientras que aproximadamente el 95% de las lenguas están excluidas de la Internet.

Si queremos estimar el coste del camino para dotar a una lengua de las condiciones de una existencia digital plena –desde la codificación de su sistema de escritura hasta su integración en herramientas de inteligencia artificial, pasando por un soporte tecnológico robusto, contenidos que cubran una amplia gama de temas y una verdadera capacidad de descubrabilidad–, y si este coste se relaciona con el número de hablantes, la ecuación aparece como un muro casi infranqueable para las miles de lenguas con menos de 10.000 hablantes, o sea más de la mitad de las lenguas del mundo.

La transición a lo digital requiere, por lo tanto, una alianza difícil pero necesaria dentro de las familias lingüísticas para aunar esfuerzos y reducir el coste por hablante. Dado que aproximadamente el 10 % de las lenguas no tienen un sistema de escritura codificado y que casi la mitad carece de una ortografía universalmente aceptada, el primer reto es crear o adoptar sistemas de escritura comunes dentro de estas familias. Sin embargo, la experiencia demuestra que este objetivo es más fácil de decir que de hacer: los lingüistas, a menudo celosos guardianes de su lengua, dudan en renunciar a ciertas particularidades para adaptarse a las limitaciones de la era digital.

[1] MIME, un protocolo diseñado para ampliar el número de combinaciones de caracteres ASCII, consulte https://es.wikipedia.org/wiki/Multipurpose_Internet_Mail_Extensions

[2] https://unicode.org

[3] La "descubrabilidad", un concepto introducido en Quebec hace unos años para el contenido cultural, se refiere a la capacidad de las principales plataformas para recomendar dicho contenido (canciones, películas, etc.), sin la cual sería difícil que adquiriera una relevancia significativa. El concepto puede extenderse a todo el contenido en línea que sea "descubierto", siempre que los motores de búsqueda lo posicionen en los primeros puestos de los resultados de búsqueda según palabras clave relevantes. Cabe destacar que la descubrabilidad depende cada vez más de la visibilidad dentro de los sistemas de IA, lo que complica el asunto.

EN ESTA NOTA

Daniel Pimienta idioma Inteligencia artificial Internet La lengua

Daniel Pimienta

Especialista en Tecnologías de la Información

Daniel Pimienta es Presidente del Observatorio de la diversidad lingüística y cultural en la Internet y profesor universitario, especialista internacional del uso de las tecnologías de la información y la comunicación con visión social... y amante de la naturaleza, especialmente del mar.

Sigue todas las noticias de Acento en Google News

Sigue todas las noticias de Acento en WhatsApp

Últimas noticias

{{#title}}{{rendered}}{{/title}}

Síguenos en nuestras redes

Las lenguas en la Internet en tiempos de IA. 2/4

La Internet es ahora el espacio más multilingüe jamás creado por la humanidad, aunque este plurilingüismo aún afecta solo a una minoría de las lenguas existentes: menos del 10 %. La desinformación persistente continúa oscureciendo esta realidad multilingüe, estructural e innegable.

Daniel Pimienta

Especialista en Tecnologías de la Información

{{#title}}{{rendered}}{{/title}}

{{#title}}{{rendered}}{{/title}}

Sigue leyendo

{{title}}

Secciones

{{#title}}{{rendered}}{{/title}}

Las lenguas en la Internet en tiempos de IA. 2/4

La Internet es ahora el espacio más multilingüe jamás creado por la humanidad, aunque este plurilingüismo aún afecta solo a una minoría de las lenguas existentes: menos del 10 %. La desinformación persistente continúa oscureciendo esta realidad multilingüe, estructural e innegable.

Don Pancho y su discurso sobre la selectividad penal

Dos caminos hacia la Gestión Política Comunitaria

Daniel Pimienta

Especialista en Tecnologías de la Información

{{title}}

Secciones