Open-access Representación conceptual multilenguaje, recuperación y traducción automática

Conceptual representation multilanguage, recovery and automatic translation

Resumen

El motor de la Plataforma Intercultural Multilenguaje Zirano, en www.zirano.com, una obra de artesanía ensamblada y calculada utilizando tecnologías originales e innovadoras.

Es lingüística de corpus artesanal: Semántica conceptual esterea, variable conceptual, árbol conceptual multilenguaje, representación de todos y cada uno de los conceptos, su recuperación y traducción por medio de su hipernotio (hiperónimo conceptual) si fuese necesario.

La utilización de variables conceptuales permite representar sin ningún condicionante, restricción o limitación hasta los conceptos más específicos de cada cultura/lengua. Esto confiere a la tecnología Zirano (c) una característica que no tienen Euro WordNet ni el Programa UNLP. Estos lexicones multilenguaje están orientados a la traducción. En ellos, para poder representar y traducir un concepto se necesita el emparejamiento de palabras en, al menos, dos lenguas. Si esta condición no se cumple la palabra no puede ser incluida en el lexicón ni será traducida. Si utilizamos 'bullfighter' [ing] para traducir 'torero' [cas] no encontraremos en Inglés otras palabras con las que emparejar otros nombres de toreros como espada, maestro, banderillero, peón, monosabio, picador, etc. La Plataforma Intercultural Multilenguaje Zirano contiene semillas que pueden transformarse en un desambiguador léxico muy eficaz para aplicarlo en un traductor automático múltiple simultáneo.

Palabras clave: lexicón conceptual; lingüística de corpus; taxonomía; variable conceptual; semántica conceptual multilenguaje

Abstract

The Intercultural Multilingual Platform Zirano engine, en www.zirano.com, a work of craftsmanship assembled and calculated using original and innovative technologies.

It is handmade corpus linguistics: Conceptual stereo semantics, conceptual variable, conceptual multilanguage tree, representation of each and every one of the concepts, its recovery and translation, if necessary through its hypernotio (= conceptual hyperonim).

The use of conceptual variables allows you to represent, without any constraint, restriction or limitation, till the most specific concepts in any culture / language, which gives to Zirano technology (c) a feature that do not have neither Euro WordNet nor UNLP program. These multilingual lexicons are oriented to translation. To represent and translate a concept they need pairing words in at least two languages. If this condition is not met the word will not be included in the lexicon and thus will not be translated. If you use 'bullfighter' [ing] to translate 'torero' [cas] you will not find other English words that match other names of bullfighters such as 'espada', 'maestro', 'banderillero', 'peón', 'monosabio', 'picador', etc. Intercultural Multilingual Platform Zirano contains seeds that may become a very effective lexical disambiguator to apply in a multiple simultaneous automatic translator.

Keywords: Conceptual lexicón; corpus linguistics; taxonomy; conceptual variable; multilingual conceptual semantics

Introducción

Este artículo describe un prototipo en el que, frecuentemente, hacemos ensayos e introducimos mejoras. Esto produce algunas incongruencias puesto que cuando se introduce una mejora no siempre se revisa todo el trabajo anterior aplicándola por lo que más que una herramienta perfecta y ajustada es un campo de pruebas.

Sugerimos al lector, antes de leer este artículo, que haga una incursión en el enlace 'Demos de Zirano' situado en la página web www.zirano.com.

OBJETIVO de la investigación descrita:

REPRESENTAR en una página web (fase 1), por medio de Variables Conceptuales, conceptos referidos a las enfermedades humanas y de otros animales, a sus síntomas y efectos, a la muerte y los procesos desintegradores que le siguen, utilizando secuencias de signos gráficos o sonoros (palabras) expresadas en múltiples idiomas y también imágenes o secuencias de imágenes.

ASOCIARLOS (fase 2) entre sí reflejando las culturales constelaciones de conceptos activas en los textos que son objeto de estudio.

RECUPERARLOS (fase 3a), partiendo de una palabra o grupo de palabras de cualquiera de los idiomas de la Plataforma Intercultural Multilenguaje Zirano situada en www.zirano.com o a partir de una imagen, sin necesidad de conocer las(s) lengua(s)/ cultura(s) consultada(s).

TRADUCIR (fase 3b), automáticamente los conceptos representados en cualquiera de las lenguas/culturas presentes actualmente o en el futuro en la Plataforma Zirano.

REPRESENTAR los conceptos, 1ª fase.

Partiendo de una de las culturas/lenguas presentes en la Plataforma Intercultural Multilenguaje Zirano, situada en www. zirano.com

Primera Representación, por medio de variables conceptuales

Segunda Representación, por medio de secuencias de letras o sonidos (palabras) y en diferentes niveles: científico, técnico, culto, popular y vulgar, incluyendo imágenes o secuencias de imágenes.

1.1. Descripción de variable conceptual

Una variable conceptual es un signo de naturaleza discreta1 que representa a un concepto. En el ejemplo que sigue (CUADRO 1), el signo SUCC452010, situado en el campo F1, es una variable conceptual. Cada nodo representa a un concepto expresado con una palabra o una secuencia fija de palabras en, al menos, un lenguaje humano.

El conjunto de una variable conceptual más uno o varios nombres de nodo forman un nodo (un registro de una tabla).

CUADRO 1
Un registro de la tabla UNIVERSO. Recoge un nodo el cual representa a un concepto. Un nodo consta de una variable conceptual o signo del nodo (situada en F1) y de uno o más nombres de nodo.

Actualmente (diciembre de 2015), en la tabla UNIVERSO de la Plataforma Intercultural Multilenguaje Zirano, situada en www.zirano. com, hay 115.423 conceptos representados por medio de nodos.

Los nodos se organizan según una estructura inclusiva. Así el conjunto de nodos adquiere forma de Árbol Conceptual Multilenguaje (potencialmente) Universal Zirano (c). Está basado en la aplicación de la estrategia de la Doble Representación del Concepto propio de la Semántica Conceptual Multilenguaje, también llamada Semántica Esterea (Santolaria García, 2010).

Veamos de qué se trata2. Normalmente decimos que 'caballo' es sinónimo de 'corcel'. Empleamos aquí la palabra 'normalmente' porque lo habitual es hablar de sinónimos dentro de una sola lengua. Hasta ahora la Semántica tradicional ha sido monolingüe, plana. Otros términos utilizados con el mismo enfoque monolingüe son:

Antónimo (subir/bajar). Hiperónimo/ hipónimo: Mueble es un hiperónimo que contiene varios hipónimos (silla, mesa, etc.). Merónimo: dedo es merónimo de mano.

El hecho de construir el Árbol Conceptual Multilenguaje 'potencialmente' Universal Zirano (c), en el cual los nombres de nodos (cada uno procedente de un idioma diferente) que representan a un concepto (representado a su vez por una variable conceptual) se extienden en capas paralelas y en contacto en múltiples puntos, hace que sea necesario pasar a hablar de Semántica Conceptual Multilenguaje o Semántica estérea.

Porque ¿qué es 'mesa [cas]' con respecto a 'table' [ing] y a 'taula' [cat]? Si perteneciesen a la misma lengua serían sinónimos. ¿Qué es 'monter' [fra] con respecto a 'baxar' [ara], 'baixar' [cat], 'descendre' [fra]? Si todos perteneciesen a la misma lengua serían antónimos. Para centrar adecuadamente este enfoque propio de la Semántica Conceptual tenemos que señalar un aspecto de la función del 'concepto'.

Este es lo que surge en la mente de una persona cuando oye o ve o le es sugerido el nombre o la imagen de un 'cheval' [fra], 'caball' [cat], 'caballo' [cas], horse [ing], etc.

En todos los casos, [fra], [cat], [cas], [ing], etc. el concepto (imagen mental) es uno y el mismo por lo que cabe preguntarse si para una persona que sabe y habla en castellano, francés, catalán e inglés, 'caballo' [cas], 'cheval' [fra], 'caball' [cat], horse [ing], son cuatro signos lingüísticos o un solo macrosigno lingüístico con un significado y múltiples significantes.

En Semántica Conceptual Multilenguaje cada concepto es representado por medio de una variable conceptual (véase el CUADRO 1), que tiene ciertas propiedades y características:

-Es única y representa a un solo concepto. Esta relación es biunívoca.

-Es de naturaleza discreta. Está formada por hasta 4 letras y una o varias parejas de cifras. Está incluida en otra variable conceptual formando una estructura inclusiva en árbol.

-Es la primera representación de un concepto. En el esquema clásico de Saussure (1964) sustituye y desplaza a lo que el autor llama 'significante' interponiéndose entre éste y el 'significado'.

-Es bipolar. Por la izquierda enlaza con el concepto al que representa (significado). Por la derecha tiene uno o múltiples enlaces, enlaza con tantos significantes (segundas representaciones del concepto) como lenguajes en los cuales sus hablantes hacen sensible ese concepto por medio de una secuencia de sonidos o grafos o un conjunto estable de ellos.

-De esta forma, cada signo actúa como una variable conceptual3. Porque por una parte representa a un concepto por medio de un signo, objeto sensible, que no depende de ningún lenguaje humano. Es su primera representación. Por otra parte, adquiere o puede adquirir el valor de todas y cada una de las secuencias de sonidos o grafos, o conjunto estable de ellos, con los que el concepto se representa en los lenguajes del mundo (segundas representaciones).

-Es una variable conceptual de doble representación porque representa a un concepto (primera representación) y tiene, al menos, una forma sensible en un lenguaje (segunda representación). A veces algunas variables conceptuales tienen múltiples formas sensibles en múltiples lenguajes (|madre[cas]|mother [ing]|mère[fra]|Mutter[deu]|madre[it]|mãe[por]|) etc. segundas representaciones). Otras veces solamente tienen una forma sensible en un solo lenguaje.

Situada en esta nueva dimensión, la pregunta ¿qué es 'monter' [fra] con respecto a 'bajar' [cas], 'baixar' [cat], 'baxar' [ara], descendre [fra]? adquiere sentido. Aparece un nuevo tipo de relación que antes no existía, relación interlenguaje, por oposición a relación intralenguaje.

Hay un tercer elemento que da unidad a esas secuencias de sonidos o letras a pesar de pertenecer a lenguajes diferentes: el concepto (imagen mental, perteneciente al ámbito no sensorial) y su primera representación (el signo, perteneciente al ámbito sensorial que actúa como variable conceptual).

/DEA/4 es la variable conceptual (primera representación) del concepto que en [cas] se expresa así: "Cualquiera de los objetos transportables ... que hay en una casa, ... " y cuyas segundas representaciones son 'mueble' [cas], 'supellex' [lat], 'meuble' [fra], 'fourniture' [ing], 'moble' [cat], etc.

/DEAD/ es la variable conceptual (primera representación) del concepto que en [cas] se expresa así: "Mueble constituido por una superficie horizontal ... " y cuyas segundas representaciones son 'mesa' [cas], 'mensa' [lat], 'table' [fra], 'table' [ing], 'taula' [cat].

En Semántica tradicional o Semántica plana 'mueble' es hiperónimo de 'mesa', 'armario'.

En Semántica Conceptual Multilenguaje o Semántica Estérea, /DEA/ es hipernotio5 (hiperónimo conceptual multilenguaje) de /DEAD/ y, a su vez, /DEAD/ es hiponotio (hipónimo conceptual multilenguaje) de /DEA/.

El mismo razonamiento es válido para sinotio: (|CFDK4020|barretina[cat] y bonnet phrygien[fra]), para antonotio: |PDFF40|monter [fra]| con respecto a |PDFF45|baxar [ara]|baixar [cat]|descendre [fra]| y para meronotio (merónimo conceptual): |DFHF4020|sillín [cas] y |PNBG1020|guidon [fra]| con respecto a |PNB|bicicleta [cat]|.

Es muy importante notar que la utilización de variables conceptuales permite representar sin ningún condicionante, restricción o limitación hasta los conceptos más específicos de cada cultura/lengua, lo cual confiere al Representador de Conceptos Zirano y al Árbol Conceptual Multilenguaje resultante (Árbol Conceptual Multilenguaje 'potencialmente' Universal Zirano (c)) una característica que no tienen Euro WordNet6 ni el Programa UNLP (Cardeñosa, 2002). Estos lexicones multilenguaje están orientados a la traducción. Para poder traducir una palabra necesitan el emparejamiento de palabras en, al menos, dos lenguas. Si esta condición no se cumple la palabra no puede ser incluida en el lexicón y, por supuesto, tampoco puede ser traducida. Si utilizamos 'bullfighter' [ing] para traducir 'torero' [cas] no podremos encontrar en inglés otras palabras con las que emparejar otros nombres de toreros como espada, maestro, banderillero, peón, monosabio, picador, etc. y no lo vamos a poder hacer simplemente porque estas últimas palabras no son necesarias ni pertinentes para los 'habitantes' de la cultura del Reino Unido de Inglaterra ni de los Estados Unidos de Norteamérica ni de ningún territorio donde se habla inglés. Por ello, esas palabras no van a poder ser recogidas en Euro WordNet ni en UNLP. De esto resulta que las palabras culturales, las más específicas y características de cada cultura, incluso las de la propia cultura inglesa/norteamericana, forzosamente quedan fuera de los lexicones multilenguaje orientados a la traducción, porque estos contienen solamente lo que en el programa UNLP llaman 'palabras universales'.

Por el contrario, el Representador de Conceptos por medio del uso de Variables Conceptuales en las que se basa el Árbol Conceptual Multilenguaje 'potencialmente' Universal Zirano(c), va dirigido directamente a la representación de conceptos por lo que, en el momento en que en un texto de cualquier cultura, un nuevo concepto es localizado e identificado como tal, siempre y en todos los casos es posible su representación, sin ningún tipo de restricción.

Esto nos permite afirmar que el Árbol Conceptual Zirano es 'potencialmente' Universal.

CUADRO 2
El concepto |HHGA101010102025|chungo (estar -, estar enfermo) sólo está representado en Castellano. En los demás idiomas va precedido por > porque, por ahora, no sabemos representarlo en aragonés, inglés, catalán ni francés utilizando una palabra. Esta ausencia de correspondencia entre dos significantes en dos idiomas diferentes no impide su representación por medio de un nodo en el Árbol Conceptual Zirano, como sí ocurre en los lexicones multilenguaje orientados a la traducción.

En su conjunto, las palabras culturales presentes en cualquier lengua caracterizan a la cultura a la que representan siendo transmisoras de conceptos clave en la escala de valores y en la forma de pensar y sentir del grupo humano que vive en su ámbito geográfico/cultural/ lingüístico. Precisamente estas palabras suelen quedar excluidas de los lexicones multilenguaje orientados a la traducción debido a la restricción que hemos señalado y por ello son el tesoro más valioso que contiene nuestra base de datos.

Descripción de las tablas de la Plataforma Intercultural Multilenguaje Zirano

1.2.1. Estructura de la Base de Datos

Por medio de la página web www.zirano. com se formalizan, representan y exploran las constelaciones de conceptos de las culturas cuyos corpora están presentes en la Plataforma Intercultural Multilenguaje Zirano. La base de datos de la que se sirve la Plataforma contiene tres tipos principales de tablas.

1.2.1.1. Tablas DICCIOxxx

En el grupo de tablas DICCIOxxx se guardan los textos planos y las definiciones propios de cada una de las lenguas que acoge la Plataforma Intercultural Multilenguaje Zirano.

1.2.1.2. Tabla Universo

La tabla UNIVERSO(c) recoge los resultados del Representador de Conceptos Zirano. Los conceptos que aparecen en los textos planos y en las definiciones que forman los corpora de las lenguas/culturas que hay en las tablas DICCIOxxx, se representan por medio de variables conceptuales (signos de naturaleza discreta e inclusiva) y se ubican estructuradamente en la tabla UNIVERSO. Esta es una tabla única para todas las lenguas/ culturas que están presentes actualmente en la Plataforma Intercultural Multilenguaje Zirano y también para las que estarán en el futuro, por eso podemos decir que el Árbol Conceptual Zirano (tabla UNIVERSO(c)) es potencialmente universal. En el campo F1 se sitúan las variables conceptuales que representan a los conceptos. Este campo es único para todas las lenguas. Hay además un campo para cada lengua: castellano, aragonés, catalán, inglés, etc. Cada campo constituye una capa ([cas], [ara][cat][ing]) en la que se recoge el significante (a veces una glosa) del concepto que está representado en el campo F1 por medio de su variable conceptual.

CUADRO 3
Una de las definiciones de DICCIOara (Aragonés).

CUADRO 4
Uno de los textos planos de DICCIOcas (Castellano).

CUADRO 5
Representación del concepto /VMVB/ bosque (cas) / selba (ara) / forest (ing) / bosc (cat) en la tabla UNIVERSO. El campo (fra) todavía no ha sido tratado y permanece oculto por el signo >.

1.2.1.3. Tablas DICCIONAxxx @

Entendemos por cultura el conjunto de constelaciones de conceptos que surgen en nuestra mente cuando pensamos en una idea o nos es sugerida. Las constelaciones de conceptos son culturales. Son muy parecidas en aquellas personas que pertenecen a la misma generación y al mismo ámbito cultural y más o menos diferentes (incluso muy diferentes) en aquellas personas que existieron (y escribieron) en otras épocas o que viven actualmente en ámbitos culturales alejados unos de otros.

Manifestamos nuestra cultura en lo que decimos, en lo que escribimos o en lo que expresamos por medio de obras artísticas. Nuestra cultura se manifiesta en el léxico de la lengua que hablamos pero sobre todo se manifiesta en las constelaciones de conceptos relacionados entre sí que ponemos de manifiesto al hablar y al escribir. La siguiente descripción de casa (vivienda) = "edificio con cuatro paredes ['la casa ardía por los cuatro costados'] cubierta por un tejado, dividida en habitaciones, con al menos una puerta y una ventana donde vive una familia" a nosotros no nos provoca ningún sobresalto porque 'habitamos en' la cultura española, pero sí a personas que viven en otras culturas donde las casas (viviendas) no son edificios (cuevas, cabañas), no están cubiertas por un tejado (están cubiertas con chapas, hojas de palmera, paja, losas, tierra en la que crecen hierbas), tienen una sola pared (planta circular, iglú, palloza), no están divididas en habitaciones y en ellas no vive una familia sino una tribu.

Génesis: Yahvé ha creado un jardín frondoso donde viven sus criaturas. Sale a pasear aprovechando el frescor de la tarde para encontrarse con Adán y Eva.

Por la constelación de conceptos que está presente en este texto (en la mente de su autor) sabemos que quien lo escribió tenía referencias o había visitado o habitaba en un país en el que hacía muchísimo calor, en el que la gente evitaba salir a la calle durante las horas centrales del día, en el que la mayor parte de la tierra era desértica pero en el que había un río o un manantial y un sistema de acequias que permitían cultivar jardines y huertos (oasis) en los que apetecía pasear y socializar después de la puesta del sol.

Las acequias, los huertos y los jardines eran parte de la cultura material de las personas que habitaban entonces en ese país.

La costumbre de no realizar actividades fuera de casa a medio día (¿siesta?) y de socializar con los vecinos por la tarde, cuando ya no hace calor, formaba parte de su cultura inmaterial.

Este texto no podría haberlo escrito un habitante del bosque ecuatorial ni de la Patagonia.

Los lingüistas solemos pensar que un concepto es una idea aislada o que está asociado a otros conceptos por medio de relaciones semánticas (sinonimia, antinomia, meronimia, etc.) pero, en realidad, los conceptos no 'viven' aislados ni metidos en cajitas de cartón o de fragante madera de sándalo en nuestra mente sino que su 'hábitat' natural está formado por varios/muchos conceptos que forman constelaciones. Las constelaciones de conceptos son culturales, como lo es la Astrología, la cual no es una ciencia.

La Astronomía es una ciencia exacta. Para los astrónomos cada estrella tiene su 'nombre propio' (único). La Semántica es una ciencia. En la Semántica tradicional, cada concepto tiene una definición y está situado en una posición. Las agrupaciones de estrellas (constelaciones) no son objeto de la Astronomía sino de la Astrología, son entes culturales. Las asociaciones/constelaciones de conceptos son objeto de estudio de la Psicolingüística, la Sociolingüística, la Etnolingüística, la Semántica Conceptual Multilenguaje. Forman conjuntos cuyos elementos están relacionados de una forma unívoca (no biunívoca). En determinada cultura la estrella X (nivel de Astronomía) puede formar parte de la constelación A (concepto cultural, Astrología) junto con las estrellas Y y Z (Astronomía), pero en otra cultura la misma estrella X (Astronomía) puede formar parte de la constelación B (concepto cultural, Astrología) junto a las estrellas M y N (Astronomía).

Las tablas DICCIONAxxx (c) representan las constelaciones de conceptos con las que está asociado cada uno de ellos en los textos de los corpora de las lenguas/culturas que forman el corpus de la Plataforma Intercultural Multilenguaje Zirano.

Las relaciones entre los conceptos de las tablas DICCIONAxxx no son objetivas o lógicas, características propias de la Semántica tradicional, sino que son subjetivas en la medida en que las culturas son subjetivas o, al menos, colectivamente subjetivas.

CUADRO 6
Constelación de conceptos asociados a |VMJB| selba[ara]bosque[cas]| recuperados de DICCIONAaragonés (7)

Lo que ha buscado el programa informático en www.zirano.com para construir el cuadro 6 no es el significante |selba [ara]| sino |VMJB|, el signo que representa al concepto, el cual también representa a los significantes |bosque [cas]|, |forest [ing]|, bosc [cat] y que representará en el futuro a todos los significantes del concepto |VMJB| en las nuevas culturas/lenguas que se incorporen a la Plataforma Zirano, siempre que sea necesario, siempre que en el 'habitat de esas culturas' haya bosques o referencias más o menos explícitas o lejanas al concepto VMJB.

CUADRO 7
Nodo del concepto VMJB. El nombre en Francés no ha sido 'digerido' todavía.

Y, al contrario, lo que el programa presenta a la persona consultante no es el signo del nodo |VMJB| sino el nombre del nodo, escrito en el lenguaje en el que haya escogido leer. El lenguaje en el que hace la pregunta puede ser diferente al de la cultura que investiga y también puede ser diferente del que lee en la pantalla. De esto se sigue que no es necesario que la persona consultante conozca el lenguaje en el que se expresa la cultura que investiga.

Esto permite, por ejemplo, que una persona que no conozca la lengua aragonesa pueda consultar y leer en la lengua que elija el contenido de Zirano Aragonés recogido en la tabla DICCIONAara.

Lo anterior, tiene una extraordinaria importancia para la conservación de la diversidad cultural y la visibilización de las culturas que han tenido hasta ahora poca atención por parte de los eruditos, precisamente las que pueden traernos los mensajes más originales y valiosos a este mundo tan progresivamente uniformizado. Es más fácil, natural, satisfactorio y productivo que un hablante de bribri haga un Zirano de su cultura en su lengua materna que que trate de describirla en inglés o en castellano o hacer un diccionario bilingüe bribri - inglés o bribri - castellano como único medio para hacer accesible su cultura a millones de personas en todo el mundo ... menos a las personas de su pueblo/tribu/cultura que no sepan inglés o castellano.

Además, con mucha probabilidad, es imposible representar determinados conceptos culturales propios de la cultura bribri en los idiomas inglés y español con una palabra o una combinación estable de palabras8.

2. Partiendo de un concepto representado por una secuencia de letras, RECUPERAR las palabras, las imágenes o secuencias de imágenes asociadas a dicho concepto, por medio de una página web.

La recuperación puede hacerse individualmente, recuperando los "sinotios" (sinónimos conceptuales en múltiples culturas/ lenguas) de un concepto o en racimos, recuperando su "hipernotio" (hiperónimo conceptual en múltiples culturas/lenguas) que incluye como "hiponotio" (hipónimo conceptual en múltiples culturas/lenguas) el concepto que investigamos más todos los otros posibles "hiponotios", que, a su vez, son "sinotios" entre sí y, que a su vez, pueden ser hipernotios de otros racimos con la posibilidad de recorrer ascendentemente el camino que va desde sus sucesivos "hipernotios" (que incluyen sus racimos de "hiponotios" cada vez más numerosos), hasta llegar (en caso de que sea necesario) a su megahipernotio, por ejemplo, "Salud y enfermedades", expresado en múltiples culturas/lenguas.

Por otra parte, existe una gran diferencia de productividad y sugerencias entre recuperar por Árbol Conceptual, (tabla UNIVERSO, Semántica tradicional) y recuperar por DICCIONAxxx (Semántica Analógica Conceptual).

La primera opción (tabla UNIVERSO) se limita exclusivamente a conceptos relacionados lógicamente con el concepto inicial, según las técnicas empleadas en la Semántica tradicional.

CUADRO 8
Conceptos recuperados en la tabla UNIVERSO a partir de |HHGA1010101020|enfermo (adjetivo)|cas|.

La recuperación por Diccionario Analógico Conceptual (DICCIONAxxx) es muchísimo más rica en sugerencias porque recupera conceptos procedentes de múltiples campos conceptuales textualmente relacionados con el concepto inicial.

El ejemplo que sigue refleja todas las asociaciones de ideas relacionadas con |HHGA10 10101020|enfermo(adjetivo)|cas| que actualmente contienen los textos que forman el corpus de castellano.

CUADRO 9
Conceptos recuperados en el Diccionario Analógico Conceptual Tabla DICCIONAcas a partir de |HHGA1010101020|enfermo (adjetivo)|cas|. Estos conceptos forman una constelación típica de la Semántica Conceptual. En la aplicación www.zirano.com, al detener el cursor encima de cada palabra, surge su definición.

Los Diccionarios Analógico Conceptuales Zirano (tablas DICCIONAxxx, una para cada Lengua / Cultura presente en la Plataforma Intercultural Multilenguaje Zirano) constituyen superestructuras construidas con elementos (conceptos) procedentes del Árbol Conceptual (potencialmente) Universal. En el caso de Zirano Castellano, en diciembre de 2015, cada uno de los 115.423 conceptos de la Tabla Universo (nivel semántico) es reutilizado un promedio de 6'49 veces hasta alcanzar los 750.234 registros que forman la tabla DICCIONAcas (nivel conceptual).

3. TRADUCIR, automáticamente a cualquiera de las lenguas de la Plataforma los conceptos representados en cualquiera de las lenguas/culturas presentes en la Plataforma Intercultural Multilenguaje Zirano situada en www.zirano.com.

3.1 Traducción directa multilenguaje

Como en el caso de los lexicones multilenguaje orientados a la traducción, determinados registros de la tabla UNIVERSO permiten la traducción directa simultánea de las palabras que representan a los conceptos.

CUADRO 10
Traducción directa de 'enfermo' (cas) a ara, ing, cat, fra.

3.2 Traducción de un hiponotio por un hipernotio

La estrategia de traducir un hiponotio (hipónimo conceptual) por su hipernotio (hiperónimo conceptual) tiene una ventaja decisiva con respecto a los lexicones multilenguaje enfocados a la traducción.

Cuando un traductor automático basado en un lexicón multilenguaje orientado a la traducción intenta traducir una palabra como 'pocho' (ver CUADRO 15) y no la encuentra en su repertorio de palabras para el idioma meta, generalmente presenta la palabra sin traducir, a veces entre comillas o en letra cursiva, a veces con un * delante, dentro de la frase traducida.

Por el contrario, la tecnología Zirano permite la traducción de un hiponotio (hipónimo conceptual) por su hipernotio (hiperónimo conceptual). Si la rutina de traducción encuentra en el lenguaje meta un nodo cuyo nombre de nodo va precedido de un > (concepto glosado o sin glosar, sin traducción exacta), da 'paso(s) a atrás' de una forma recursiva, va a ir quitándole dos cifras o una letra al signo hasta encontrar un nombre de nodo que no tenga > delante en el idioma meta.

CUADRO 11
Traducción de |HHGA101010102020|pocho (enfermo)[cas]| por HHGA1010101020|malalt[cat]|malade[fra].

Un traductor automático basado en un lexicón multilenguaje tradicional posiblemente no hubiese sabido traducir la palabra |pocho|cas| a catalán o francés.

He aquí varias traducciones obtenidas por medio del traductor de Google:

Today I am pocho. Aujourd'hui, je suis pachucho. Oggi sono chungo. Hoje eu estou errado.

Utilizando la técnica del 'paso atrás' en este cuadro se ejemplifica la traducción de la serie de sinotios (sinónimos conceptuales) que forman en [cas] el racimo conceptual |HHMB402040%|arrechucho[cas]|estacazo|pallá|achuchón|malaire|apechusque|aciburrio|jamacuco|yuyu| mientras no encontremos traducción para esos conceptos en |ara|ing|cat|fra|.

CUADRO 12
Traducción de |HHMB402040xx| por |HHMB402040|arrechucho|cas|funny turn|ing|indisposition|fra| y por |HHMB4020|ataque|ara|atac|cat|.

4. Desambiguador léxico automático

Mejora del desambiguador léxico semiautomático que funciona en el representador de conceptos de www.zirano.com para que pase a ser automático, basándonos en los corpora desambiguados que existen en la base de datos de la Plataforma Zirano (tablas UNIVERSO(c) y DICCIONAxxx) y aplicación de esta tecnología a un traductor automático.

En el ejemplo se trata de desambiguar automáticamente determinada palabra (secuencia de letras) que aparece en uno de los textos contenidos en la tabla DICCIOcas apoyándonos en la existencia de las 750.234 palabras desambiguadas de castellano que están en la tabla DICCIONAcas de la base de datos Zirano y en las 115.423 conceptos de la tabla UNIVERSO.

La idea inicial es ver qué palabras (secuencia de letras) rodean a la palabra que ha de ser desambiguada en el texto en el que aparece y compararlas con los conceptos con los que está asociada cada una de las acepciones de la palabra que va a ser desambiguada en las tablas en el campo [cas] de UNIVERSO (árbol Conceptual) y en DICCIONAcas (¿solamente en cas?).

Tarea: desambiguar la secuencia de letras 'b''a''n''c''o' en un párrafo escrito en castellano.

Iniciaremos el proceso construyendo una tabla provisional con todas las palabras (secuencias de letras) que forman el texto.

Haremos otra tabla con todos los nodos que contienen la secuencia de letras 'b''a''n''c''o' en el campo [cas] de la tabla UNIVERSO.

CUADRO 13
Conceptos de la palabra (secuencia de letras) 'b''a''n''c''o' representados en la tabla UNIVERSO.

Seguidamente, se hará una búsqueda en la tabla DICCIONAcas de cada una de las variables conceptuales que contiene el campo F1 del CUADRO anterior (LXD40, DFDH1030, etc.)

Si, por ejemplo, en una de las búsquedas obtuviésemos muchas coincidencias de las palabras del texto con las palabras:

FIGURA 1
CONCEPTOS ASOCIADOS a |banco (de barca)|

sería muy probable que se tratase de la palabra (significante + significado) banco de barca.

Si en una de las búsquedas obtuviésemos muchas coincidencias con las palabras:

sería muy probable que se tratase de la palabra (significante + significado) banco (de carpintero, de mecánico, etc.)

Este desambiguador léxico automático será de gran utilidad aplicado a un traductor automático ya que evitará las traducciones erróneas que producen las estrategias que se aplican actualmente en tradumática (principalmente la desambiguación por reglas).

HIPÓTESIS: Las constelaciones de determinado concepto, 'mesa' por ejemplo, son significativamente iguales en el corpus español y el francés.

En la media en que esta hipótesis sea cierta se podrían utilizar las desambiguaciones de castellano (750.234 palabras desambiguadas) para desambiguar textos franceses (actualmente sólo hay 3 palabras desambiguadas). Sería posible utilizar las tablas DICCIONAxxx de un idioma en otro, incluso utilizar el conjunto de todas las tablas DICCIONAxxx para desambiguar textos escritos en un idioma 'nuevo'.

5. Incongruencias y prospectiva

- Los conceptos se han ido representando en el Árbol Conceptual Zirano por acopio, conforme iban apareciendo en los textos del corpus, a partir de una estructuración muy básica, partiendo de las cuatro primeras letras de los signos. Una vez obtenida una representación de conceptos razonablemente densa (150.000 nodos), hemos empezado la tarea de realizar la revisión global de los campos conceptuales para dar coherencia a su estructura. Esta tarea está inconclusa. Para ver el resultado de esta tarea puede explorar por medio del Árbol los campos relacionados con la Zoología, por ejemplo.

Otras investigaciones propuestas

Desarrollo de un traductor automático múltiple simultáneo

- Desarrollo de Zirano Cúpula, una página web que permita la consulta y comparación de resutados de las búsquedas en varios ziranos al mismo tiempo con objeto de comparar los resultados obtenidos. Esta página web incluirá un:

Recuperador de ocurrencias de campos conceptuales completos (hipernotios que contienen hiponotios) en lingüística de corpus en múltiples lenguas simultáneamente. Una busca /DEA%/ nos permitirá recuperar 'supellex' [lat], 'meuble' [fra], 'fourniture' [ing], 'moble' [cat], 'mueble' [cas], 'mensa' [lat], 'table' [fra], 'table' [ing], 'taula' [cat], 'mesa' [cas] y silla, taburete, armario, cama, etc. e incluso los nombres de aquellos muebles de los que no tenemos noticia de su existencia por utilizarse en culturas con las que no estamos familiarizados.

Realización y computación automática de encuestas con cuestionarios cerrados en todos los idiomas de la Plataforma Multilenguaje partiendo de un idioma, sin necesidad de conocer los otros idiomas, los resultados son accesibles desde todos los idiomas, cada uno en su idioma, sin necesidad de traducción.

Realización y computación automática de encuestas con cuestionarios abiertos en todos los idiomas de la Plataforma Multilenguaje partiendo de un idioma, sin necesidad de conocer los otros idiomas ni de traducir los resultados. Este tipo de encuesta permitiría agrupar todos los hipnotios (hipónimos) en su hipernotio (hiperónimo). Por ejemplo, en una encuesta abierta, una respuesta abierta del tipo 'devorar' será agrupada con otras respuestas como 'engullir', 'tragar(se)' 'zampar(se)' y todas ellas asimiladas a su hipernotio (hiperónimo) 'comer' y eso en todos los idiomas de la plataforma lingüística.

Recuperación de información en el sistema bibliotecario europeo/mundial sin conocer los idiomas en los que están escritos los descriptores, una sola búsqueda para todos los idiomas y todas las bibliotecas que usen el sistema. Por ejemplo, una sola búsqueda a partir de 'penicilina' permitiría recuperar todas las referencias que contuviesen esa palabra en sus descriptores escrita en cualquiera de las lenguas de la Plataforma Multilenguaje. Además, podría sugerir al consultante recuperar las referencias de todos los demás antibióticos, individualmente o en bloque, además de las referencias a antibiótico.

Utilización en Sociolingüística, Etnolingüística, Psicolingüística, etc. para obtener las representaciones de las constelaciones de conceptos presentes en conjuntos de textos representativos de grupos de edades, sociales, étnicos, etc. actuales y del pasado y su comparación.

Ver información del anexo 6 en pdf

Bibliografía

  • 1
    Son de naturaleza discreta = están constituidos por una yuxtaposición de segmentos independientes, cada uno de los cuales aporta al significado de los anteriores un nuevo matiz complementario. Ver el ejemplo de /DEA/ /DEAD/ en la página 5.
  • 2
    En http://www.zirano.com/w_zirano/verdemo.php?q=doble representacion3.swf&ancho=793&alto=599 puede ver un documento en el que se explica gráficamente esta estrategia.
  • 3
    Partiendo de la idea de 'variable matemática' [magnitud que puede tener distintos valores dentro de un conjunto de ellos] una 'variable conceptual' es un signo que puede tener distintos valores dentro del conjunto de significantes con los que se expresa determinado concepto en los lenguajes en los que éste existe en la mente de sus hablantes.
  • 4
    John Wilkins (1668) expuso la posibilidad de crear un idioma universal y planteó sus bases teóricas (también proponía signos de naturaleza discreta). Partiendo de las mismas premisas, el 'idioma universal' que hemos desarrollado cumple algunas de las funciones con las que teorizó John Wilkins. La diferencia principal es que el polígrafo inglés planteó un lenguaje para seres humanos pero en este caso se trata de un lenguaje para máquinas utilizadas por seres humanos.
  • 5
    Del Latín. nōtio -ōnis. Noción, idea.
  • 6
    EuroWordNet. http://www.illc.uva.nl/EuroWordNet/
  • 7
    La constelación de conceptos asociados a |VMJB| recuperados en DICCIONAcas (Castellano) daría un resultado ligeramente diferente a éste. Por ejemplo, el concepto 'follet' [duende del bosque] no existe en la cultura castellana.
  • 8
    Imaginemos que en un texto escrito en Bribri alguien le dice a un niño que vaya a buscar fibra de YYY que es una palmera determinada entre las X palmeras diferentes que conocen. Si traducimos el texto a Español, YYY quedará recogido como 'palmera' (única posibilidad). Si después este texto es traducido a Cabécar habrá perdido el matiz de 'palmera cuyas fibras son útiles para ....'. Pero resulta que en Cabécar SÍ que se distingue ese tipo de palmera con un nombre específico. Bribri y Cabécar son los nombres de dos lenguas/ culturas de Costa Rica.

Fechas de Publicación

  • Publicación en esta colección
    Jul-Dec 2016

Histórico

  • Recibido
    01 Ene 2016
  • Acepto
    02 Ago 2016
location_on
None Universidad de Costa Rica, San José, San José, CR, 2060, 2511-5107, 2511 8395 - E-mail: kanina@ucr.ac.cr
rss_feed Acompanhe os números deste periódico no seu leitor de RSS
Acessibilidade / Reportar erro