Blog del grup de recerca Tradumàtica

Blog del grup de recerca Tradumàtica sobre tecnologies de la traducció

Tag Archive 'traducció automàtica'

Feb 06 2019

Apertium: traducció automàtica de tothom i per a tothom

Marc Riera Irigoyen – Estudiant del màster Tradumàtica

Quan als traductors professionals o als estudiants de traducció se’ls parla de la traducció automàtica, generalment hi ha dues reaccions: hi ha els qui pensen que la traducció automàtica és un niu d’errors de traducció i per tant resulta poc fiable, i els qui amb por preveuen que les màquines es rebel·laran contra el traductor humà per prendre-li el lloc de treball.

Deixant de banda els arguments de cada postura, el contrast d’opinions revela que molt sovint es desconeix el funcionament dels traductors automàtics. Resulta paradoxal que, sent una eina indispensable en el dia a dia per a molts traductors, se segueixi veient la traducció automàtica com una cosa gairebé màgica, amb un funcionament d’allò més complex i impossible d’entendre, o bé se’n té una visió simplificada i es considera que són sistemes que «tradueixen paraula per paraula». El caràcter comercial de molts d’aquests motors de traducció ho complica tot encara més, perquè l’usuari no pot descobrir fàcilment les limitacions del traductor automàtic ni pot saber si l’empresa responsable no està emmagatzemant els textos i dinamitant la confidencialitat.

Per sort, també existeixen alternatives lliures i de codi obert, i Apertium n’és un exemple. Apertium va néixer fa una mica més d’una dècada com una plataforma de traducció automàtica lliure per a qualsevol combinació de llengües. Aprofitant el treball invertit en InterNOSTRUM, el seu predecessor, va començar enfocat als parells de llengües properes, però ha evolucionat i ara és possible traduir textos entre llengües més distants. En aquest darrer cas l’ús és més reduït quan l’objectiu és la disseminació, és a dir, la creació de nous textos que no només reflecteixin el sentit de l’original, sinó que tinguin una qualitat acceptable i sense grans edicions per part d’un traductor humà (el que s’anomena postedició) es puguin publicar.

Gràcies al programa Google Summer of Code, que atorga beques a estudiants universitaris interessats en el desenvolupament de programari lliure, l’estiu de 2017 —mentre acabava els meus estudis en el Grau de traducció i d’interpretació de la UAB— vaig tenir l’oportunitat de treballar a temps complet durant tres mesos en el parell anglès–català d’Apertium. Tot i que aquest parell ja existia i es podia fer servir públicament des del lloc web d’Apertium, no s’havia actualitzat des de feia pràcticament deu anys. Aquesta desactualització i l’evolució natural de la plataforma (des dels inicis d’Apertium s’han anat creant nous components per facilitar les tasques més complexes) havien fet que fos un parell molt difícil de seguir desenvolupant i expandint de manera còmoda. Per tal de facilitar-ne el desenvolupament, es va crear un parell nou en proves reaprofitant part de les dades de l’anterior. El projecte realitzat durant l’estiu va consistir a eliminar errors, documentar i expandir precisament aquesta nova versió del parell, que havia quedat a mitges, per tal de reemplaçar l’antic.

El flux de treball d’Apertium, basat en regles, és complex i simple alhora: el text en la llengua de sortida entra al traductor i passa per una sèrie de petits programes o mòduls que l’alteren fins a obtenir el text traduït a la llengua d’arribada. Apertium en si és el conjunt de mòduls; cada parell de llengües està format per diferents fitxers de diccionaris i regles on s’estableix quins mòduls es faran servir i com s’hauran de comportar, però no s’altera el mòdul pròpiament dit. Aquesta separació entre la plataforma de traducció i les dades lingüístiques facilita molt el manteniment general, permet que el procés de traducció es pugui ampliar de forma molt senzilla i incentiva la creació de nous parells de llengües.

Flux de treball d’Apertium: text d’entrada, desformatador, etiquetador morfològic (analitzador i desambiguador), processador de multiparaules discontínues, transferència lèxica, selecció lèxica, transferència estructural (segmentació), generador morfològic, postgenerador, reformatador, text de sortida.

Al cor d’un parell de llengües trobem tres components indispensables: dos diccionaris monolingües (un per a cada llengua del parell) i un diccionari bilingüe, que defineix les equivalències entre unitats lèxiques i la relació que tenen (si una equivalència només és vàlida en una direcció, per exemple). Aquests diccionaris contenen la informació necessària perquè els mòduls d’anàlisi, traducció i generació d’Apertium sàpiguen identificar correctament cada paraula del text original i puguin generar un equivalent en la llengua d’arribada.

Evidentment, no hi ha dues llengües que siguin iguals gramaticalment, la qual cosa fa necessari l’ús del mòdul de transferència estructural. Aquest mòdul utilitza regles que agrupen unitats lèxiques i hi realitzen canvis estructurals, com ara canvis d’ordre. Per exemple, en anglès els adjectius sempre van davant del substantiu (blue house), però en català normalment van darrere (casa blava). A més, l’adjectiu ha de concordar en gènere i nombre (no pot ser cases blau). Gràcies a les regles de transferència estructural es poden establir patrons com aquest i indicar a la màquina quines transformacions s’hi han de fer.

A partir d’aquí, també hi ha altres mòduls complementaris per a operacions més específiques, com la selecció lèxica quan una sola paraula pot tenir més d’una traducció. Tornant a l’anglès, la paraula bat es pot traduir al català com a bat (de beisbol) o com a ratpenat. El mòdul de selecció lèxica permet definir regles de context (paraules anteriors i posteriors); si davant de bat trobem baseball o wooden, per exemple, es tractarà de l’objecte i no de l’animal, i podrem descartar ratpenat com a opció a l’hora de traduir.

Regla d’exemple (selecciona bat si davant hi ha baseball o wooden):

<rule>

   <or>

     <match lemma=”baseball” tags=”n.*”/>

     <match lemma=”wooden” tags=”adj”/>

   </or>

   <match lemma=”bat” tags=”n.*”>

     <select lemma=”bat” tags=”n.*”/>

   </match>

</rule>

Un altre mòdul molt interessant, creat precisament enguany també com a projecte de Google Summer of Code, és apertium-separable (processador de multiparaules discontínues), que facilita la traducció dels verbs separables. Apertium analitza per defecte el text original a partir del «patró més llarg», és a dir, que si es trobés en anglès el verb take off, mai no analitzaria take i off per separat si al diccionari existís take off com a conjunt. En una frase com she took her shoes off, però, Apertium no podria saber sense una regla de transferència excessivament complicada que el verb té dos elements perquè her shoes parteix el verb, i ho traduiria com va agafar les seves sabates fora. Aquest mòdul detecta que her shoes és una construcció que pot partir un verb i avisa a Apertium que off acompanya el verb i en forma part. D’aquesta manera, la traducció resultant (va treure les seves sabates), tot i que segueix sense ser correcta, és molt més adequada, tal com es pot comprovar en la versió d’Apertium instal·lada a Softcatala.org/traductor. En definitiva, les possibilitats són moltes i cada parell de llengües pot aprofitar tot allò que li resulti més útil.

Regla d’exemple (uneix take i off si estan separats per un sintagma nominal):

<e lm=”take off” c=”quitarse”>

<p><l>take<s n=”vblex”/></l><r>take<g><b/>off</g><s n=”vblex”/><s n=”sep”/></r></p><i><t/><j/></i>

<par n=”SN”/><p><l>off<t/><j/></l><r></r></p>

</e>

Les millores i correccions aplicades durant l’estiu al parell anglès–català van ser molt diverses; en línies generals, els diccionaris van créixer considerablement (de 35.000 a 66.000 entrades) i la cobertura lèxica sobre textos generals va passar del 86% al 92% (el traductor reconeix deu de cada dotze paraules del text original). Centrant-nos en canvis més concrets, es va millorar el funcionament del desambiguador morfològic, un mòdul estadístic que es fa servir al principi del procés de traducció i que tria la millor opció quan Apertium troba més d’una entrada al diccionari per a una mateixa paraula (per exemple, en català, porta pot ser un substantiu femení o la tercera persona singular del present d’indicatiu del verb portar). Tot i ser un mòdul principalment estadístic que s’ha d’entrenar amb un corpus lingüístic, se’n pot millorar el funcionament amb regles (en el cas anterior, si davant de porta hi ha l’article la, augmenten les possibilitats que sigui un substantiu i no un verb). Gràcies a aquesta millora, les regles de transferència estructural s’apliquen millor i hi ha menys errors greus de traducció.

Regla d’exemple (descarta el verb en cas d’ambigüitat si just davant té un determinant):

REMOVE V IF (-1 Det) (0 Nom) (0 Verb)

Altres canvis importants van ser la regulació del genitiu saxó (-’s), que no es podia afegir correctament a les paraules acabades en «s» quan es traduïa des del català perquè Apertium no coneixia la norma (cal dir politics’ i no politics’s), i la classificació dels noms propis en català (antropònims, topònims, noms d’empreses, etc.) en funció del seu gènere i nombre. Aquest darrer canvi soluciona errors de traducció com Barcelona és bonic (de l’original Barcelona is beautiful) que tenien l’origen en la manca de gènere d’aquests noms propis (en català, els topònims acabats en -a àtona se solen considerar femenins i en la majoria de casos els complements hi concorden).

Tot i no ser una tasca fàcil, vaig comptar amb l’incansable suport de tres mentors: Mikel L. Forcada (fundador d’Apertium i catedràtic a la Universitat d’Alacant), Xavi Ivars (col·laborador d’Apertium i membre de Softcatalà) i Adrià Martín (coordinador del Màster de Tradumàtica i mentor l’any 2016 d’un projecte de traductor automàtic amb Apertium entre el sard i l’italià). Sense ells hauria estat impossible aprendre en tan poc temps tot el funcionament intern d’un traductor automàtic i passar a formar part de la gran comunitat de col·laboradors que hi donen suport.

Apertium és, en definitiva, molt més que un traductor automàtic; és una comunitat de desenvolupadors apassionats amb un objectiu comú: fer accessible la traducció automàtica a tothom. És un punt de trobada entre programadors, lingüistes i gent d’arreu del món que estimen les llengües i entre tots s’ajuden i busquen fer realitat els seus somnis. Gràcies a la seva feina, Apertium creix en nombre de llengües (és el primer traductor automàtic per al sard, per exemple) i en funcionalitats (des de fa poc es poden traduir llocs web fàcilment). Per part meva, vaig considerar tan útil la meva experiència, que Softcatalà em va proposar que m’encarregués del manteniment del parell de llengües anglès-català i l’any següent (2018), acabat de graduar, em vaig encarregar de la creació del parell romanès-català. Apertium és una eina molt poderosa i mai no és massa tard per començar a fer-la servir com a traductor però, sobretot, mai no és massa tard per començar a formar-ne part.

Apertium: http://www.apertium.org


No hi ha comentaris

Ago 31 2016

Un traductor automàtic per a la llengua sarda

Posted in General |

Read in other languages

El projecte, nascut de la col·laboració entre els Països Catalans i Sardenya, ha rebut el finançament de Google

Apertium en sard

Apertium en sard

El primer traductor automàtic per a la llengua sarda ha nascut gràcies a la col·laboració entre el grup de recerca Tradumàtica (www.tradumatica.net), de la Universitat Autònoma de Barcelona, i Prompsit (www.prompsit.com), empresa alacantina que de fa temps gestiona la plataforma lliure de traducció Apertium. El desenvolupament del traductor ha estat finançat per Google, mitjançant el programa Google Summer of Code.

La plataforma, creada a la universitat d’Alacant l’any 2004 per a la combinació lingüística castellà-català, inclou al voltant de quaranta llengües, entre les quals el bretó, l’occità i el basc, i ara també la combinació italià-sard. Es tracta d’un traductor basat en regles, per la qual cosa és un instrument particularment adequat per a les llengües en fase d’estandardització.

Per a l’elaboració del traductor, s’han creat corpus i diccionaris prenent com a referència la Viquipèdia en llengua sarda i diversos diaris. El traductor es presenta amb 25.000 paraules, una cobertura de traducció al voltant del 90% i una taxa d’error per paraula del 10%.

En futures versions del traductor, es corregiran errades, es crearan noves regles i s’afegiran noves combinacions lingüístiques. La pàgina principal d’Apertium (traduïda en sard gràcies a la col·laboració del grup d’usuaris Sardware) inclou un enllaç perquè els usuaris puguin comunicar possibles errors i proposar nous projectes.

www.apertium.org


2 Comments

Mai 05 2015

El grup de recerca Tradumàtica, a la 13a Fira de la Recerca del CosmoCaixa: ressenya

El grup de recerca de Tradumàtica va participar en la 13a Fira de la Recerca del CosmoCaixa, a Barcelona, que va tenir lloc entre els dies 8 i 11 d’abril a la Sala Omega. Allà es va presentar el ProjecTA, un projecte que ha iniciat el mateix grup de recerca i que consisteix en la millora i en l’entrenament de sistemes de Traducció Automàtica (TA).

El grup Tradumàtica va compartir espai amb moltes altres universitats i grups de recerca d’arreu de Catalunya. A més, es van rebre centenars de visitants, molts d’ells estudiants de secundària interessants en la ciència i la tecnologia.

foto3

Hem parlat amb estudiants, professors i organitzadors i tots coincideixen que és una experiència molt positiva, molt útil per a conèixer la recerca a diferents àmbits i des de diferents universitats, i per mostrar que la recerca requereix més finançament no sols a Catalunya, sinó també a la resta de l’Estat espanyol.

Continue Reading »


No hi ha comentaris

Mar 07 2015

La qualitat dels traductors automàtics en català

Posted in General, Notícies |

Adrià Martín

Jordi Gavaldà, alumne del Màster en Correcció i Assessorament Lingüístic de la UAB, va defensar el 17.12.2014 el seu Treball de Fi de Màster titulat La qualitat lingüística dels traductors automàtics gratuïts en línia. Avaluació de la traducció dels aspectes contrastius castellà-català, en el qual analitza sis traductors automàtics i la qualitat de les traduccions que ofereixen entre castellà i català. Els traductors automàtics seleccionats són, per aquest ordre, Apertium, Lucy Kwik Translator, Google, Bing, N-II i SisHiTra, una selecció que respon a criteris metodològics (dos traductors basats en regles, dos d’estadístics i dos d’híbrids).

 

El treball resulta especialment interessant des del punt de vista de la identificació d’alguns errors que no semblen difícils de sistematitzar i d’incorporar en els motors esmentats (pensem per exemple a la creació de regles lingüístiques que incloguin l’article al davant dels noms propis de persona), i també pel fet que permet constatar com, en combinacions de llengües properes, els sistemes basats en regles poden obtenir resultats de més qualitat que els estadístics o híbrids (en l’estudi en concret, els de regles superen la resta de sistemes en quasi totes les categories).

 

El treball —tutoritzat per un expert en la matèria, Salvador Climent, i d’una qualitat excel·lent— ha estat ressenyat també per un dels professors del màster, David Paloma, a la seva columna al diari El Punt Avui.


No hi ha comentaris