Framsteg inom maskininlärning (ML) har lett till förbättringar av automatiserad översättning, inklusive GNMT-neurala översättningsmodell som introducerades i Translate 2016, som har möjliggjort stora förbättringar av översättningskvaliteten för över 100 språk. Ändå ligger toppmoderna system betydligt efter mänskliga prestationer i alla utom de mest specifika översättningsuppgifterna. Och medan forskarsamhället har utvecklat tekniker som är framgångsrika för högresursspråksom spanska och tyska, för vilka det finns stora mängder utbildningsdata, lämnar fortfarande prestanda på språk med låg resurs, som Yoruba eller Malayalam, mycket att önska. Många tekniker har visat betydande vinster för låga resursspråk i kontrollerade forskningsinställningar (t.ex. WMT-utvärderingskampanjen), men dessa resultat på mindre, offentligt tillgängliga datamängder kanske inte lätt övergår till stora, webbgenomsökta datamängder.
I det här inlägget delar vi några senaste framsteg som vi har gjort i översättningskvaliteten för språk som stöds, särskilt för de som har låg resurs, genom att syntetisera och utöka en rad senaste framsteg, och visa hur de kan användas i stor skala för bullriga, webbminerade data. Dessa tekniker spänner över förbättringar av modellarkitektur och utbildning, förbättrad behandling av brus i datamängder, ökad flerspråkig överföringsinlärning genom M4-modellering och användning av enspråkiga data. Kvalitetsförbättringarna, som i genomsnitt ger +5 BLEU-poäng över alla 100+ språk, visualiseras nedan.
![]() |
BLEU-poäng för Google Översätt-modeller sedan strax efter starten 2006. Förbättringarna sedan implementeringen av de nya teknikerna under det senaste året framhävs i slutet av animationen. |
Förskott för både hög- och resurssnål språk
Hybrid Model Architecture: För fyra år sedan vi introducerade RNN baserade GNMT modell, som gav förbättringar stora kvalitets- och möjligLate för att täcka många fler språk. Efter att vårt arbete kopplat bort olika aspekter av modellprestanda har vi bytt ut det ursprungliga GNMT-systemet, istället för att träna modeller med en transformatorkodare och en RNN-avkodare, implementerad i Lingvo (ett TensorFlow- ramverk). Transformatormodeller har visat sig vara generellt effektivare vid maskinöversättning än RNN-modeller men vårt arbete föreslog att de flesta av dessa kvalitetsvinster kom från transformatornkodare, och att transformatorn dekodern var inte signifikant bättre än RNN dekoder. Eftersom RNN-avkodaren är mycket snabbare vid inferens tid tillämpade vi en mängd olika optimeringar innan vi kopplade den till transformatorkodaren. De resulterande hybridmodellerna är av högre kvalitet, mer stabila i träningen och uppvisar lägre latens.
Web Crawl: Neural Machine Translation (NMT) modeller tränas med hjälp av exempel på översatta meningar och dokument, som vanligtvis samlas in från den offentliga webben. Jämfört med fraserbaserad maskinöversättning har NMT visat sig vara mer känslig för datakvalitet. Som sådant ersatte vi det tidigare datainsamlingssystemet med en ny databearbetare som fokuserar mer påprecision än återkallande, vilket möjliggör insamling av utbildningsdata av högre kvalitet från det offentliga nätet. Dessutom bytte vi webbsökaren från en ordboksbaserad modell till en inbäddningsbaserad modell för 14 stora språkpar, vilket ökade antalet meningar som samlats in med i genomsnitt 29 procent utan förlust av precision.
Modelleringsdata buller: Data med betydande buller är inte bara överflödiga utan sänker också kvaliteten på modeller som tränas på den. För att ta itu med dataljud använde vi våra resultat för att avlägsna NMT-träning för att tilldela ett poäng till varje träningsexempel med hjälp av preliminära modeller utbildade på bullriga data och finjusterade på ren data. Vi behandlar sedan träning som ett läroplan - Modellerna börjar träna på all data och tränar sedan gradvis i mindre och renare delmängder.
Framsteg som gynnade särskilt låga resursspråk
Back-översättning: Back-översättning är allmänt använd i toppmoderna maskinöversättningssystem och är särskilt användbart för språk med låga resurser, där parallella data är knappa. Denna teknik kompletterar parallella träningsdata (där varje mening på ett språk är parat med sin översättning) med syntetiskparallella data, där meningarna på ett språk är skrivna av en människa, men deras översättningar har genererats av en neural översättningsmodell. Genom att införliva tillbakaöversättning till Google Översätt kan vi använda de mer omfattande enspråkiga textdata för resurser med låga resurser på webben för att träna våra modeller. Detta är särskilt användbart för att öka flytningen av modellutdata, vilket är ett område där översättningsmodeller med låga resurser underpresterar.
M4-modellering: En teknik som har varit särskilt användbar för språk med låg resurs har varit M4, som använder en enda gigantisk modell för att översätta mellan alla språk och engelska. Detta möjliggör överföring av lärande i stor skala. Som ett exempel har ett språk med lägre resurser som jiddisch fördelen med att träna tillsammans med ett brett utbud av andra relaterade germanska språk (t.ex. tyska, nederländska, danska osv.), Liksom nästan hundra andra språk som kan delar inte en känd språklig koppling, men kan ge användbar signal till modellen.
Bedöma översättningskvalitet
Ett populärt mått för automatisk kvalitetsutvärdering av maskinöversättningssystem är BLEU-poängen, som baseras på likheten mellan ett systems översättning och referensöversättningar som genererades av människor. Med de senaste uppdateringarna ser vi en genomsnittlig BLEU-vinst på +5 poäng jämfört med de tidigare GNMT-modellerna, med de 50 lägsta resursspråken som ser en genomsnittlig vinst på +7 BLEU. Denna förbättring är jämförbar med den vinst som observerades för fyra år sedan vid övergång från frasbaserad översättning till NMT.
Även om BLEU-poäng är ett välkänt ungefärligt mått är det känt att det finns olika fallgropar för system som redan är av hög kvalitet. Till exempel har flera verk visat hur BLEU-poängen kan påverkas av översättningseffekter påkällsida eller målsida, ett fenomen där översatt text kan låta besvärlig och innehåller attribut (som ordordning) från källspråket. Av denna anledning utförde vi mänskliga sida vid sida utvärderingar på alla nya modeller, vilket bekräftade vinsterna i BLEU.
Förutom de allmänna kvalitetsförbättringarna visar de nya modellerna ökad robusthet mot maskinöversättningshallucinationer, ett fenomen där modeller producerar konstiga ”översättningar” när de får nonsensinspel. Detta är ett vanligt problem för modeller som har tränats i små mängder data och påverkar många språk med låg resurs. När till exempel strängen med telugu-tecken "ష ష ష ష ష ష ష ష ష ష ష ష ష ష" gav den gamla modellen den meningslösa utgången“Shenzhen Shenzhen Shaw International Airport (SSH)”, som till synes försöker förstå ljudet, medan den nya modellen lär sig korrekt att translitterera detta som “Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”.
Slutsats
Även om det här är imponerande framsteg för en maskin, måste man komma ihåg att, särskilt för språk med låg resurs, är automatisk översättningskvalitet långt ifrån perfekt. Dessa modeller blir fortfarande offer för typiska maskinöversättningsfel, inklusive dålig prestanda på specifika ämnesgenrer ("domäner"), som sammanför olika språk på ett språk, vilket ger alltför bokstavliga översättningar och dålig prestanda på informellt och talat språk.
Icke desto mindre är vi med den här uppdateringen stolta över att kunna tillhandahålla automatiska översättningar som är relativt sammanhängande, även för den lägsta resursen av de 108 språk som stöds. Vi är tacksamma för den forskning som har möjliggjort detta från det aktiva samhället av maskinöversättningsforskare i den akademiska världen och industrin.