Google säger att det har gjorts framsteg mot att förbättra översättningskvaliteten för språk som inte har mycket skriftlig text. I ett kommande blogginlägg beskriver företaget nya innovationer som har förbättrat användarupplevelsen på de 108 språken (särskilt på datafattiga språk Yoruba och Malayalam) som stöds av Google Translate, dess tjänst som översätter i genomsnitt 150 miljarder ord dagligen.
Under de 13 åren som sedan Google Translate offentliggjordes har tekniker som neuronal maskinöversättning, omskrivningsbaserade paradigmer och bearbetning på enheten lett till kvantifierbara språng i plattformens översättningsnoggrannhet. Men fram till nyligen låg även toppmoderna algoritmer som ligger till grund för Translate efter mänskliga prestationer. Ansträngningar bortom Google illustrerar storleken på problemet - Masakhane-projektet, som syftar till att göra tusentals språk på den afrikanska kontinenten automatiskt översättbara, har ännu inte gått längre än datainsamlings- och transkriptionsfasen. Och Common Voice, Mozillas försök att bygga en öppen källkodssamling av transkriberad taldata, har bara kontrollerat 40 språk sedan lanseringen i juni 2017.
Google säger att dess genombrott för översättningar inte drivs av en enda teknik utan snarare en kombination av tekniker som riktar sig till lågresursspråk, högresursspråk, allmän kvalitet, latens och övergripande inferenshastighet. Mellan maj 2019 och maj 2020, mätt med mänskliga utvärderingar och BLEU, ett mått baserat på likheten mellan ett systems översättning och mänskliga referensöversättningar, förbättrade Translate i genomsnitt 5 eller fler poäng på alla språk och 7 eller mer över de 50 lägsta -resursspråk. Dessutom säger Google att Translate har blivit mer robust för maskinöversättningshallucinationer, ett fenomen där AI-modeller producerar konstiga "översättningar" när de får nonsensinput (som "Shenzhen Shenzhen Shaw International Airport (SSH)" för telugu-tecknen"
Den första av dessa tekniker är en översättningsmodellarkitektur - en hybridarkitektur bestående av en Transformer-kodare och en återkommande neuralnätverk (RNN) -avkodare implementerad i Lingvo , ett TensorFlow-ramverk för sekvensmodellering.
Vid maskinöversättning kodar kodare vanligtvis ord och fraser som interna representationer som avkodaren sedan använder för att generera text på ett önskat språk. Transformatorbaserade modeller, som Google-anslutna forskare först föreslog 2017, är bevisligen mer effektiva på detta än RNN, men Google säger att dess arbete tyder på att de flesta kvalitetsvinsterna kommer från endast en komponent i Transformer: kodaren. Det beror kanske på att medan både RNN och Transformers är utformade för att hantera ordnade sekvenser av data, behöver Transformers inte att sekvensen behandlas i ordning. Med andra ord, om uppgifterna i fråga är naturligt språk behöver inte transformatorn bearbeta början av en mening innan den bearbetar slutet.
Ändå förblir RNN-avkodaren "mycket snabbare" vid inferenstiden än avkodaren i transformatorn. Medvetna om detta använde Google Translate-teamet optimeringar på RNN-avkodaren innan de kopplades till Transformer-kodaren för att skapa hybridmodeller med låg latens, högre kvalitet och stabilare än de fyra år gamla RNN-baserade neurala maskinöversättningsmodellerna som de byta ut.
Ovan: BLEU-poängen för Google Translate-modeller sedan strax efter starten 2006.
Utöver den nya hybridmodellarkitekturen uppgraderade Google den årtionden gamla sökroboten som den använde för att sammanställa utbildningskorpor från miljontals exempelöversättningar i saker som artiklar, böcker, dokument och webbsökresultat. Den nya gruvarbetaren - som är inbäddningsbaserad för 14 stora språkpar i motsats till ordboksbaserad, vilket innebär att den använder vektorer med verkliga siffror för att representera ord och fraser - fokuserar mer på precision (andelen relevant data bland de hämtade uppgifterna) än återkallelse (bråkdelen av den totala mängden relevant data som faktiskt hämtades). I produktionen säger Google att detta ökade antalet meningar som gruvarbetaren extraherade med i genomsnitt 29%.
En annan förstärkning av översättningsprestanda kom från en modelleringsmetod som bättre behandlar buller i träningsdata. Som en följd av observationen att bullriga data (data med en stor mängd information som inte kan förstås eller tolkas korrekt) skadar översättningen av språk som det finns rikligt med data i, använde Google Translate-teamet ett system som tilldelar poäng till exempel med hjälp av utbildade modeller på bullriga data och inställda på "rena" data. Effektivt börjar modellerna träna på all data och träna sedan gradvis på mindre och renare delmängder, ett tillvägagångssätt som i AI-forskarsamhället kallas läroplaner.
På resurssnål språk sidan av ekvationen, Google genomfört en back-översättningssystemet i Trans som förstärker parallella träningsdata, där varje mening på ett språk paras med sin översättning. (Maskinöversättning är traditionellt beroende av statistik över korpor av parade meningar i både en källa och ett målspråk.) I detta schema anpassas träningsdata automatiskt till syntetiska parallella data, så att måltexten är ett naturligt språk men källan genereras av en neural översättningsmodell. Resultatet är att Translate utnyttjar de mer omfattande enspråkiga textdata för träningsmodeller, vilket Google säger är särskilt användbart för att öka flyt.
Ovan: Google Maps med Translate.
Translate använder nu också M4-modellering, där en enda gigantisk modell - M4 - översätts till många språk och engelska. (M4 föreslogs först i en uppsats förra året som visade att den förbättrade översättningskvaliteten för över 30 språk med låg resurs efter träning på mer än 25 miljarder meningspar från över 100 språk.) M4-modellering möjliggjorde överföringsinlärning i Translate, så att insikter hämtades genom utbildning på högresursspråk inklusive franska, tyska och spanska (som har miljarder parallella exempel) kan tillämpas på översättning av lågresursspråk som Yoruba, Sindhi och Hawaiian (som bara har tiotusentals exempel).
Translate har förbättrats med minst 1 BLEU-poäng per år sedan 2010, enligt Google, men automatisk maskinöversättning är inte alls ett löst problem. Google medger att även de förbättrade modellerna blir offer för fel, inklusive sammanslagning av olika språk på ett språk, vilket ger alltför bokstavliga översättningar och dålig prestanda på vissa genrer av ämnen och informellt eller talat språk.
Teknikjätten försöker ta itu med detta på olika sätt, bland annat genom sin Google Translate Community, ett spelprogram som rekryterar volontärer för att förbättra prestandan för språk med låga resurser genom att översätta ord och fraser eller kontrollera om översättningarna är korrekta. Bara i februari programmet tillsammans med ny teknik maskininlärning, ledde till tillägg i Trans fem språk som talas av en kombinerad 75 miljoner människor: Kinjarwanda, Odia (Oriya), tatariska, turkmenska och Uyghur (uiguriska).
Google är inte ensam i sin strävan efter en verkligt universell översättare. I augusti 2018 avslöjade Facebook en AI-modell som använder en kombination av ord-för-ord-översättningar, språkmodeller och baköversättningar för att överträffa system för språkparningar. Mer nyligen presenterade MIT Computer Science and Artificial Intelligence Laboratory forskare en oövervakad modell - dvs. en modell som lär sig av testdata som inte har märkts eller kategoriserats uttryckligen - som kan översättas mellan texter på två språk utan direkt översättningsdata mellan de två.
I ett uttalande sa Google diplomatiskt att det är "tacksamt" för maskinöversättningsforskningen inom "akademi och industri", varav några informerade om sitt eget arbete. "Vi uppnådde [Google Translate senaste förbättringar] genom att syntetisera och utvidga en rad senaste framsteg", säger företaget. "Med den här uppdateringen är vi stolta över att tillhandahålla automatiska översättningar som är relativt sammanhängande, även för den lägsta resursen av de 108 språk som stöds."