Facebook AI introducerar M2M-100, den första flerspråkiga maskinöversättningsmodellen (MMT) som kan översättas mellan vilket par som helst på 100 språk utan att förlita sig på engelska data. Det är öppet här.
När vi översätter, säg kinesiska till franska, tränar de flesta engelskspråkiga flerspråkiga modeller på kinesiska till engelska och engelska till franska, eftersom engelska träningsdata är den mest tillgängliga. Vår modell tränar direkt på kinesisk till fransk data för att bättre bevara betydelsen. Det överträffar engelska-centrerade system med 10 poäng på det allmänt använda BLEU-måttet för utvärdering av maskinöversättningar.
M2M-100 är utbildad på totalt 2200 språkanvisningar - eller 10 gånger mer än tidigare bästa, engelskspråkiga flerspråkiga modeller. Implementering av M2M-100 kommer att förbättra kvaliteten på översättningar för miljarder människor, särskilt de som talar låga resursspråk.
Denna milstolpe är en kulmination av åratal av Facebook AI: s grundläggande arbete inom maskinöversättning. Idag delar vi detaljer om hur vi byggde en mer mångsidig MMT-träningsdatamängd och modell för 100 språk. Vi släpper också modellen, utbildningen och utvärderingen för att hjälpa andra forskare att reproducera och vidareutveckla flerspråkiga modeller.
Att bryta språkbarriärer genom maskinöversättning (MT) är ett av de viktigaste sätten att sammanföra människor, tillhandahålla auktoritär information om COVID-19 och skydda dem från skadligt innehåll. Idag driver vi i genomsnitt 20 miljarder översättningar varje dag på Facebook News Feed, tack vare vår senaste utveckling inom maskinöversättning med låga resurser och de senaste framstegen för utvärdering av översättningskvaliteten.
Vanliga MT-system kräver att man skapar separata AI-modeller för varje språk och varje uppgift, men detta tillvägagångssätt kan inte effektiviseras på Facebook, där människor publicerar innehåll på mer än 160 språk över miljarder inlägg. Avancerade flerspråkiga system kan bearbeta flera språk samtidigt, men kompromissa med noggrannheten genom att förlita sig på engelska data för att överbrygga klyftan mellan källspråket och målspråken. Vi behöver en MMT-modell (flerspråkig maskinöversättning) som kan översätta vilket språk som helst för att bättre kunna tjäna vårt samhälle, varav nästan två tredjedelar använder ett annat språk än engelska.
I en kulmination av många års MT-forskning på Facebook är vi glada att tillkännage en viktig milstolpe: den första massiva MMT-modellen som direkt kan översätta 100 × 100 språk i vilken riktning som helst utan att bara förlita sig på engelska-centrerad data. Vår enda flerspråkiga modell fungerar såväl som traditionella tvåspråkiga modeller och uppnådde en förbättring av 10 BLEU-poäng jämfört med engelskspråkiga flerspråkiga modeller. Med hjälp av nya gruvstrategier för att skapa översättningsdata byggde vi den första riktigt "många-till-många" -datamängden med 7,5 miljarder meningar för 100 språk. Vi använde flera skalningstekniker för att bygga en universell modell med 15 miljarder parametrar, som fångar information från relaterade språk och återspeglar ett mer varierat manus av språk och morfologi. Vi öppnar upp detta arbete här.
Ett av de största hindren för att bygga en många-till-många MMT-modeller är att samla stora volymer av kvalitetsmeningspar (även kända som parallella meningar) för godtyckliga översättningsanvisningar som inte omfattar engelska. Det är mycket lättare att hitta översättningar för kinesiska till engelska och engelska till franska än, säg franska till kinesiska. Dessutom ökar den datamängd som krävs för träning kvadratiskt med antalet språk som vi stöder. Om vi till exempel behöver 10M meningspar för varje riktning, måste vi bryta 1B meningspar för 10 språk och 100B meningspar för 100 språk.
Vi tog på oss den här ambitiösa utmaningen att bygga den mest mångsidiga MMT-datauppsättningen hittills: 7,5 miljarder par på 100 språk. Detta var möjligt genom att kombinera kompletterande data mining-resurser som har legat i flera år, inklusive ccAligned, ccMatrix och LASER. Som en del av detta försök skapade vi en ny LASER 2.0 och förbättrad snabbidentifiering av språk, vilket förbättrar gruvkvaliteten och inkluderar utbildning och utvärderingsskript med öppen källkod. Alla våra datautvinningsresurser utnyttjar offentligt tillgänglig data och är öppna.
Facebook AI: s nya många-till-många flerspråkiga modeller är en kulmination av flera års banbrytande arbete inom MT över banbrytande modeller, resurser för datagrupp och optimeringstekniker. Denna tidslinje belyser några anmärkningsvärda prestationer. Dessutom skapade vi vår enorma utbildningsuppsättning genom att bryta ccNET, som bygger på fastText, vårt banbrytande arbete med att bearbeta ordföreställningar; vårt LASER-bibliotek för CCMatrix, som bäddar in meningar i ett flerspråkigt inbäddningsutrymme; och CCAligned, vår metod för att anpassa dokument baserat på URL-matchningar. Som en del av detta arbete skapade vi LASER 2.0, vilket förbättrar jämfört med tidigare resultat.
Ändå, även med avancerad underliggande teknik som LASER 2.0, är brytning av storskalig träningsdata för godtyckliga par på 100 olika språk (eller 4450 möjliga språkpar) mycket beräkningsintensivt. För att göra denna typ av gruvdrift mer hanterbar fokuserade vi först på språk med flest översättningsförfrågningar. Följaktligen prioriterade vi gruvanvisningar med högsta kvalitetsdata och största datamängd. Vi undviker anvisningar för vilka översättningsbehov är statistiskt sällsynta, som isländsk-nepalesiska eller singalesiska-javanesiska.
Därefter introducerade vi en ny brobrytningsstrategi, där vi grupperar språk i 14 språkgrupper baserat på språklig klassificering, geografi och kulturella likheter. Människor som bor i länder med språk i samma familj tenderar att kommunicera oftare och skulle kunna dra nytta av högkvalitativa översättningar. Till exempel skulle en grupp inkludera språk som talas i Indien, som bengaliska, hindi, marathi, nepalesiska, tamilska och urdu. Vi bryter systematiskt alla möjliga språkpar inom varje grupp.
För att ansluta olika gruppers språk identifierade vi ett litet antal brospråk, som vanligtvis är ett till tre huvudspråk i varje grupp. I exemplet ovan skulle hindi, bengali och tamil vara brospråk för indo-ariska språk. Vi bryter sedan ut parallella träningsdata för alla möjliga kombinationer av dessa brospråk. Med denna teknik slutade vår träningsdatauppsättning med 7,5 miljarder parallella meningar med data, vilket motsvarar 2200 riktningar. Eftersom de utvunna uppgifterna kan användas för att träna två riktningar av ett visst språkpar (t.ex. en-> fr och fr-> en), hjälper vår gruvstrategi oss att effektivt sparsamt gräva för att bäst täcka alla 100 × 100 (totalt 9 900 ) riktningar i en modell.
För att komplettera de parallella uppgifterna för låga resursspråk med låg översättningskvalitet använde vi den populära metoden för backöversättning, vilket hjälpte oss att vinna första plats vid WMT International Machine Translation-tävlingen 2018 och 2019. Om vårt mål är att utbilda en kinesisk-fransk översättningsmodell, till exempel, skulle vi först träna en modell för franska till kinesiska och översätta all den enspråkiga franska informationen för att skapa syntetiska, tillbaka-översatta kinesiska. Vi har upptäckt att denna metod är särskilt effektiv i stor skala när vi översätter hundratals miljonerav enspråkiga meningar i parallella datamängder. I vår forskningsinställning använde vi tillbakaöversättning för att komplettera utbildningen av riktningar som vi redan hade brytt, genom att lägga till syntetiska tillbakaöversatta data till de utvunna parallella uppgifterna. Och vi använde bakre översättning för att skapa data för tidigare utan tillsyn.
Sammantaget förbättrade kombinationen av vår brostrategi och back-översatta data prestanda på de 100 tillbaka-översatta vägbeskrivningarna med 1,7 BLEU i genomsnitt jämfört med utbildning på minadata enbart. Med en mer robust, effektiv och högkvalitativ träningssats var vi väl utrustade med en stark grund för att bygga och skala vår många-till-många-modell.
Vi hittade också imponerande resultat på zero-shot-inställningar, där det inte finns några träningsdata tillgängliga för ett par språk. Till exempel, om en modell är utbildad på franska-engelska och tyska-svenska, kan vi noll-shot översätta mellan franska och svenska. I inställningar där vår många-till-många-modell måste nollställa översättningen mellan icke-engelska riktningar, var det väsentligt bättre än engelskspråkiga flerspråkiga modeller.
En utmaning i flerspråkig översättning är att en enskild modell måste fånga information på många olika språk och olika skript. För att ta itu med detta såg vi en tydlig fördel med att skala kapaciteten i vår modell och lägga till språkspecifika parametrar. Att skala modellstorleken är till hjälp särskilt för högparesspråkpar eftersom de har mest data för att träna den ytterligare modellkapaciteten. I slutändan såg vi en genomsnittlig förbättring på 1,2 BLEU i genomsnitt över alla språkriktningar när vi skalade modellstorleken tätt till 12 miljarder parametrar, varefter avkastningen minskade från tät skalning ytterligare. Kombinationen av tät skalning och språkspecifika glesa parametrar (3,2 miljarder) gjorde det möjligt för oss att skapa en ännu bättre modell med 15 miljarder parametrar.
Vi jämför vår modell med tvåspråkiga baslinjer och engelska-centrerade flerspråkiga modeller. Vi börjar med en baslinje på 1,2 miljarder parametrar med 24 kodarskikt och 24 avkodarlager och jämför engelska-centrerade modeller med vår M2M-100-modell. Därefter, om vi jämför 12B-parametrar med 1,2 miljarder parametrar, får vi 1,2 BLEU-förbättringspunkter.
För att öka vår modellstorlek ökade vi antalet lager i våra Transformer-nätverk samt bredden på varje lager. Vi fann att stora modeller konvergerar snabbt och tränar med hög dataeffektivitet. Speciellt är detta många-till-många-system det första som utnyttjar Fairscale, det nya PyTorch-biblioteket speciellt utformat för att stödja parallellisering av pipeline och tensor. Vi byggde denna allmänna infrastruktur för att rymma storskaliga modeller som inte passar på en enda GPU genom modellparallellism i Fairscale. Vi byggde ovanpå noll Optimizer, intra-layer modell parallellism, och pipeline modell parallellism att utbilda storskaliga modeller.
Men det räcker inte att helt enkelt skala modellerna till miljarder parametrar. För att kunna producera denna modell i framtiden måste vi skala modeller så effektivt som möjligt med höghastighetsträning. Till exempel använder mycket befintligt arbete multimodellensembling, där flera modeller tränas och tillämpas på samma källsats för att producera en översättning. För att minska komplexiteten och beräkningen som krävs för att utbilda flera modeller undersökte vi självkomponering av flera källor, som översätter en källsats på flera språk för att förbättra översättningskvaliteten. Vi bygger också på vårt arbete med LayerDrop och Depth-Adaptive, att gemensamt träna en modell med en gemensam bagageutrymme och olika uppsättningar av språkspecifika parametrar. Detta tillvägagångssätt är utmärkt för många till många modeller eftersom det erbjuder ett naturligt sätt att dela delar av en modell efter språkpar eller språkfamiljer. Genom att kombinera tät skalning av modellkapacitet med språkspecifika parametrar (totalt 3B) ger vi fördelarna med stora modeller samt möjligheten att lära sig specialiserade lager för olika språk.
I flera år har AI-forskare arbetat för att bygga en enda universell modell som kan förstå alla språk i olika uppgifter. En enda modell som stöder alla språk, dialekter och metoder hjälper oss att betjäna fler människor bättre, hålla översättningarna uppdaterade och skapa nya upplevelser för miljarder människor lika. Detta arbete för oss närmare detta mål.
Som en del av detta försök har vi sett otroligt snabba framsteg i förutbildade språkmodeller, finjustering och självövervakningstekniker. Denna kollektiva forskning kan ytterligare främja hur vårt system förstår text för språk med låg resurs med omärkta data. Till exempel, XLM-R är vår kraftfulla flerspråkiga modell som kan lära av data i ett språk och sedan utföra en uppgift i 100 språk med state-of-the-art noggrannhet. mBART är en av de första metoderna för att förutbilda en komplett modell för BART-uppgifter på många språk. Och senast använder vår nya självövervakade strategi, CRISS, omärkta data från många olika språk för att bryta parallella meningar över språk och träna nya, bättre flerspråkiga modeller på ett iterativt sätt.
Vi fortsätter att förbättra vår modell genom att införliva sådan banbrytande forskning, utforska sätt att distribuera MT-system på ett ansvarsfullt sätt och skapa de mer specialiserade beräkningsarkitekturer som är nödvändiga för att få detta till produktion.