Projektledare för språkbranschen är alltför bekanta med detta scenario: En klient vill översätta ett dokument i ett oredigerbart filformat. Men innan någonting måste premiärministern lägga dokumentet genom en runda för optisk teckenigenkänning (OCR) bara för att bestämma ordräkningen. Uppgiften kan kompliceras ytterligare om dokumentet är handskrivet eller innehåller text på ett okänt språk (eller båda - för verklig huvudvärk).
Många företag har hittat vägar kring problemet med OCR. För små företag kan Adobe Acrobat få jobbet gjort; men när ett företag växer kan det utforska andra alternativ, till exempel OpenText-serien av Capture- motorer. ABBYY FineReader Engine erbjuder också en serie erkännandeprodukter, inklusive OCR-teknik som annonseras för att arbeta på upp till 200 språk.
Google har å sin sida sponsrat vidareutveckling av OCR-motorn Tesseract med öppen källkod , som ursprungligen utvecklades av Hewlett-Packard på 1980-talet. Den Google Cloud Platform ger också en handledning på att utföra OCR med hjälp av en samling av fakturerbara Cloud produkter. Amazon är emellertid stolt över Textracts förmåga att extrahera data från tabeller och diagram samtidigt som originalformateringen bibehålls.
Varje nykomling på OCR-scenen visar sina algoritmer och teknik som det slutgiltiga svaret på OCR-utmaningen. Språk tjänsteleverantör Tarjama , baserat i Dubai, Förenade Arabemiraten, har byggt egen OCR tech baserad på neurala nätverk.
Singapores start Staple specialiserar sig på dokument där layout är viktig, såsom fakturor, skatteformulär och kontoutdrag; användare kan mata in dokument på 100 språk via WeChat , Google Drive och Dropbox.
Sid Newby, skapare och CTO för Cullable (och ägare av domänen ocrsucks.com), anammar OCR: s dåliga rykte. Han grundade Cullable 2015 baserat på mångårig erfarenhet av affärstvister med eDiscovery (dvs. siktning genom tusentals sidor med dokument för eventuell relevant information). Advokater kan sakna en nål med kritiska bevis i en höstack med osökbar text, vilket kan vara katastrofalt för deras fall.
Newby tror att AI bakom Cullables system gör det överlägset konkurrenternas erbjudanden. "Varje sida vi bearbetar blir i huvudsak lite bättre", berättade Newby för Slator. När det gäller att fylla i och känna igen delord i texten sa han: ”Vi försöker förstå tankar. Då förbättrar AI den kunskapsbasen med nya datamängder som kommer in. ”
Tillgängligt för konsumenter sedan 2019 är Cullables kunder övervägande USA-baserade, med några i Storbritannien och Sydafrika. "Flera översättningsföretag har kommit till oss med projekt tidigare", sa Newby. "De skickar oss vad de har problem med: dålig bildkvalitet, sneda bilder, delvis redigerade ord, handskrift."
Förutom Cullables kärna-OCR-tjänst är maskinöversättning (MT) integrerad i applikationen. "Riktigt bra OCR-maskinöversättning sjunger och dansar", sa Newby. "Vi använder Google Translate API eftersom det är inbyggt i vår stack i Google." Naturligtvis skulle en språktjänsteleverantör med sin egen MT-motor använda det istället.
Framöver ser OCR fortfarande ut att dra nytta av forskning. Ett papper från september 2020 beskriver hur två forskare i Argentina skapade en dataset med kommenterade bilder från japansk manga. Målet: aktivera OCR i manga på pixelnivå.
Befintliga antecknade datauppsättningar på pixelnivå, skrev författarna, består vanligtvis av verkliga bilder som saknar talballonger. Det mesta av texten är vanligtvis på engelska och är sällan handritade i konstnärliga stilar, som i manga. Även om den här specifika datasetet utformades kring manga, kunde principerna bakom det tillämpas på OCR för japanska texter i andra domäner.
I en ny litteraturöversikt , som publicerades i juli 2020, anges begränsningarna för OCR-forskning hittills. För det första handlar de flesta forskning om de mest talade språken på planeten, delvis för att datamängder ofta inte är tillgängliga för språk med färre högtalare. Det kan också vara svårt för system att känna igen tecken som är handskrivna av många olika människor, var och en med sin egen distinkta handskrift.
Intresset fortsätter att växa i OCR för "text in the wild" - det vill säga tecken på skärmen och text i olika inställningar - vilket så småningom kan vara relevant för översättare som hanterar text i strömmande media. Men det kan bero på de potentiella intäkterna som står på spel.
Författarna drog slutsatsen att kommersialiseringen av forskningen måste förbättras för att hjälpa till att bygga "billiga, verkliga system för OCR som kan förvandla massor av ovärderlig information till sökbar / digital data."