Před časem jsem se zmínil o plánu Evropské unie na masové nasazení strojových překladů. Unie má ráda čísla a ještě raději jimi naši budoucnost vymezuje. Podle jejích záměrů mají strojové překlady textů do roku 2015 dosáhnout 80 %. K prosazení tohoto cíle už podnikají příslušné orgány kroky, jak dále uvidíme.

Nejprve se podívejme na problémy s nasazením strojového překladu. Ten nutně musí být autonomní, protože kontrolovat jej znamená snižovat jeho výkonovou efektivitu někam k překladu manuálnímu. Možná bude zavedena statistická přejímka, kdy se náhodně vyberou publikace, v nich stránky a věty, které se prověří.

Když si uvážíme, s jakou erudicí je navržen korektor třeba pro Word, můžeme se jen tiše děsit. Malá ukázka automatických náhrad: debílek – kebílek, kontruji – lotruji, Google – Gogole, Sarkozy – Sarkomy, glosička – plosička, dvougigový – dvoubitový.

Malý debil, debílek, konvertoval na nesmyslné slovo kebílek, stejně tak malá glosa, glosička, se změnila v neskutečný výplod plosička. Jak může někdo navrhnout automatickou náhradu ne zcela běžného termínu neexistujícími slovy? U běžného slova kontrovat dokonce nepřekonatelným neologismem lotrovat! Neznalost termínu dvougigový je až neuvěřitelná.

Záměr Unie zvýšit procento strojových překladů je cestou na silně šikmou plochu. Koncem loňského roku příslušné unijní orgány rozhodly, že patenty budou v budoucnu pouze v jediném jazyku. Uvažuje se o angličtině, francouzštině či němčině, takže jedině spor dotčených zemí o volbu jazyka může nástup strojového překladu oddálit.

Udává se, že dnes je procento úspěšnosti překladu u běžných textů 90 % a u odborných 80 %. Podle mého jde o silně nadsazený údaj zlobbovaný výrobci programů pro automatizovaný překlad. Odhaduji poměr obrácený, tedy ve prospěch odborných textů. Vycházím mj. z větší úspěšnosti automatického přepisu mluveného hlasu u odborných textů. Je tam specifická a rigidní slovní zásoba i frazeologie. Oko v lékařské zprávě zajisté není dírou na punčoše, pytláckou pomůckou, zakončením lana, karetní hrou, ledovcovým jezerem, ani tukovou skvrnou na hladině horké polévky. A to nemluvím o možnosti okem hodit (přitom ho nepozbýt) či ho u někoho mít (a současně si ho ponechat).

Pokrok však zastavit nelze. Rozhodne jakýsi plebiscit realizovaný každodenní praxí. Už nějakou dobu jsou na trhu malé překladače, objevují se také v mobilech, a to bude ten pravý nástup masového strojového překladu. Když si lid obecný, odkojený dennodenním používáním strojové nabídky, umane nazývat něco nějak, boj bude marný. Budeme to mít v krvi.

Například už dnes se za správné bere překlad anglického control jako kontrolovat, ačkoli to znamená řídit (proces).

Lidé nepřemýšlejí. Pokud sáhnou po slovníku, berou mechanicky první nabízené slovo jako správné, zapomínají na existenci synonym a homonym, nevyužívají ani poslední zbytky toho, co se díky tradičnímu postupu výuky kdysi mechanicky naučili. A tak můžete například na wikipedii narazit na následující texty, které někteří uživatelé automaticky pokládají za české:

Dobytek jsou zvířata, která jsou savci a patří k rodu Bos. Dobytek slova je v množném čísle, znamenat “některý dobytek” nebo “mnoho dobytku”. Není tam žádný způsob, jak říkat “jeden dobytek”, kromě říkat “krávu” nebo “býka” nebo “vůl”.

Muž je nazýván býkem. Žena je nazývána krávou. Dítě je nazýváno teletem. Dva nebo více dětí je telata. Mladá žena, která neměla tele je nazývána jalovicí, (vyslovoval “heffer”). Kastrovaný muž je nazýván volem nebo volem. Vůl je obvyklé slovo pro hovězí dobytek. Vůl je obvyklé slovo pro pracovní dobytek. Krávy způsobí zrod k jednomu teleti rok. Telata mají dlouhé silné nohy a mohou jít nemnoho minut po oni jsou narozeni, tak oni mohou následovat stádo.

Situace nebude dobrá, protože není ani dnes, kdy se unijní směrnice překládají ještě manuálně (i když řada z nich je přeložena strojově). Když se ve směrnici o hodnocení vína objeví jako jedna ze závad, že víno obsahuje ethanol, budou se nejen znalci jistě divit. Když se pak ukáže, že v originále bylo ethanal (který i Word pilně zamění za ethanol), což je acetaldehyd neboli těkavky, ale překladatel to neví, je osud vína zpečetěn.

Jak to bude vypadat, až takoví nepříliš kvalitní překladatelé naplní databáze pro strojový překlad, se nemusíme ani příliš dohadovat. Na závěr opět kousek strojového překladu o dobytku, jímž záhy po nástupu strojového překladu budeme:

Dobytek je velmi užitečná zvířata. Jejich maso může být jedeno jako maso. Jejich mléko může být opilé a obrácené do sýra a jogurtu. Jejich kůže může být používána jako kůže. Oni mohou táhnout dvojkolové kočáry a pluhy. Oni mohou udělat sílu otáčecím obilným mlýnům nebo vodě pumpy. Jídlo, které oni jedí není drahé. 

12. 3. 2011

Autor:

Sdílejte

Přečtěte si také

 

Technika s lidskou povahou

O prázdninách převážím notebook mezi domovem a návštěvami s dětmi u babiček a dědů. Pokaždé, když jej pak zapojuji...

 

Furt něco mažu

Používám dvě e-mailové adresy. Jednu soukromou, jednu pracovní, vlastně firemní. Na soukromou mi chodí hromady...

 

5 zajímavých pivních webů

O prázdninách, v parném létě, přijde dobré pivečko vhod. Měl jsem štěstí i na nová piva jako Rampušák, a chtěl jsem...

Nejčtenější články

Víme, kde v říjnu došlo ke zrychlení DSL připojení!

 

CETIN v posledních měsících intenzivně zrychluje DSL připojení. Přinášíme vám seznam 30 obcí, kde se v říjnu...

Proč se na pořádný fotbal nepodíváte ani na ČT?

 

Britskou Premier League, Sky Bet Championship a španělskou ligu mohou čeští diváci sledovat pouze na Nové Digi TV a...

Naměřené rychlosti internetu na DSL.cz v říjnu 2016

 

Rychlost mobilního LTE internetu byla v říjnu nejvyšší u operátora O2. V síti 3G je nejrychlejší T-Mobile. Co se...