PLIN19 Machine translation

Studijní materiály (slajdy)

Informace ke kurzu (jaro 2019)

 • Seminář: čtvrtek 10.50–12.25, G13,
 • docházka: nepovinná,
 • konzultace: B203 (FI, budova B, 2. patro), po domluvě téměř kdykoli,
 • email: xbaisa@fi.muni.cz,

Požadavky pro udělení zápočtu

 • Povinně jedna z následujících věcí:
  • ústní prezentace článku o strojovém překladu,
  • ústní prezentace SP systému,
  • rozšíření článku na české / anglické Wikipedii.
 • A zároveň jedna z následujících:
  • závěrečná písemka (60 minut), příklady otázek na konci semestru,
  • příprava tematického článku pro českou / anglickou Wikipedii.

Požadavky na ústní prezentaci

 • V češtině nebo angličtině,
 • 15 minut,
 • následuje krátká diskuze,
 • cca 10 slajdů (PDF),
 • slajdy nahrajete do odevzdávárny IS, nebo pošlete emailem.
 • Výcuc nejdůležitějších informací z článku,
 • o jazykovém zdroji.
 • Náměty viz níž.

Požadavky na článek na Wikipedii

 • rozšíření: 3000 znaků (cs), 1500 (en)
 • nový článek: 6000 znaků (cs), 3000 (en),
 • překlad: 10× víc.

Syllabus

 • Basic concepts and history of MT since 1940s,
 • an overview and basic classification of MT systems.
 • Rule-based methods:
  • from text to semantic representation,
  • specific tasks and problems of RBMT.
 • Statistical methods:
  • theory of probability, theory of information,
  • word-based methods,
  • phrase-based methods,
  • decoding algorithms,
  • language models.
 • Hybrid methods: combination of various methods.
 • Partial methods: computer-aided, human-aided methods, translational memories.
 • Automatic MT evaluation: concepts, overview of the most important methods.

New topics this year:

 • character-level language models,
 • continuous-space language models,
 • neural network machine translation,
 • terminology and computer-assisted translation workflow.

Presentations of a MT paper, a language resource

Or any paper from MT-archive.

Presentations of a MT system

 • Apertium
 • Google Translate
 • Bing Translator
 • Systran

Topics for Wikipedia

 • Babelfish,
 • Paralelní korpus (vícejazyčný korpus),
 • Georgetownský experiment,
 • metrika BLEU,
 • Systran,
 • Strojový překlad,
 • Vauquois triangle,
 • Rosetta (MT system),
 • Euromatrix (also in Czech), …

Osnova (postupně)

Vzorec pro podmíněnou pravděpodobnost je

$$p(A|B) = {p(A \cap B) \over p(B)}$$

tedy v případě, že A odpovídá tomu, že na kostce padne číslo 3 a B tomu, že padne liché číslo, čitatel odpovídá pravděpodobnosti, že padne zároveň číslo 3 a liché číslo. Číslo 3 padne s pravděpodobností 1/6; 3 je liché číslo, takže tato pravděpodobnost v sobě zahrnuje i událost A. Ve jmenovateli je pravděpodobnost, že padne liché číslo, což je 1/2. Dohromady tedy 1/3, což je dle očekávání: pokud na kostce padne liché číslo, už jsou jen 3 možnosti, tedy 1/3.

 • Generátor jazyka na úrovni bytů
 • jazykové modely
 • překladové modely IBM I–V
 • frázový překladový model
 • prezentace o Bing Translator
 • prezentace o SMT na úrovni morfémů (finština)
 • prezentace o přepisu mluvené řeči
 • automatické hodnocení strojového překladu
 • drobná témata z oblasti MT
December 26, 2019 |