PLIN19 Machine translation

Studijní materiály (slajdy)

Informace ke kurzu (jaro 2019)

  • Seminář: čtvrtek 10.50–12.25, G13,
  • docházka: nepovinná,
  • konzultace: B203 (FI, budova B, 2. patro), po domluvě téměř kdykoli,
  • email: xbaisa@fi.muni.cz,

Požadavky pro udělení zápočtu

  • Povinně jedna z následujících věcí:
    • ústní prezentace článku o strojovém překladu,
    • ústní prezentace SP systému,
    • rozšíření článku na české / anglické Wikipedii.
  • A zároveň jedna z následujících:
    • závěrečná písemka (60 minut), příklady otázek na konci semestru,
    • příprava tematického článku pro českou / anglickou Wikipedii.

Požadavky na ústní prezentaci

  • V češtině nebo angličtině,
  • 15 minut,
  • následuje krátká diskuze,
  • cca 10 slajdů (PDF),
  • slajdy nahrajete do odevzdávárny IS, nebo pošlete emailem.
  • Výcuc nejdůležitějších informací z článku,
  • o jazykovém zdroji.
  • Náměty viz níž.

Požadavky na článek na Wikipedii

  • rozšíření: 3000 znaků (cs), 1500 (en)
  • nový článek: 6000 znaků (cs), 3000 (en),
  • překlad: 10× víc.

Syllabus

  • Basic concepts and history of MT since 1940s,
  • an overview and basic classification of MT systems.
  • Rule-based methods:
    • from text to semantic representation,
    • specific tasks and problems of RBMT.
  • Statistical methods:
    • theory of probability, theory of information,
    • word-based methods,
    • phrase-based methods,
    • decoding algorithms,
    • language models.
  • Hybrid methods: combination of various methods.
  • Partial methods: computer-aided, human-aided methods, translational memories.
  • Automatic MT evaluation: concepts, overview of the most important methods.

New topics this year:

  • character-level language models,
  • continuous-space language models,
  • neural network machine translation,
  • terminology and computer-assisted translation workflow.

Presentations of a MT paper, a language resource

Or any paper from MT-archive.

Presentations of a MT system

  • Apertium
  • Google Translate
  • Bing Translator
  • Systran

Topics for Wikipedia

  • Babelfish,
  • Paralelní korpus (vícejazyčný korpus),
  • Georgetownský experiment,
  • metrika BLEU,
  • Systran,
  • Strojový překlad,
  • Vauquois triangle,
  • Rosetta (MT system),
  • Euromatrix (also in Czech), …

Osnova (postupně)

Vzorec pro podmíněnou pravděpodobnost je

$$p(A|B) = {p(A \cap B) \over p(B)}$$

tedy v případě, že A odpovídá tomu, že na kostce padne číslo 3 a B tomu, že padne liché číslo, čitatel odpovídá pravděpodobnosti, že padne zároveň číslo 3 a liché číslo. Číslo 3 padne s pravděpodobností 1/6; 3 je liché číslo, takže tato pravděpodobnost v sobě zahrnuje i událost A. Ve jmenovateli je pravděpodobnost, že padne liché číslo, což je 1/2. Dohromady tedy 1/3, což je dle očekávání: pokud na kostce padne liché číslo, už jsou jen 3 možnosti, tedy 1/3.

  • Generátor jazyka na úrovni bytů
  • jazykové modely
  • překladové modely IBM I–V
  • frázový překladový model
  • prezentace o Bing Translator
  • prezentace o SMT na úrovni morfémů (finština)
  • prezentace o přepisu mluvené řeči
  • automatické hodnocení strojového překladu
  • drobná témata z oblasti MT
December 26, 2019 |