PLIN19 Machine translation
Studijní materiály (slajdy)
- Introduction
- Rule-based MT
- Statistical MT
- Evaluation of MT (to be uploaded)
- Seznam projektů pro jarní semestr 2019
Informace ke kurzu (jaro 2019)
- Seminář: čtvrtek 10.50–12.25, G13,
- docházka: nepovinná,
- konzultace: B203 (FI, budova B, 2. patro), po domluvě téměř kdykoli,
- email: xbaisa@fi.muni.cz,
Požadavky pro udělení zápočtu
- Povinně jedna z následujících věcí:
- ústní prezentace článku o strojovém překladu,
- ústní prezentace SP systému,
- rozšíření článku na české / anglické Wikipedii.
- A zároveň jedna z následujících:
- závěrečná písemka (60 minut), příklady otázek na konci semestru,
- příprava tematického článku pro českou / anglickou Wikipedii.
Požadavky na ústní prezentaci
- V češtině nebo angličtině,
- 15 minut,
- následuje krátká diskuze,
- cca 10 slajdů (PDF),
- slajdy nahrajete do odevzdávárny IS, nebo pošlete emailem.
- Výcuc nejdůležitějších informací z článku,
- o jazykovém zdroji.
- Náměty viz níž.
Požadavky na článek na Wikipedii
- rozšíření: 3000 znaků (cs), 1500 (en)
- nový článek: 6000 znaků (cs), 3000 (en),
- překlad: 10× víc.
Syllabus
- Basic concepts and history of MT since 1940s,
- an overview and basic classification of MT systems.
- Rule-based methods:
- from text to semantic representation,
- specific tasks and problems of RBMT.
- Statistical methods:
- theory of probability, theory of information,
- word-based methods,
- phrase-based methods,
- decoding algorithms,
- language models.
- Hybrid methods: combination of various methods.
- Partial methods: computer-aided, human-aided methods, translational memories.
- Automatic MT evaluation: concepts, overview of the most important methods.
New topics this year:
- character-level language models,
- continuous-space language models,
- neural network machine translation,
- terminology and computer-assisted translation workflow.
Presentations of a MT paper, a language resource
- BLEU metric for MT evaluation
- Moses: open source MT system
- Statistical approach to MT
- Europarl: a parallel corpus for SMT
Or any paper from MT-archive.
Presentations of a MT system
- Apertium
- Google Translate
- Bing Translator
- Systran
Topics for Wikipedia
- Babelfish,
- Paralelní korpus (vícejazyčný korpus),
- Georgetownský experiment,
- metrika BLEU,
- Systran,
- Strojový překlad,
- Vauquois triangle,
- Rosetta (MT system),
- Euromatrix (also in Czech), …
Osnova (postupně)
- Úvodní hodina
- Vysvětlení požadavků na ukončení předmětu
- Úvod do strojového překladu
- Problémy překladu
- film Kód Navajo
- jazykový relativismus na anglické Wikipedii
- Klasifikace MT systémů
- Vauquoisův trojúhelník
- přehled MT systémů
- Apertium a wiki projektu
- Babelfish (Yahoo)
- CAT systém Caitra
- Cs-Sk překlad: Česílko
- wiki stránka o projektu EuroTra
- Google Translate
- OpenLogos na Wikipedii
- METEO
- open-source SMT system Moses
- a paper about Example-based MT system Pangloss
- článek o systému Rosetta
- commercial MT Systran
- commercial translation memories Trados
- volně dostupná překladová paměť MyMemory
- projekt Verbmobil
- elektronické zdroje, instituce, konference v oblasti MT
- Vývoj MT od 40./50. let 20. století
- Krátký snímek o strojovém překladu z roku 1954
- článek o Georgetownském experimentu
- Pravidlové systémy pro strojový překlad
- unitok.py
- Scriptio continua
- Morfessor
- Online disambiguace
- Morfologická analýza
- Morfologická disambiguace
- Brillův algoritmus
- Lexikální úroveň
- Word sense disambiguation
- Granularita významu
- Leskův algoritmus
- Reprezentace významu v počítači
- Kočka (cat) v anglickém WordNetu
- Distribuční tezaurus pro slovo //mother// ve Sketch Engine
- Syntaktická analýza
- Sémantická rovina jazyka
- FrameNet
- PDT
- TectoMT
- European Parallel Resources Comparison
- Corpus Pattern Analysis, Pattern Dictionary of English Verbs
- Statistical Machine Translation – úvod
- prezentace o paralelním korpusu Europarl (Libuše Moudrá)
- Quincunx
- InterCorp
- Kapradí
- Comparable corpora (články na toto téma)
- Zipfův zákon na wikipedii
- Shanonova hra online
Vzorec pro podmíněnou pravděpodobnost je
$$p(A|B) = {p(A \cap B) \over p(B)}$$
tedy v případě, že A odpovídá tomu, že na kostce padne číslo 3 a B tomu, že padne liché číslo, čitatel odpovídá pravděpodobnosti, že padne zároveň číslo 3 a liché číslo. Číslo 3 padne s pravděpodobností 1/6; 3 je liché číslo, takže tato pravděpodobnost v sobě zahrnuje i událost A. Ve jmenovateli je pravděpodobnost, že padne liché číslo, což je 1/2. Dohromady tedy 1/3, což je dle očekávání: pokud na kostce padne liché číslo, už jsou jen 3 možnosti, tedy 1/3.
- Generátor jazyka na úrovni bytů
- jazykové modely
- překladové modely IBM I–V
- frázový překladový model
- prezentace o Bing Translator
- prezentace o SMT na úrovni morfémů (finština)
- prezentace o přepisu mluvené řeči
- automatické hodnocení strojového překladu
- drobná témata z oblasti MT
published: 2019-12-26
last modified: 2023-11-20
https://vit.baisa.cz/notes/learn/plin019.cs/
last modified: 2023-11-20
https://vit.baisa.cz/notes/learn/plin019.cs/