1. 2. 2019

PLIN019 Projekty

Semestr jaro 2019

Pro předmět PLIN019.

Tvorba paralelního korpusu z vybraného zdroje

Úkolem je zpracování zdrojového dokumentu (webové stránky, dokumenty) do podoby překladové paměti TMX, kterou lze importovat do nástroje Sketch Engine a vytvořit paralelní korpus.

Kvalitativní srovnání word embeddings a distribučního tezauru

Cílem je srovnat konkrétní model podobnosti slov vytvořený metodou word2vec a thesaurus dostupný v nástroji Sketch Engine.

Relevantní informace viz bakalářská práce

Doplnění chybějících pojmů z knihy na Wikipedii

Student projde knihu nebo jiný vybraný zdroj a doplní z něj pojmy s krátkým popisem a odkazem na zdroj do anglické/české wikipedie.

Nový článek na Wikipedii

Cílem je najít téma, které není obsažené na české nebo anglické Wikipedii a vytvořit pro něj článek se stručným popisem, odkazy do literatury atd.

Vyhodnocení kvality strojového slovníku

Cílem je manuálně vyhodnotit několik různých statistických slovníků, které byly automaticky vytvořeny z paralelních korpusů. Jednak je možné srovnat více jazykových párů nebo jeden jazykový pár, ale u slovníků vytvořených z různých paralelních korpusů. Hodnotit se bude přesnost i odhad pokrytí.

Analýza klíčových slov v článcích o MT za posledních 10 let

Cílem je analyzovat trendy a témata ve veřejně dostupných článcích z oblasti MT (například z arxiv.org).

Rešerše nástrojů na automatické zarovnání textů

Při vytváření paralelních korpusů se používá tzv. sentence alignment, kdy se text a jeho překlad segmentuje na věty a ty se pak automaticky napojí na sebe. Existuje celá řada automatických nástrojů, ale pouze několik s uživatelským rozhraním a možností ruční korekce zarovnání. Cílem je najít co nejvíce těchto nástrojů a srovnat / popsat je.

Experiment s granularitou paralelního korpusu a z něj vygenerovaného statistického slovníku

Cílem je vyzkoušet vygenerovat statistický slovník z paralelních dat a ten srovnat se slovníkem, který byl vygenerovaný ze stejných dat ale zarovnaných na menších jednotkách. Ručně by se zarovnané věty rozdělily na zarovnané fráze / jednoduché věty a sledovalo by se vylepšení kvality slovníku. Velikost trénovacích dat by samozřejmě byla malá.

Klasifikace chyb MT a konkrétní příklady

Úkolem je opatřit klasifikaci chyb (ze slajdů) konkrétními příklady. Ideálně získané z literatury nebo přímo online překladače, nebo alespoň vymyšlené (ale přirozené a věrohodné).