PLIN019 Projekty
Pro předmět PLIN019.
Tvorba paralelního korpusu z vybraného zdroje
Úkolem je zpracování zdrojového dokumentu (webové stránky, dokumenty) do podoby překladové paměti TMX, kterou lze importovat do nástroje Sketch Engine a vytvořit paralelní korpus.
- Tvorba paralelního korpusu z PDF dokumentů ‒ návodů k výrobkům z webu lidl-shop.cz
- Minimálně 40 dokumentů v češtině, angličtině a španělštině.
Kvalitativní srovnání word embeddings a distribučního tezauru
Cílem je srovnat konkrétní model podobnosti slov vytvořený metodou word2vec a thesaurus dostupný v nástroji Sketch Engine.
Relevantní informace viz bakalářská práce
Doplnění chybějících pojmů z knihy na Wikipedii
Student projde knihu nebo jiný vybraný zdroj a doplní z něj pojmy s krátkým popisem a odkazem na zdroj do anglické/české wikipedie.
- Statistical Machine Translation od Philippa Koehna
Nový článek na Wikipedii
Cílem je najít téma, které není obsažené na české nebo anglické Wikipedii a vytvořit pro něj článek se stručným popisem, odkazy do literatury atd.
Vyhodnocení kvality strojového slovníku
Cílem je manuálně vyhodnotit několik různých statistických slovníků, které byly automaticky vytvořeny z paralelních korpusů. Jednak je možné srovnat více jazykových párů nebo jeden jazykový pár, ale u slovníků vytvořených z různých paralelních korpusů. Hodnotit se bude přesnost i odhad pokrytí.
Analýza klíčových slov v článcích o MT za posledních 10 let
Cílem je analyzovat trendy a témata ve veřejně dostupných článcích z oblasti MT (například z arxiv.org).
Rešerše nástrojů na automatické zarovnání textů
Při vytváření paralelních korpusů se používá tzv. sentence alignment, kdy se text a jeho překlad segmentuje na věty a ty se pak automaticky napojí na sebe. Existuje celá řada automatických nástrojů, ale pouze několik s uživatelským rozhraním a možností ruční korekce zarovnání. Cílem je najít co nejvíce těchto nástrojů a srovnat / popsat je.
Experiment s granularitou paralelního korpusu a z něj vygenerovaného statistického slovníku
Cílem je vyzkoušet vygenerovat statistický slovník z paralelních dat a ten srovnat se slovníkem, který byl vygenerovaný ze stejných dat ale zarovnaných na menších jednotkách. Ručně by se zarovnané věty rozdělily na zarovnané fráze / jednoduché věty a sledovalo by se vylepšení kvality slovníku. Velikost trénovacích dat by samozřejmě byla malá.
Klasifikace chyb MT a konkrétní příklady
Úkolem je opatřit klasifikaci chyb (ze slajdů) konkrétními příklady. Ideálně získané z literatury nebo přímo online překladače, nebo alespoň vymyšlené (ale přirozené a věrohodné).
- Adam Obrusník, HyPal
- Rešerše klasifikace chyb v literatuře
- Sepsat do dokumentu: k hierarchii doplnit příklady a odkazy do zdrojů
- Přidat na anglickou/českou Wikipedii do sekce Chyby strojového překladu / vytvořit samostatnou stránku
last modified: 2023-11-20
https://vit.baisa.cz/notes/learn/plin019-projekty.cs/