Text Processing Kokořín

Počítačové zpracování přirozeného jazyka

Kokořín, léto 2018

O mně

Motivace

Osnova

Získávání dat

Web, web, web

Významné zdroje textů

Bigger is better

Reprezentace, příprava a zpracování dat

Plaintext

Kódování textu

Malá a velká písmena (case)

Tokenizace

Tokenizace může být těžká

Vertikální formát

Analýza dat

Wordlisty (seznamy slov)

Zipfův zákon (dobré vědět)

rank * frekvence = konstanta

V angličtině tvoří první položka 7 % textu. Která?

Velikost a složitost jazyků

Segmentace vět, odstavců

N-gramy

N-gramy, příklad angličtina

řádslovníksingleton%
unigram86 70033 44738.6 %
bigram1 948 9351 132 84458.1 %
trigram8 092 7986 022 28674.4 %
4-gram15 303 84713 081 62185.5 %
5-gram19 882 17518 324 57792.2 %

Morfologická analýza, disambiguace, lemmatizace

Příklad

slovoanalýzydisambiguace
Pravidelnék2eAgMnPc4d1, k2eAgInPc1d1, k2eAgInPc4d1, k2eAgInPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPc1d1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, … (+ 5)k2eAgNnSc1d1
krmeník2eAgMnPc1d1, k2eAgMnPc5d1, k1gNnSc1, k1gNnSc4, k1gNnSc5, k1gNnSc6, k1gNnSc3, k1gNnSc2, k1gNnPc2, k1gNnPc1, k1gNnPc4, k1gNnPc5k1gNnSc1
jek5eAaImIp3nS, k3p3gMnPc4, k3p3gInPc4, k3p3gNnSc4, k3p3gNnPc4, k3p3gFnPc4, k0k5eAaImIp3nS
prok7c4k7c4
správnýk2eAgMnSc1d1, k2eAgMnSc5d1, k2eAgInSc1d1, k2eAgInSc4d1, k2eAgInSc5d1, … (+ 18)k2eAgInSc4d1
růstk5eAaImF, k1gInSc1, k1gInSc4k1gInSc4
důležiték2eAgMnPc4d1, k2eAgInPc1d1, k2eAgInPc4d1, k2eAgInPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPc1d1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, … (+ 5)k2eAgNnSc1d1

Klíčová slova, terminologie

Kolokace a souvýskyty

$$logDice(x, y) = log (2\times fxy / (fx + fy))$$

Sémantika

Korpusová lingvistika

Jazykové modely

Jazykové modely

Jazykové modely II

Neuronové sítě a jazykové modely

Další témata v NLP

Ještě další témata v NLP

Pracoviště v ČR

Další zdroje

Shrnutí

published: 2018-07-27
last modified: 2023-11-20

https://vit.baisa.cz/notes/learn/kokorin/