27. 7. 2018

Text Processing Kokořín

Materiály k workshopu pro datové žurnalisty.

Počítačové zpracování přirozeného jazyka

Kokořín, léto 2018

O mně

Motivace

Osnova

Získávání dat

Web, web, web

Významné zdroje textů

Bigger is better

Reprezentace, příprava a zpracování dat

Plaintext

Kódování textu

Malá a velká písmena (case)

Tokenizace

Tokenizace může být těžká

Vertikální formát

Analýza dat

Wordlisty (seznamy slov)

Zipfův zákon (dobré vědět)

rank * frekvence = konstanta

V angličtině tvoří první položka 7 % textu. Která?

Velikost a složitost jazyků

Segmentace vět, odstavců

N-gramy

N-gramy, příklad angličtina

řád slovník singleton %
unigram 86 700 33 447 38.6 %
bigram 1 948 935 1 132 844 58.1 %
trigram 8 092 798 6 022 286 74.4 %
4-gram 15 303 847 13 081 621 85.5 %
5-gram 19 882 175 18 324 577 92.2 %

Morfologická analýza, disambiguace, lemmatizace

Příklad

slovo analýzy disambiguace
Pravidelné k2eAgMnPc4d1, k2eAgInPc1d1, k2eAgInPc4d1, k2eAgInPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPc1d1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, … (+ 5) k2eAgNnSc1d1
krmení k2eAgMnPc1d1, k2eAgMnPc5d1, k1gNnSc1, k1gNnSc4, k1gNnSc5, k1gNnSc6, k1gNnSc3, k1gNnSc2, k1gNnPc2, k1gNnPc1, k1gNnPc4, k1gNnPc5 k1gNnSc1
je k5eAaImIp3nS, k3p3gMnPc4, k3p3gInPc4, k3p3gNnSc4, k3p3gNnPc4, k3p3gFnPc4, k0 k5eAaImIp3nS
pro k7c4 k7c4
správný k2eAgMnSc1d1, k2eAgMnSc5d1, k2eAgInSc1d1, k2eAgInSc4d1, k2eAgInSc5d1, … (+ 18) k2eAgInSc4d1
růst k5eAaImF, k1gInSc1, k1gInSc4 k1gInSc4
důležité k2eAgMnPc4d1, k2eAgInPc1d1, k2eAgInPc4d1, k2eAgInPc5d1, k2eAgFnSc2d1, k2eAgFnSc3d1, k2eAgFnSc6d1, k2eAgFnPc1d1, k2eAgFnPc4d1, k2eAgFnPc5d1, k2eAgNnSc1d1, k2eAgNnSc4d1, k2eAgNnSc5d1, … (+ 5) k2eAgNnSc1d1

Klíčová slova, terminologie

Kolokace a souvýskyty

$$logDice(x, y) = log (2\times fxy / (fx + fy))$$

Sémantika

Korpusová lingvistika

Jazykové modely

Jazykové modely

Jazykové modely II

Neuronové sítě a jazykové modely

Další témata v NLP

Ještě další témata v NLP

Pracoviště v ČR

Další zdroje

Shrnutí