Cleaneval

CLEANEVAL + BTE

11. 5. 2008

CLEANEVAL

CLEANEVAL – hodnocení

FIASCO Filtering the Internet by Automatic Subtree Classification

FIASCO – preprocessing

FIASCO – target nodes

FIASCO – znaky 1

FIASCO – znaky 2

FIASCO – znaky 3

FIASCO - trénování

FIASCO – závěr, resumé

StupidOS A high-precision approach to boilerplate removal

StupidOS – fáze

StupidOS - fáze

StupidOS – resumé

GenieKnows Web Page cleaning system

GenieKnows – výpočet důležitosti

GenieKnows – vztahy bloků

GenieKnows – čištění, resumé

HTMLCleaner

HTMLCleaner

HTMLCleaner – určení rel. textu

HTMLCleaner – závěr, resumé

Web Corpus Cleaning using Content and Structure

WCC – baseline

WCC – heuristika

WCC – heur. algoritmus

for each L in lines
  if character lenght L > 3
    split L into words
    if number of words in L > 10 & average character length of words in L > 3
      if possible_title is set & line counter < 3
        add possible_title as header
        unset line counter, possible_title
      endif
      add L as paragraph
    else
      set possible_title to L
      reset line counter
    endif

WCC – rozhodovací stromy

WCC – jazykové modely

WCC – genetické algoritmy

WCC - resumé

Web Page Cleaning with Conditional Random Fields

WPC – MARKUP znaky 1

WPC – MARKUP znaky 2

WPC – CONTENT znaky 1

WPC – CONTENT znaky 2

WPC – CONTENT znaky 3

WPC – CONTENT znaky 4

WPC – DOCUMENT znaky

WPC – resumé

Kimatu a tool for cleaning non-content text parts from HTML docs

Kimatu – kroky výpočtu 1

Kimatu – závěr, resumé

BTE – body text extraction

BTE – body text extraction

published: 2008-05-27
last modified: 2023-01-21

https://vit.baisa.cz/notes/informatics/project-cleaneval/