Tato aplikace obsahuje cca 1 milion slov. Slova pochází z korpusů 2000, 2005 a 2010 které bývaly dostupné ke stažení na stránkách Filosofické fakulty Univerzity Karlovy. Dají se najít ještě tady: STAŽENÍ
Tam lze také dohledat detaily ohledně jejich vzniku a hlavně využít krásné nástroje na práci se slovy.
Zjednodušeně řečeno se jedná o seznam unikátních slov (každé je v DB pouze jednou),
které vznikly tak, že někdo vzal literární díla ze tří hlavních oblastí
(beletrie, odborná literatura a publicistika) a všechna slova v nich obsažená zařadil do databáze.
Rozděleno po letech jsou to korpusy 2000 (díla z let 1990-1999), 2005 (2000-2005) a 2010 (2005-2010).
Každý z korpusů obsahoval cca 100 miliónů slov.
Z toho byl vyroben seznam jedinečných slov a počítána jejich četnost.
Ze seznamu byla vyřazena slova s četností menší než 10.
Já jsem seznamy stáhnul ze stránek FF UK, sloučil do jedné DB a překládám zde s možností fulltextově v nich vyhledávat.