ΚWords

Jazyk vstupního textu:

Vstupní text (který chcete analyzovat):

Vložte text

Nahrajte textové soubory / Multi-analýza

Soubor 1: popisek
Soubor 2: popisek
Soubor 3: popisek
Soubor 4: popisek
Soubor 5: popisek
Soubor 6: popisek
Soubor 7: popisek
Soubor 8: popisek
Soubor 9: popisek
Soubor 10: popisek
Soubor 11: popisek
Soubor 12: popisek
Soubor 13: popisek
Soubor 14: popisek
Soubor 15: popisek
Soubor 16: popisek
Soubor 17: popisek
Soubor 18: popisek
Soubor 19: popisek
Soubor 20: popisek
(Nahrát lze pouze textové soubory v kodování UTF-8 (Unicode).)

Referenční korpus (úzus, s nímž chcete text porovnávat):

Vyberte referenční korpus

Vložte referenční text

Nahrajte referenční textový soubor

Soubor:

(Nahrát lze pouze textové soubory v kodování UTF-8 (Unicode).)

Stop-list (slova, která mají být vyloučena z analýzy):

zájmena
předložky
spojky
čísla

Nastavení

Metoda:
Hladina významnosti (α):
Minimální frekvence
Procento vypsaných klíčových slov:

Velikost písmen:

ignorovat

Vítejte v KWords!

Je možné číst text z pohledu čtenáře z minulosti? Co bylo pro takového adresáta textu očekávané a co naopak překvapivé? Co se asi snažil autor zdůraznit v průběhu koncipování svého textu? Je vůbec možné zjistit, v čem se liší chápání stejného textu u různých adresátů? Lze nějakým způsobem změřit drobné a pozvolné společenské či kulturní změny, které se podepsaly na znění textu? Otázky podobné těmto bychom rádi zodpověděli s pomocí aplikace KWords. Tento nástroj je důležitou součástí společného projektu s názvem "A Needle in a Haystack", na němž se podílí Univerzita Karlova v Praze spolu s Brownovou Univerzitou v USA.

KWords slouží k identifikaci klíčových slov (tzv. keywords): to jsou slova (resp. slovní tvary), která jsou úzce spojena s hlavními tématy textu a s jeho žánrem. Klíčová slova tedy nejsou uživatelem předvybrána (jak by mohlo naznačovat jiné užití tohoto termínu např. ve vyhledávacích aplikacích), naopak, jsou to slova, která nástroj v textu odhaluje jako nejvíc prominentní. Tato aplikace umožňuje provádět corpus-driven výzkum slov, která jsou klíčová pro vyznění textu a následnou interpretaci, bez použití badatelovy intuice.

Výstupem KWords je seznam slov, jejichž frekvence je signifikantně vyšší v analyzovaném textu než v referenčním korpusu (např. v SYN2015, což je vyvážený referenční korpus současné psané češtiny). Pokud je rozdíl ve frekvencích (po zohlednění odlišné velikosti textu a referenčního korpusu) statisticky významný (např. na základě testů chi2 nebo log-likelihood), je následně vypočtena relevance rozdílu (tzv. effect size), podle níž jsou slova posuzována.

KWords nadto ukazují i vztahy mezi klíčovými slovy. Pomocí funkce Keyword Links je možné sledovat, jak se klíčová slova (a témata, jež reprezentují) v analyzovaném textu spojují. Zároveň lze sledovat souvýskyty klíčových slov v grafu jejich distribuce napříč textem. Aplikace také umožňuje manuálně zkoumat konkordanční řádky, v nichž se klíčová slova vyskytují, a sledovat tak, do jakých kolokací vstupují v blízkém kontextu.

Cílem našeho projektu je rozšířit možnosti použití této aplikace na ostatní jazyky a dále ji rozvíjet přidáváním nových užitečných funkcí, které můžou pomoci se snadnější interpretací textu. Budeme rádi, pokud aplikaci KWords využijete, a uvítáme jakékoli připomínky či podněty k jejímu dalšímu rozvíjení.

Masako Fidler, Brownova Univerzita, USA
masako_fidlerbrown.edu

Václav Cvrček, Univerzita Karlova v Praze, ČR
vaclav.cvrcekff.cuni.cz