AplikaceAplikace
Nastavení

Jazyk vstupního textu:
Vstupní text (který chcete analyzovat):

Vložte text


Nahrajte textové soubory / Multi-analýza

popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
popisek
(Nahrát lze pouze textové soubory v kodování UTF-8 (Unicode).)
Referenční korpus (úzus, s nímž chcete text porovnávat):

Vyberte referenční korpus

Vložte referenční text


Nahrajte referenční textový soubor


(Nahrát lze pouze textové soubory v kodování UTF-8 (Unicode).)

Stop-list (slova, která mají být vyloučena z analýzy): zájmena
předložky
spojky
čísla
Nastavení
Metoda:
Hladina významnosti (α):
Minimální frekvence
Procento vypsaných klíčových slov:
Velikost písmen: ignorovat
 

Vítejte v KWords!

Je možné číst text z pohledu čtenáře z minulosti? Co bylo pro takového adresáta textu očekávané a co naopak překvapivé? Co se asi snažil autor zdůraznit v průběhu koncipování svého textu? Je vůbec možné zjistit, v čem se liší chápání stejného textu u různých adresátů? Lze nějakým způsobem změřit drobné a pozvolné společenské či kulturní změny, které se podepsaly na znění textu? Otázky podobné těmto bychom rádi zodpověděli s pomocí aplikace KWords. Tento nástroj je důležitou součástí společného projektu s názvem "A Needle in a Haystack", na němž se podílí Univerzita Karlova v Praze spolu s Brownovou Univerzitou v USA.

KWords slouží k identifikaci klíčových slov (tzv. keywords): to jsou slova (resp. slovní tvary), která jsou úzce spojena s hlavními tématy textu a s jeho žánrem. Klíčová slova tedy nejsou uživatelem předvybrána (jak by mohlo naznačovat jiné užití tohoto termínu např. ve vyhledávacích aplikacích), naopak, jsou to slova, která nástroj v textu odhaluje jako nejvíc prominentní. Tato aplikace umožňuje provádět corpus-driven výzkum slov, která jsou klíčová pro vyznění textu a následnou interpretaci, bez použití badatelovy intuice.

Výstupem KWords je seznam slov, jejichž frekvence je signifikantně vyšší v analyzovaném textu než v referenčním korpusu (např. v SYN2015, což je vyvážený referenční korpus současné psané češtiny). Pokud je rozdíl ve frekvencích (po zohlednění odlišné velikosti textu a referenčního korpusu) statisticky významný (např. na základě testů chi2 nebo log-likelihood), je následně vypočtena relevance rozdílu (tzv. effect size), podle níž jsou slova posuzována.

KWords nadto ukazují i vztahy mezi klíčovými slovy. Pomocí funkce Keyword Links je možné sledovat, jak se klíčová slova (a témata, jež reprezentují) v analyzovaném textu spojují. Zároveň lze sledovat souvýskyty klíčových slov v grafu jejich distribuce napříč textem. Aplikace také umožňuje manuálně zkoumat konkordanční řádky, v nichž se klíčová slova vyskytují, a sledovat tak, do jakých kolokací vstupují v blízkém kontextu.

Cílem našeho projektu je rozšířit možnosti použití této aplikace na ostatní jazyky a dále ji rozvíjet přidáváním nových užitečných funkcí, které můžou pomoci se snadnější interpretací textu. Budeme rádi, pokud aplikaci KWords využijete, a uvítáme jakékoli připomínky či podněty k jejímu dalšímu rozvíjení.

Masako Fidler, Brownova Univerzita, USA
masako_fidler@brown.edu

Václav Cvrček, Univerzita Karlova v Praze, ČR
vaclav.cvrcek@ff.cuni.cz

Nahrávám...

Analyzuji text...