Vítejte v KWords!
Je možné číst text z pohledu čtenáře z minulosti? Co bylo pro takového adresáta textu očekávané a co naopak překvapivé? Co se asi snažil autor zdůraznit v průběhu koncipování svého textu? Je vůbec možné zjistit, v čem se liší chápání stejného textu u různých adresátů? Lze nějakým způsobem změřit drobné a pozvolné společenské či kulturní změny, které se podepsaly na znění textu? Otázky podobné těmto bychom rádi zodpověděli s pomocí aplikace KWords. Tento nástroj je důležitou součástí společného projektu s názvem "A Needle in a Haystack", na němž se podílí Univerzita Karlova v Praze spolu s Brownovou Univerzitou v USA.
KWords slouží k identifikaci klíčových slov (tzv. keywords): to jsou slova (resp. slovní tvary), která jsou úzce spojena s hlavními tématy textu a s jeho žánrem. Klíčová slova tedy nejsou uživatelem předvybrána (jak by mohlo naznačovat jiné užití tohoto termínu např. ve vyhledávacích aplikacích), naopak, jsou to slova, která nástroj v textu odhaluje jako nejvíc prominentní. Tato aplikace umožňuje provádět corpus-driven výzkum slov, která jsou klíčová pro vyznění textu a následnou interpretaci, bez použití badatelovy intuice.
Výstupem KWords je seznam slov, jejichž frekvence je signifikantně vyšší v analyzovaném textu než v referenčním korpusu (např. v SYN2015, což je vyvážený referenční korpus současné psané češtiny). Pokud je rozdíl ve frekvencích (po zohlednění odlišné velikosti textu a referenčního korpusu) statisticky významný (např. na základě testů chi2 nebo log-likelihood), je následně vypočtena relevance rozdílu (tzv. effect size), podle níž jsou slova posuzována.
KWords nadto ukazují i vztahy mezi klíčovými slovy. Pomocí funkce Keyword Links je možné sledovat, jak se klíčová slova (a témata, jež reprezentují) v analyzovaném textu spojují. Zároveň lze sledovat souvýskyty klíčových slov v grafu jejich distribuce napříč textem. Aplikace také umožňuje manuálně zkoumat konkordanční řádky, v nichž se klíčová slova vyskytují, a sledovat tak, do jakých kolokací vstupují v blízkém kontextu.
Cílem našeho projektu je rozšířit možnosti použití této aplikace na ostatní jazyky a dále ji rozvíjet přidáváním nových užitečných funkcí, které můžou pomoci se snadnější interpretací textu. Budeme rádi, pokud aplikaci KWords využijete, a uvítáme jakékoli připomínky či podněty k jejímu dalšímu rozvíjení.
Masako Fidler, Brownova Univerzita, USA
masako_fidlerbrown.edu
Václav Cvrček, Univerzita Karlova v Praze, ČR
vaclav.cvrcekff.cuni.cz
Analyzuji text...