Načtení textu

Text mining začíná načtením textových dat do R – k tomu použijeme funkci read.csv().

Dobrým zvykem je prozkoumat načtený objekt a zjistit, které sloupce jsou důležité. Funkce str() to umožňuje přehledně a rychle.

Pokud datový rámec obsahuje sloupce, které nejsou textové, může být vhodné vytvořit nový objekt obsahující pouze správný textový sloupec (např. some_object$column_name).

Měj na paměti, že pracuješ s reálnými daty z Twitteru – existuje proto riziko, že mohou obsahovat vulgární nebo jinak nevhodný obsah (v tomto i v dalších cvičeních pracujících s reálnými twitterovými daty).

Toto cvičení je součástí kurzu

Dolování textu metodou Bag-of-Words v R

Zobrazit kurz

Pokyny k cvičení

Data jsou již načtena a dostupná v proměnné coffee_data_file.

Vytvoř nový objekt tweets pomocí funkce read.csv() ze souboru coffee_data_file, který obsahuje tweety zmiňující kávu.
Prozkoumej objekt tweets pomocí funkce str() a zjisti, který sloupec obsahuje text, který chceš analyzovat.
Vytvoř nový objekt coffee_tweets obsahující pouze textový sloupec, který jsi identifikoval/a. Použij k tomu operátor $ a název sloupce.

Interaktivní cvičení na vyzkoušení si v praxi

Vyzkoušejte si toto cvičení dokončením tohoto ukázkového kódu.

# Import text data from CSV, no factors
tweets <- ___

# View the structure of tweets
___

# Isolate text from tweets
coffee_tweets <- ___

Upravit a spustit kód