1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Dolování textu metodou Bag-of-Words v R

Connected

Cvičení

Načtení textu

Text mining začíná načtením textových dat do R – k tomu použijeme funkci read.csv().

Dobrým zvykem je prozkoumat načtený objekt a zjistit, které sloupce jsou důležité. Funkce str() to umožňuje přehledně a rychle.

Pokud datový rámec obsahuje sloupce, které nejsou textové, může být vhodné vytvořit nový objekt obsahující pouze správný textový sloupec (např. some_object$column_name).

Měj na paměti, že pracuješ s reálnými daty z Twitteru – existuje proto riziko, že mohou obsahovat vulgární nebo jinak nevhodný obsah (v tomto i v dalších cvičeních pracujících s reálnými twitterovými daty).

Pokyny

100 XP

Data jsou již načtena a dostupná v proměnné coffee_data_file.

  • Vytvoř nový objekt tweets pomocí funkce read.csv() ze souboru coffee_data_file, který obsahuje tweety zmiňující kávu.
  • Prozkoumej objekt tweets pomocí funkce str() a zjisti, který sloupec obsahuje text, který chceš analyzovat.
  • Vytvoř nový objekt coffee_tweets obsahující pouze textový sloupec, který jsi identifikoval/a. Použij k tomu operátor $ a název sloupce.