1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Krok 2: Identifikace zdrojů textu

V tomto krátkém cvičení načteš a prozkoumáš malý korpus recenzí pronájmů nemovitostí z Bostonu. Funkci read.csv(), která slouží k načítání souborů ve formátu CSV, už nejspíš znáš. Může to vypadat jako formalita, ale cílem této kapitoly je projít celým pracovním postupem od začátku do konce – takže začneme načtením dat!

Pak jednoduše použij str() k prozkoumání struktury datového rámce. Jde o praktickou funkci, která kompaktně zobrazí úvodní hodnoty a typy vektorů.

Nakonec použij dim() k zobrazení dimenzí datového rámce. V případě datového rámce ti konzole vypíše počet řádků a počet sloupců.

Pro průzkum dat se často hodí i funkce jako head(), tail() nebo summary() – tady ale průzkum zkrátíme, aby ses co nejdřív dostal/a k samotné analýze sentimentu!

Pokyny

100 XP

Recenze bostonských pronájmů jsou uloženy v CSV souboru, jehož umístění udává předdefinovaná proměnná bos_reviews_file.

  • Načti recenze z bos_reviews_file pomocí read.csv(). Objekt pojmenuj bos_reviews.
  • Prozkoumej strukturu datového rámce pomocí základní funkce str() aplikované na bos_reviews.
  • Zjisti, s kolika recenzemi pracuješ, zavoláním dim() na bos_reviews.