IniziaInizia gratis

Crea un Tidy Text Tibble!

Ora che conosci i principi tidy, questo codice ti aiuta a organizzare i dati in un tibble per poter lavorare comodamente nel tidyverse!

In precedenza hai visto che applicare tidy() a un oggetto TermDocumentMatrix() converte la TDM in un tibble. In questo esercizio creerai i dati delle parole direttamente dalla colonna delle recensioni chiamata comments.

Per iniziare, usa unnest_tokens() per trasformare il testo in minuscolo e tokenizzare le recensioni in singole parole.

A volte è utile catturare l'ordine originale delle parole all'interno di ciascun gruppo di un corpus. Per farlo, usa mutate(). In mutate() userai seq_along() per creare una sequenza di numeri da 1 alla lunghezza dell'oggetto. Questo ti permetterà di conservare l'ordine in cui le parole sono state scritte.

Nel pacchetto tm useresti removeWords() per rimuovere le stopwords. Nel tidyverse devi prima caricare il lessico delle stop words e poi applicare un anti_join() tra il data frame tidy del testo e le stopwords.

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza il corso

Istruzioni dell'esercizio

  • Crea tidy_reviews concatenando (%>%) l'oggetto originale delle recensioni bos_reviews alla funzione unnest_tokens(). Passa il nome della nuova colonna, word, e indica la colonna comments. Ricorda che nel tidyverse non servono $ né virgolette.
  • Crea una nuova variabile in stile tidy! Sovrascrivi tidy_reviews concatenando tidy_reviews a group_by con la colonna id. Poi %>% di nuovo a mutate(). All'interno di mutate crea una nuova variabile original_word_order uguale a seq_along(word).
  • Stampa il tibble, tidy_reviews.
  • Carica le stopwords predefinite "SMART" nella tua sessione R con data("stop_words").
  • Sovrascrivi tidy_reviews passando l'tidy_reviews originale a anti_join() con un %>%. All'interno di anti_join() passa il lessico predefinito stop_words.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Vector to tibble
tidy_reviews <- bos_reviews %>% 
  ___(___, ___)

# Group by and mutate
tidy_reviews <- tidy_reviews %>% 
  ___(___) %>% 
  ___(original_word_order = ___(___))

# Quick review
___

# Load stopwords
___

# Perform anti-join
tidy_reviews_without_stopwords <- tidy_reviews %>% 
  ___(___)
Modifica ed esegui il codice