IniziaInizia gratis

Pulizia e conteggio

Rimuovi le stop word per esplorare il contenuto solo dei tweet sulle compagnie aeree classificati come reclami in twitter_data.

Questo esercizio fa parte del corso

Introduzione all'analisi del testo in R

Visualizza il corso

Istruzioni dell'esercizio

  • Tokenizza i tweet in twitter_data. Assegna alla colonna con le parole tokenizzate il nome word.
  • Rimuovi le stop word predefinite dal twitter_data tokenizzato.
  • Filtra per mantenere solo i reclami.
  • Calcola i conteggi delle parole usando il testo tokenizzato e pulito e ordina in ordine decrescente per conteggio.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)
Modifica ed esegui il codice