Pulizia e conteggio

Rimuovi le stop word per esplorare il contenuto solo dei tweet sulle compagnie aeree classificati come reclami in twitter_data.

Questo esercizio fa parte del corso

Introduzione all'analisi del testo in R

Visualizza corso

Istruzioni dell'esercizio

Tokenizza i tweet in twitter_data. Assegna alla colonna con le parole tokenizzate il nome word.
Rimuovi le stop word predefinite dal twitter_data tokenizzato.
Filtra per mantenere solo i reclami.
Calcola i conteggi delle parole usando il testo tokenizzato e pulito e ordina in ordine decrescente per conteggio.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

tidy_twitter <- twitter_data %>% 
  # Tokenize the twitter data
  ___(___, ___) %>% 
  # Remove stop words
  anti_join(stop_words)

tidy_twitter %>% 
  # Filter to keep complaints only
  ___(___ == ___) %>% 
  # Compute word counts and arrange in descending order
  ___(___) %>% 
  ___(___)

Modifica ed esegui il codice