Pulizia e conteggio
Rimuovi le stop word per esplorare il contenuto solo dei tweet sulle compagnie aeree classificati come reclami in twitter_data.
Questo esercizio fa parte del corso
Introduzione all'analisi del testo in R
Istruzioni dell'esercizio
- Tokenizza i tweet in
twitter_data. Assegna alla colonna con le parole tokenizzate il nomeword. - Rimuovi le stop word predefinite dal
twitter_datatokenizzato. - Filtra per mantenere solo i reclami.
- Calcola i conteggi delle parole usando il testo tokenizzato e pulito e ordina in ordine decrescente per conteggio.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
tidy_twitter <- twitter_data %>%
# Tokenize the twitter data
___(___, ___) %>%
# Remove stop words
anti_join(stop_words)
tidy_twitter %>%
# Filter to keep complaints only
___(___ == ___) %>%
# Compute word counts and arrange in descending order
___(___) %>%
___(___)