Crea un Tidy Text Tibble!
Ora che conosci i principi tidy, questo codice ti aiuta a organizzare i dati in un tibble per poter lavorare comodamente nel tidyverse!
In precedenza hai visto che applicare tidy() a un oggetto TermDocumentMatrix() converte la TDM in un tibble. In questo esercizio creerai i dati delle parole direttamente dalla colonna delle recensioni chiamata comments.
Per iniziare, usa unnest_tokens() per trasformare il testo in minuscolo e tokenizzare le recensioni in singole parole.
A volte è utile catturare l'ordine originale delle parole all'interno di ciascun gruppo di un corpus. Per farlo, usa mutate(). In mutate() userai seq_along() per creare una sequenza di numeri da 1 alla lunghezza dell'oggetto. Questo ti permetterà di conservare l'ordine in cui le parole sono state scritte.
Nel pacchetto tm useresti removeWords() per rimuovere le stopwords. Nel tidyverse devi prima caricare il lessico delle stop words e poi applicare un anti_join() tra il data frame tidy del testo e le stopwords.
Questo esercizio fa parte del corso
Sentiment Analysis in R
Istruzioni dell'esercizio
- Crea
tidy_reviewsconcatenando (%>%) l'oggetto originale delle recensionibos_reviewsalla funzioneunnest_tokens(). Passa il nome della nuova colonna,word, e indica la colonnacomments. Ricorda che nel tidyverse non servono$né virgolette. - Crea una nuova variabile in stile tidy! Sovrascrivi
tidy_reviewsconcatenandotidy_reviewsagroup_bycon la colonnaid. Poi%>%di nuovo amutate(). All'interno di mutate crea una nuova variabileoriginal_word_orderuguale aseq_along(word). - Stampa il tibble,
tidy_reviews. - Carica le stopwords predefinite "SMART" nella tua sessione R con
data("stop_words"). - Sovrascrivi
tidy_reviewspassando l'tidy_reviewsoriginale aanti_join()con un%>%. All'interno dianti_join()passa il lessico predefinitostop_words.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Vector to tibble
tidy_reviews <- bos_reviews %>%
___(___, ___)
# Group by and mutate
tidy_reviews <- tidy_reviews %>%
___(___) %>%
___(original_word_order = ___(___))
# Quick review
___
# Load stopwords
___
# Perform anti-join
tidy_reviews_without_stopwords <- tidy_reviews %>%
___(___)