Creare una tibble da un corpus
Per esplorare meglio il corpus sui dati del petrolio grezzo che hai ricevuto da un collega, hai deciso di creare una pipeline per pulire il testo contenuto nei documenti. Invece di usare il pacchetto tm, hai scelto di trasformare il corpus in una tibble così da poter utilizzare le funzioni unnest_tokens(), count() e anti_join() che già conosci. Il corpus crude contiene sia i metadati sia il testo di ciascun documento.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Converte il corpus in una tibble.
- Usa
namesper stampare i nomi delle colonne. - Tokenizza (per parola), conta e rimuovi le stop word dalla colonna
textdicrude_tibble.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)
crude_counts <- crude_tibble %>%
# Tokenize by word
___(___, text) %>%
# Count by word
___(word, sort = TRUE) %>%
# Remove stop words
___(stop_words)