IniziaInizia gratis

Creare una tibble da un corpus

Per esplorare meglio il corpus sui dati del petrolio grezzo che hai ricevuto da un collega, hai deciso di creare una pipeline per pulire il testo contenuto nei documenti. Invece di usare il pacchetto tm, hai scelto di trasformare il corpus in una tibble così da poter utilizzare le funzioni unnest_tokens(), count() e anti_join() che già conosci. Il corpus crude contiene sia i metadati sia il testo di ciascun documento.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Converte il corpus in una tibble.
  • Usa names per stampare i nomi delle colonne.
  • Tokenizza (per parola), conta e rimuovi le stop word dalla colonna text di crude_tibble.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a tibble & Review
crude_tibble <- ___(crude)
___(crude_tibble)

crude_counts <- crude_tibble %>%
  # Tokenize by word 
  ___(___, text) %>%
  # Count by word
  ___(word, sort = TRUE) %>%
  # Remove stop words
  ___(stop_words)
Modifica ed esegui il codice