IniziaInizia gratis

Esercizio su TFIDF

In precedenza hai esaminato una rappresentazione bag-of-words di articoli sul petrolio greggio. Il calcolo dei valori TFIDF si basa su questa rappresentazione, ma tiene conto di quanto spesso una parola compare in un articolo e di quanto spesso la stessa parola compare nell’intera raccolta di articoli.

Per capire quanto siano significative le parole quando confronti articoli diversi, calcola i pesi TFIDF per le parole in crude, una raccolta di 20 articoli sul petrolio greggio.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza il corso

Istruzioni dell'esercizio

  • Calcola i valori TFIDF per crude per article_id e per word. Salva il tibble risultante come crude_weights.
  • Ordina crude_weights con la funzione arrange() in base ai valori tf_idf in ordine decrescente.
  • Filtra crude_weights per ottenere i valori tf_idf più bassi ma diversi da zero. Anche qui, usa la funzione arrange.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)
Modifica ed esegui il codice