Esercizio su TFIDF
In precedenza hai esaminato una rappresentazione bag-of-words di articoli sul petrolio greggio. Il calcolo dei valori TFIDF si basa su questa rappresentazione, ma tiene conto di quanto spesso una parola compare in un articolo e di quanto spesso la stessa parola compare nell’intera raccolta di articoli.
Per capire quanto siano significative le parole quando confronti articoli diversi, calcola i pesi TFIDF per le parole in crude, una raccolta di 20 articoli sul petrolio greggio.
Questo esercizio fa parte del corso
Introduzione all'Elaborazione del Linguaggio Naturale in R
Istruzioni dell'esercizio
- Calcola i valori TFIDF per
crudeperarticle_ide perword. Salva il tibble risultante comecrude_weights. - Ordina
crude_weightscon la funzionearrange()in base ai valoritf_idfin ordine decrescente. - Filtra
crude_weightsper ottenere i valoritf_idfpiù bassi ma diversi da zero. Anche qui, usa la funzionearrange.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create a tibble with TFIDF values
___ <- crude_tibble %>%
unnest_tokens(output = "word", token = "words", input = text) %>%
anti_join(stop_words) %>%
count(article_id, word) %>%
___(___, ___, n)
# Find the highest TFIDF values
crude_weights %>%
___(desc(___))
# Find the lowest non-zero TFIDF values
crude_weights %>%
filter(___ != ___) %>%
___(___)