Esercizio su TFIDF

In precedenza hai esaminato una rappresentazione bag-of-words di articoli sul petrolio greggio. Il calcolo dei valori TFIDF si basa su questa rappresentazione, ma tiene conto di quanto spesso una parola compare in un articolo e di quanto spesso la stessa parola compare nell’intera raccolta di articoli.

Per capire quanto siano significative le parole quando confronti articoli diversi, calcola i pesi TFIDF per le parole in crude, una raccolta di 20 articoli sul petrolio greggio.

Questo esercizio fa parte del corso

Introduzione all'Elaborazione del Linguaggio Naturale in R

Visualizza corso

Istruzioni dell'esercizio

Calcola i valori TFIDF per crude per article_id e per word. Salva il tibble risultante come crude_weights.
Ordina crude_weights con la funzione arrange() in base ai valori tf_idf in ordine decrescente.
Filtra crude_weights per ottenere i valori tf_idf più bassi ma diversi da zero. Anche qui, usa la funzione arrange.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create a tibble with TFIDF values
___ <- crude_tibble %>%
  unnest_tokens(output = "word", token = "words", input = text) %>%
  anti_join(stop_words) %>%
  count(article_id, word) %>%
  ___(___, ___, n)

# Find the highest TFIDF values
crude_weights %>%
  ___(desc(___))

# Find the lowest non-zero TFIDF values
crude_weights %>%
  filter(___ != ___) %>%
  ___(___)

Modifica ed esegui il codice

Introduzione all'Elaborazione del Linguaggio Naturale in R

IntermediárioNível de habilidade

4.8+

40 reviews

Nel Capitolo 4 trattiamo due pilastri dell’elaborazione del linguaggio naturale: sentiment analysis e word embeddings. Sono due tecniche di analisi imprescindibili per chi studia le basi dell’analisi del testo. Inoltre, imparerai brevemente a conoscere BERT, il part-of-speech tagging e il named entity recognition. In questo corso sono state coperte quasi 15 tecniche di analisi diverse, quindi il Capitolo 4 si chiude ricapitolando tutte le ottime tecniche che imparerai in questo percorso.

Exercise 1: Analisi del sentiment Exercise 2: lessici di tidytext Exercise 3: Punteggi di sentiment Exercise 4: Sentiment ed emozioni Exercise 5: Word embeddings Exercise 6: Esercizio su h2o Exercise 7: word2vec Exercise 8: Analisi NLP aggiuntive Exercise 9: Ripasso dei metodi #1 Exercise 10: Ripasso dei metodi #2 Exercise 11: Conclusione