Associazioni tra parole

Come previsto, nel dendrogramma compaiono argomenti simili. Tornando ai commenti positivi, decidi di esaminare le espressioni principali apparse nelle word cloud. Speri di trovare termini associati usando la funzione findAssocs() di tm. Ora vuoi verificare qualcosa di sorprendente, dopo aver scoperto le lunghe ore di lavoro e la scarsa conciliazione tra vita privata e lavoro.

Questo esercizio fa parte del corso

Text mining con Bag-of-Words in R

Visualizza corso

Istruzioni dell'esercizio

Il corpus amzn_pros_corp è stato ripulito usando le funzioni personalizzate come in precedenza.

Costruisci una TDM chiamata amzn_p_tdm a partire da amzn_pros_corp e control = list(tokenize = tokenizer).
Crea amzn_p_m convertendo amzn_p_tdm in una matrice.
Crea amzn_p_freq applicando rowSums() a amzn_p_m.
Crea term_frequency usando sort() su amzn_p_freq con l'argomento decreasing = TRUE.
Esamina i primi 5 bigrammi con term_frequency[1:5].
Potresti restare sorpreso di vedere "fast paced" tra i termini principali, perché potrebbe essere un termine negativo legato a "long hours". Guarda i termini più associati a "fast paced". Usa findAssocs() su amzn_p_tdm per esaminare "fast paced" con una soglia 0.2.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Create amzn_p_tdm
___ <- ___(
  ___,
  ___
)

# Create amzn_p_m
___ <- ___

# Create amzn_p_freq
___ <- ___

# Create term_frequency
___ <- ___

# Print the 5 most common terms
___

# Find associations with fast-paced
___

Modifica ed esegui il codice