Associazioni tra parole
Come previsto, nel dendrogramma compaiono argomenti simili. Tornando ai commenti positivi, decidi di esaminare le espressioni principali apparse nelle word cloud. Speri di trovare termini associati usando la funzione findAssocs() di tm. Ora vuoi verificare qualcosa di sorprendente, dopo aver scoperto le lunghe ore di lavoro e la scarsa conciliazione tra vita privata e lavoro.
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
Il corpus amzn_pros_corp è stato ripulito usando le funzioni personalizzate come in precedenza.
- Costruisci una TDM chiamata
amzn_p_tdma partire daamzn_pros_corpecontrol = list(tokenize = tokenizer). - Crea
amzn_p_mconvertendoamzn_p_tdmin una matrice. - Crea
amzn_p_freqapplicandorowSums()aamzn_p_m. - Crea
term_frequencyusandosort()suamzn_p_freqcon l'argomentodecreasing = TRUE. - Esamina i primi 5 bigrammi con
term_frequency[1:5]. - Potresti restare sorpreso di vedere "fast paced" tra i termini principali, perché potrebbe essere un termine negativo legato a "long hours". Guarda i termini più associati a "fast paced". Usa
findAssocs()suamzn_p_tdmper esaminare"fast paced"con una soglia0.2.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Create amzn_p_tdm
___ <- ___(
___,
___
)
# Create amzn_p_m
___ <- ___
# Create amzn_p_freq
___ <- ___
# Create term_frequency
___ <- ___
# Print the 5 most common terms
___
# Find associations with fast-paced
___