or
Questo esercizio fa parte del corso
Poiché il testo è un dato non strutturato, è necessaria una certa manipolazione per portarlo in una forma analizzabile. In questo capitolo imparerai ad aggiungere struttura al testo tramite tokenizzazione, pulizia e trattando il testo come dato categoriale.
I conteggi sono utili, ma le visualizzazioni sono meglio. In questo capitolo imparerai ad applicare ciò che conosci di ggplot2 ai dati testuali in formato tidy.
Sebbene i conteggi di parole e le visualizzazioni dicano qualcosa sul contenuto, possiamo fare di più. In questo capitolo andiamo oltre i soli conteggi per analizzare il sentiment, ovvero la valenza emotiva, del testo.
In questo capitolo finale andiamo oltre i conteggi di parole per scoprire gli argomenti sottostanti in una raccolta di documenti. Useremo un modello di topic standard noto come latent Dirichlet allocation.
Esercizio attuale