Passo 2: Identifica le fonti di testo
In questo breve esercizio caricherai ed esaminerai un piccolo corpus di recensioni di affitti nella zona di Boston. Con ogni probabilità conosci già read.csv(), che ti permette di caricare un file CSV. Può sembrare banale, ma lo scopo di questo capitolo è farti percorrere un intero workflow dall’inizio alla fine, quindi partiamo dall’ingestione dei dati!
Poi applica semplicemente str() per rivedere la struttura del data frame. È una funzione comoda per mostrare in modo compatto i valori iniziali e le classi dei vettori.
Infine applicherai dim() per stampare le dimensioni del data frame. Per un data frame, la console stamperà il numero di righe e il numero di colonne.
Altre funzioni come head(), tail() o summary() sono spesso usate per l’esplorazione dei dati, ma in questo caso manteniamo l’analisi iniziale breve così puoi passare subito alla parte divertente: l’analisi del sentiment!
Questo esercizio fa parte del corso
Sentiment Analysis in R
Istruzioni dell'esercizio
Le recensioni degli affitti di Boston sono in un file CSV individuato dalla variabile predefinita bos_reviews_file.
- Carica le recensioni da
bos_reviews_fileconread.csv(). Chiama l’oggettobos_reviews. - Esamina la struttura del data frame usando la funzione base
str()applicata abos_reviews. - Scopri con quante recensioni stai lavorando chiamando
dim()subos_reviews.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# bos_reviews_file has been pre-defined
bos_reviews_file
# load raw text
bos_reviews <- ___
# Structure
___
# Dimensions
___