IniziaInizia gratis

Passo 2: Identifica le fonti di testo

In questo breve esercizio caricherai ed esaminerai un piccolo corpus di recensioni di affitti nella zona di Boston. Con ogni probabilità conosci già read.csv(), che ti permette di caricare un file CSV. Può sembrare banale, ma lo scopo di questo capitolo è farti percorrere un intero workflow dall’inizio alla fine, quindi partiamo dall’ingestione dei dati!

Poi applica semplicemente str() per rivedere la struttura del data frame. È una funzione comoda per mostrare in modo compatto i valori iniziali e le classi dei vettori.

Infine applicherai dim() per stampare le dimensioni del data frame. Per un data frame, la console stamperà il numero di righe e il numero di colonne.

Altre funzioni come head(), tail() o summary() sono spesso usate per l’esplorazione dei dati, ma in questo caso manteniamo l’analisi iniziale breve così puoi passare subito alla parte divertente: l’analisi del sentiment!

Questo esercizio fa parte del corso

Sentiment Analysis in R

Visualizza il corso

Istruzioni dell'esercizio

Le recensioni degli affitti di Boston sono in un file CSV individuato dalla variabile predefinita bos_reviews_file.

  • Carica le recensioni da bos_reviews_file con read.csv(). Chiama l’oggetto bos_reviews.
  • Esamina la struttura del data frame usando la funzione base str() applicata a bos_reviews.
  • Scopri con quante recensioni stai lavorando chiamando dim() su bos_reviews.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# bos_reviews_file has been pre-defined
bos_reviews_file

# load raw text
bos_reviews <- ___

# Structure
___

# Dimensions
___
Modifica ed esegui il codice