Carica un po' di testo
Il text mining parte dal caricamento di alcuni dati testuali in R, cosa che faremo con la funzione read.csv().
Una buona prassi è esaminare l'oggetto che hai importato per capire quali colonne sono importanti. La funzione str() è un modo efficiente per farlo.
Se il data frame contiene colonne che non sono di testo, potresti voler creare un nuovo oggetto usando solo la colonna corretta di testo (ad esempio, some_object$column_name).
Fai attenzione: si tratta di dati reali da Twitter e, di conseguenza, c'è sempre il rischio che contengano volgarità o altri contenuti offensivi (in questo esercizio e in qualsiasi altro esercizio che utilizzi dati reali da Twitter).
Questo esercizio fa parte del corso
Text mining con Bag-of-Words in R
Istruzioni dell'esercizio
I dati sono stati caricati per te e sono disponibili in coffee_data_file.
- Crea un nuovo oggetto
tweetsusandoread.csv()sul filecoffee_data_file, che contiene tweet in cui si menziona il caffè. - Esamina l'oggetto
tweetsusandostr()per determinare quale colonna contiene il testo che vuoi analizzare. - Crea un nuovo oggetto
coffee_tweetsusando solo la colonna di testo che hai identificato. Per farlo, usa l'operatore$e il nome della colonna.
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Import text data from CSV, no factors
tweets <- ___
# View the structure of tweets
___
# Isolate text from tweets
coffee_tweets <- ___