Rimuovi URL e caratteri diversi dalle lettere
Il testo dei tweet pubblicati dagli utenti su Twitter è non strutturato, rumoroso e grezzo.
Contiene emoticon, URL e numeri. Queste informazioni ridondanti vanno pulite prima dell'analisi per ottenere risultati affidabili.
In questo esercizio rimuoverai gli URL e sostituirai con spazi i caratteri diversi dalle lettere.
Il data frame dei tweet twt_telmed, con 1000 tweet estratti su "telemedicine", è stato pre-caricato per questo esercizio.
La libreria qdapRegex è stata pre-caricata per questo esercizio.
Questo esercizio fa parte del corso
Analisi dei dati dei social media in R
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Extract tweet text from the pre-loaded dataset
twt_txt <- ___$___
head(twt_txt)