Laad wat tekst
Text mining begint met het inladen van tekstgegevens in R. Dat doen we met de functie read.csv().
Een goede gewoonte is om het object dat je inleest te bekijken, zodat je weet welke kolom(men) belangrijk zijn. De functie str() is een efficiënte manier om dit te doen.
Als het data frame kolommen bevat die geen tekst zijn, kun je een nieuw object maken met alleen de juiste tekstkolom (bijv. some_object$column_name).
Houd er rekening mee dat dit echte data van Twitter is en dat er dus altijd een risico is dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening en eventuele volgende oefeningen die ook echte Twitter-data gebruiken).
Deze oefening maakt deel uit van de cursus
Text mining met bag-of-words in R
Oefeninstructies
De data is voor je geladen en staat in coffee_data_file.
- Maak een nieuw object
tweetsmetread.csv()op het bestandcoffee_data_file, dat tweets met een verwijzing naar coffee bevat. - Bekijk het object
tweetsmetstr()om te bepalen welke kolom de tekst bevat die je wilt analyseren. - Maak een nieuw object
coffee_tweetsmet alleen de tekstkolom die je hierboven hebt geïdentificeerd. Gebruik hiervoor de$-operator en de kolomnaam.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import text data from CSV, no factors
tweets <- ___
# View the structure of tweets
___
# Isolate text from tweets
coffee_tweets <- ___