Laad wat tekst

Text mining begint met het inladen van tekstgegevens in R. Dat doen we met de functie read.csv().

Een goede gewoonte is om het object dat je inleest te bekijken, zodat je weet welke kolom(men) belangrijk zijn. De functie str() is een efficiënte manier om dit te doen.

Als het data frame kolommen bevat die geen tekst zijn, kun je een nieuw object maken met alleen de juiste tekstkolom (bijv. some_object$column_name).

Houd er rekening mee dat dit echte data van Twitter is en dat er dus altijd een risico is dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening en eventuele volgende oefeningen die ook echte Twitter-data gebruiken).

Deze oefening maakt deel uit van de cursus

Text mining met bag-of-words in R

Bekijk cursus

Oefeninstructies

De data is voor je geladen en staat in coffee_data_file.

Maak een nieuw object tweets met read.csv() op het bestand coffee_data_file, dat tweets met een verwijzing naar coffee bevat.
Bekijk het object tweets met str() om te bepalen welke kolom de tekst bevat die je wilt analyseren.
Maak een nieuw object coffee_tweets met alleen de tekstkolom die je hierboven hebt geïdentificeerd. Gebruik hiervoor de $-operator en de kolomnaam.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import text data from CSV, no factors
tweets <- ___

# View the structure of tweets
___

# Isolate text from tweets
coffee_tweets <- ___

Code bewerken en uitvoeren