Je tekst opschonen
Ongestructureerde tekstgegevens kun je meestal niet rechtstreeks gebruiken in analyses. Er zijn meerdere stappen nodig om van een lange vrije-tekststring naar een set numerieke kolommen in het juiste formaat te gaan, zodat een machine learning-model ze kan verwerken. De eerste stap is het standaardiseren van de gegevens en het verwijderen van alle tekens die later in je analysepipeline voor problemen kunnen zorgen.
In dit hoofdstuk werk je met een nieuwe gegevensset met de inaugurele toespraken van de presidenten van de Verenigde Staten, geladen als speech_df, met de toespraken in de kolom text.
Deze oefening maakt deel uit van de cursus
Feature engineering voor Machine Learning in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Print the first 5 rows of the text column
print(____)