Aan de slagGa gratis aan de slag

Je tekst opschonen

Ongestructureerde tekstgegevens kun je meestal niet rechtstreeks gebruiken in analyses. Er zijn meerdere stappen nodig om van een lange vrije-tekststring naar een set numerieke kolommen in het juiste formaat te gaan, zodat een machine learning-model ze kan verwerken. De eerste stap is het standaardiseren van de gegevens en het verwijderen van alle tekens die later in je analysepipeline voor problemen kunnen zorgen.

In dit hoofdstuk werk je met een nieuwe gegevensset met de inaugurele toespraken van de presidenten van de Verenigde Staten, geladen als speech_df, met de toespraken in de kolom text.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Print the first 5 rows of the text column
print(____)
Code bewerken en uitvoeren