Aan de slagBegin gratis

Je tekst opschonen

Ongestructureerde tekstgegevens kun je meestal niet rechtstreeks gebruiken in analyses. Er zijn meerdere stappen nodig om van een lange vrije-tekststring naar een set numerieke kolommen in het juiste formaat te gaan, zodat een machine learning-model ze kan verwerken. De eerste stap is het standaardiseren van de gegevens en het verwijderen van alle tekens die later in je analysepipeline voor problemen kunnen zorgen.

In dit hoofdstuk werk je met een nieuwe gegevensset met de inaugurele toespraken van de presidenten van de Verenigde Staten, geladen als speech_df, met de toespraken in de kolom text.

Deze oefening maakt deel uit van de cursus

Feature engineering voor Machine Learning in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Print the first 5 rows of the text column
print(____)
Code bewerken en uitvoeren