Deinen Text bereinigen
Unstrukturierte Textdaten lassen sich in den meisten Analysen nicht direkt verwenden. Vom langen Freitext bis zu einem Satz numerischer Spalten im richtigen Format, den ein Machine-Learning-Modell verarbeiten kann, sind mehrere Schritte nötig. Der erste Schritt besteht darin, die Daten zu standardisieren und alle Zeichen zu entfernen, die später in deiner Analyse-Pipeline Probleme verursachen könnten.
In diesem Kapitel arbeitest du mit einem neuen Datensatz, der die Antrittsreden der Präsidenten der Vereinigten Staaten enthält, geladen als speech_df, wobei die Reden in der Spalte text gespeichert sind.
Diese Übung ist Teil des Kurses
<Kurs>Feature Engineering für Machine Learning in Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Print the first 5 rows of the text column
print(____)