LoslegenKostenlos loslegen

Deinen Text bereinigen

Unstrukturierte Textdaten lassen sich in den meisten Analysen nicht direkt verwenden. Vom langen Freitext bis zu einem Satz numerischer Spalten im richtigen Format, den ein Machine-Learning-Modell verarbeiten kann, sind mehrere Schritte nötig. Der erste Schritt besteht darin, die Daten zu standardisieren und alle Zeichen zu entfernen, die später in deiner Analyse-Pipeline Probleme verursachen könnten.

In diesem Kapitel arbeitest du mit einem neuen Datensatz, der die Antrittsreden der Präsidenten der Vereinigten Staaten enthält, geladen als speech_df, wobei die Reden in der Spalte text gespeichert sind.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Print the first 5 rows of the text column
print(____)
Code bearbeiten und ausführen