LoslegenKostenlos loslegen

Umgang mit Fremdzeichen (II)

In der letzten Übung konntest du anhand des Aufrufs von df.head() schnell erkennen, welche Zeichen ein Problem verursachten. In vielen Fällen ist das jedoch nicht so offensichtlich. Oft verstecken sich Werte tief in einer Spalte, die verhindern, dass du die Spalte in einen numerischen Typ umwandeln kannst, um sie in einem Modell oder für weiteres Feature Engineering zu verwenden.

Ein Ansatz, diese Werte zu finden, ist, die Spalte mit pd.to_numeric() in den gewünschten Datentyp zu zwingen, problematische Werte in NaN umzuwandeln und anschließend den DataFrame nach genau den Zeilen zu filtern, die NaN enthalten.

Versuche, die Spalte RawSalary als float zu casten. Das schlägt fehl, denn es hat sich ein zusätzliches Zeichen eingeschlichen. Finde dieses Zeichen und entferne es, damit die Spalte als float gecastet werden kann.

Diese Übung ist Teil des Kurses

Feature Engineering für Machine Learning in Python

Kurs anzeigen

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Attempt to convert the column to numeric values
numeric_vals = ____(so_survey_df['RawSalary'], errors='coerce')

# Find the indexes of missing values
idx = ____

# Print the relevant rows
print(so_survey_df['RawSalary']____)
Code bearbeiten und ausführen