Test vs. Train
Nachdem du deine Daten bereinigt und für die Modellierung vorbereitet hast, besteht einer der wichtigsten Schritte darin, die Daten in einen Testdatensatz und einen Trainingsdatensatz aufzuteilen. Danach solltest du deine Testdaten nicht mehr anfassen, bis du glaubst, dass du ein gutes Modell hast! Während du Modelle entwickelst und Hypothesen aufstellst, kannst du sie mit deinen Trainingsdaten testen, um einen Eindruck von ihrer Leistungsfähigkeit zu bekommen.
Wenn du dein Lieblingsmodell gefunden hast, kannst du sehen, wie gut es die neuen Daten in deinem Testdatensatz vorhersagt. Diese Daten, die du noch nie zuvor gesehen hast, geben dir eine viel realistischere Vorstellung von der Leistung deines Modells in der realen Welt, wenn du versuchst, neue Daten vorherzusagen oder zu klassifizieren.
In Spark ist es wichtig, dass du die Daten nach allen Transformationen aufteilst. Das liegt daran, dass Operationen wie StringIndexer
nicht immer den gleichen Index ergeben, selbst wenn die gleiche Liste von Strings vorliegt.
Warum ist es wichtig, einen Testdatensatz zu verwenden, wenn man ein Modell bewertet?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Interaktive Übung zum Anfassen
Setzen Sie die Theorie mit einer unserer interaktiven Übungen in die Tat um
