Verknüpfen
Eine weitere sehr häufige Datenoperation ist die Verknüpfung. Joins sind ein eigenes Thema, daher werden wir uns in diesem Kurs nur mit einfachen Joins beschäftigen. Wenn du mehr über Verknüpfungen erfahren möchtest, kannst du hier einen Blick darauf werfen.
Ein Join verknüpft zwei verschiedene Tabellen entlang einer gemeinsamen Spalte. Diese Spalte wird der Schlüssel genannt. Beispiele für Schlüssel sind hier die Spalten tailnum
und carrier
aus der Tabelle flights
.
Angenommen, du möchtest mehr Informationen über das Flugzeug, das einen Flug durchgeführt hat, als nur das Luftfahrzeugkennzeichen. Diese Informationen sind nicht in der Tabelle flights
enthalten, weil ein und dasselbe Flugzeug im Laufe von zwei Jahren viele verschiedene Flüge absolviert, so dass die Aufnahme dieser Informationen in jede Zeile zu einer Menge Doppelarbeit führen würde. Um das zu erreichen, würde man eine zweite Tabelle anlegen, die für jedes Flugzeug nur eine Zeile hat und in deren Spalten alle Informationen über das Flugzeug stehen, einschließlich des Luftfahrzeugkennzeichens. Du könntest diese Tabelle planes
nennen.
Wenn du die Tabelle flights
mit dieser Tabelle mit Flugzeuginformationen verknüpfst, fügst du alle Spalten der Tabelle planes
zur Tabelle flights
hinzu. Um diese Spalten mit Informationen zu füllen, schaust du dir das Luftfahrzeugkennzeichen in der Tabelle flights
an und suchst die passende Nummer in der Tabelle planes
. Dann füllst du mit dieser Zeile alle neuen Spalten aus.
Nun hast du eine viel größere Tabelle als vorher, aber jede Zeile enthält alle Informationen über das Flugzeug, das diesen Flug durchgeführt hat!
Welche der folgenden Aussagen trifft nicht zu?
Diese Übung ist Teil des Kurses
Einführung in PySpark
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
