Verlinken oder nicht verlinken?
Ähnlich wie bei Joins geht es bei der Datensatzverknüpfung um die Verknüpfung von Daten aus verschiedenen Quellen über dieselbe Entität. Im Gegensatz zu Joins erfordert die Datensatzverknüpfung jedoch keine exakten Übereinstimmungen zwischen verschiedenen Datenpaaren, sondern kann stattdessen enge Übereinstimmungen anhand der Zeichenkettenähnlichkeit finden. Aus diesem Grund ist die Datensatzverknüpfung effektiv, wenn es keine gemeinsamen eindeutigen Schlüssel zwischen den Datenquellen gibt, auf die du dich bei der Verknüpfung von Datenquellen verlassen kannst, wie z. B. einen eindeutigen Bezeichner.
In dieser Übung sollst du jede Karte danach klassifizieren, ob es sich um ein klassisches Join-Problem oder um ein Problem der Datensatzverknüpfung handelt.
Diese Übung ist Teil des Kurses
Datenbereinigung in Python
Interaktive Übung
Setze die Theorie in einer unserer interaktiven Übungen in die Praxis um
