Flugformate vereinheitlichen I
Daten zu bereinigen ist wichtig, weil du häufig unaufgeräumte Daten erhältst, die noch nicht für Analysen bereit sind.
In dieser Übung sollst du alle Einträge mit mehr als 100 Verspätungen aus der Tabelle flight_statistics holen. In einer eindeutigen Spalte sollst du carrier_code, registration_code und airport_code zusammenführen – im Format wie: "AA - 000000119, JFK".
Bei der Analyse der Tabelle flight_statistics stellst du fest, dass einige Werte in registration_code unterschiedliche Formate haben. Ein korrekter registration_code muss neun Ziffern haben; hat er weniger, musst du ihn mit führenden Nullen auffüllen.
Dafür kannst du die Funktion REPLICATE() in Kombination mit LEN() und CONCAT() verwenden.
Diese Übung ist Teil des Kurses
Datenbereinigung in SQL Server-Datenbanken
Anleitung zur Übung
- Verwende die passende Funktion, um die Spalten
carrier_code, die führenden Nullen vor einem Registrierungscode,registration_codeundairport_codezu verketten. - Repliziere so viele Nullen wie nötig, indem du 9 von der Länge jedes
registration_codeabziehst. - Filtere die Einträge, bei denen die Spalte
delayedgrößer als 100 ist.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
SELECT
-- Concat the strings
___(
carrier_code,
' - ',
-- Replicate zeros
___('___', 9 - ___(registration_code)),
registration_code,
', ',
airport_code)
AS registration_code
FROM flight_statistics
-- Filter registers with more than 100 delays
WHERE ___ > 100