LoslegenKostenlos loslegen

Datenintegrität

Beim Erkunden eines Datensatzes stößt du manchmal auf Dinge, die dich die Zusammenstellung der Daten hinterfragen lassen. Zum Beispiel enthält die Variable num_char die Anzahl der Zeichen in der E-Mail, in Tausendern. Sie kann also Dezimalwerte annehmen, aber auf keinen Fall negative Werte.

Du kannst einen Test formulieren, um sicherzustellen, dass sich diese Variable wie erwartet verhält:

email$num_char < 0

Wenn du diesen Code in der Konsole ausführst, erhältst du einen langen Vektor mit logischen Werten, der für jeden Fall im Datensatz angibt, ob diese Bedingung TRUE ist. Hier scheinen die ersten 1000 Werte alle FALSE zu sein. Um zu prüfen, ob wirklich alle Fälle nichtnegative Werte für num_char haben, können wir die Summe dieses Vektors bilden:

sum(email$num_char < 0)

Das ist eine praktische Abkürzung. Wenn du mit logischen Werten rechnest, behandelt R TRUE als 1 und FALSE als 0. Da die Summe über den gesamten Vektor Null ist, weißt du, dass jeder Fall im Datensatz im Test den Wert FALSE hatte. Das heißt, die Spalte num_char verhält sich wie erwartet und nimmt nur nichtnegative Werte an.

Diese Übung ist Teil des Kurses

Explorative Datenanalyse in R

Kurs anzeigen

Anleitung zur Übung

Betrachte die Variablen image und attach. Mit ?email kannst du mehr über sie lesen, aber die Hilfedatei ist nicht eindeutig: Zählen angehängte Bilder in diesem Datensatz als angehängte Dateien?

Entwirf einen einfachen Test, um festzustellen, ob Bilder als Anhänge zählen. Dazu erstellst du eine logische Bedingung, um die Werte der beiden Variablen zu vergleichen, und verwendest anschließend sum(), um alle Fälle im Datensatz auszuwerten. Denk daran, dass die logischen Operatoren < für kleiner als, <= für kleiner oder gleich, > für größer als, >= für größer oder gleich und == für gleich stehen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Test if images count as attachments
Code bearbeiten und ausführen