IniziaInizia gratis

Integrità dei dati

Nel processo di esplorazione di un insieme di dati, a volte incontrerai qualcosa che ti farà mettere in dubbio come siano stati compilati i dati. Per esempio, la variabile num_char contiene il numero di caratteri nell'email, in migliaia, quindi può assumere valori decimali, ma di certo non dovrebbe assumere valori negativi.

Puoi formulare un test per assicurarti che questa variabile si comporti come ci aspettiamo:

email$num_char < 0

Se esegui questo codice nella console, otterrai un lungo vettore di valori logici che indica, per ogni caso nell'insieme di dati, se quella condizione è TRUE. Qui, i primi 1000 valori sembrano tutti FALSE. Per verificare che tutti i casi abbiano effettivamente valori non negativi per num_char, possiamo prendere la somma di questo vettore:

sum(email$num_char < 0)

Questo è un comodo trucco. Quando esegui operazioni aritmetiche su valori logici, R considera TRUE come 1 e FALSE come 0. Poiché la somma sull’intero vettore è zero, scopri che ogni caso nell’insieme di dati ha assunto il valore FALSE nel test. Cioè, la colonna num_char si comporta come previsto e assume solo valori non negativi.

Questo esercizio fa parte del corso

Analisi esplorativa dei dati in R

Visualizza il corso

Istruzioni dell'esercizio

Considera le variabili image e attach. Puoi leggerne la descrizione con ?email, ma il file di help è ambiguo: in questo insieme di dati, le immagini allegate contano come file allegati?

Progetta un semplice test per determinare se le immagini sono conteggiate come file allegati. Questo richiede di creare una condizione logica per confrontare i valori delle due variabili, quindi usare sum() per valutare ogni caso nell’insieme di dati. Ricorda che gli operatori logici sono < per minore di, <= per minore o uguale a, > per maggiore di, >= per maggiore o uguale a e == per uguale a.

Esercizio pratico interattivo

Prova a risolvere questo esercizio completando il codice di esempio.

# Test if images count as attachments
Modifica ed esegui il codice