Ruwe data inlezen en omzetten naar een datastructuur
Zoals eerder genoemd is iotools deels zo snel omdat het het inlezen van data van de harde schijf scheidt van het omzetten van de binaire data naar een data.frame of matrix. Gegevens in hun binaire formaat worden als raw-objecten van de harde schijf naar het geheugen gekopieerd. Deze raw-objecten worden vervolgens doorgegeven aan geoptimaliseerde functies die ze omzetten naar data.frame- of matrix-objecten.
In deze oefening leer je hoe je het inlezen van data van schijf (met de functie readAsRaw()) loskoppelt en daarna de binaire raw-data omzet naar een matrix of data.frame (met de functies mstrsplit() en dstrsplit()).
Deze oefening maakt deel uit van de cursus
Schaalbare gegevensverwerking in R
Oefeninstructies
- Lees
"mortgage-sample.csv"in als een ruwe vector. - Zet de inhoud van de ruwe vector om naar een
matrixvan gehele getallen. - Zet de inhoud van de ruwe vector om naar een
data.framemet 16 kolommen van het type geheel getal.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Read mortgage-sample.csv as a raw vector
raw_file_content <- ___("mortgage-sample.csv")
# Convert the raw vector contents to a matrix
mort_mat <- ___(___, sep = ",", type = ___, skip = 1)
# Look at the first 6 rows
head(mort_mat)
# Convert the raw file contents to a data.frame
mort_df <- ___(___, sep = ",", col_types = rep("integer", 16), skip = 1)
# Look at the first 6 rows
head(mort_df)