Aan de slagGa gratis aan de slag

Meerdere databestanden laden

Het is prima om meerdere gegevenssets handmatig te importeren. Maar soms wil je een heleboel gegevenssets importeren zonder meerdere read_csv()-aanroepen te doen. Je kunt de in Python ingebouwde glob-bibliotheek gebruiken om te zoeken naar bestanden die aan een patroon voldoen. De bibliotheek heet "glob" omdat "globbing" de manier is waarop patronen worden opgegeven in de Bash-shell.

De functie glob() geeft een lijst met bestandsnamen terug die overeenkomen met een opgegeven patroon. Vervolgens kun je een list comprehension gebruiken om meerdere bestanden in een lijst te importeren, en daarna kun je de DataFrame van interesse eruit halen.

Deze oefening maakt deel uit van de cursus

Python voor R-gebruikers

Cursus bekijken

Oefeninstructies

  • Haal een lijst op van alle csv-bestanden in je huidige map en sla die op in csv_files.
  • Schrijf een list comprehension die alle csv-bestanden inleest in een lijst, dfs.
  • Schrijf een list comprehension die naar de .shape van elke DataFrame in de lijst kijkt.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

import glob
import pandas as pd

# Get a list of all the csv files
csv_files = glob.____('*.csv')

# List comprehension that loads of all the files
dfs = [pd.read_csv(____) for ____ in ____]

# List comprehension that looks at the shape of all DataFrames
print(____)
Code bewerken en uitvoeren