Verken de Jobs-gegevensset
In deze oefening verken je het nieuwe DataFrame jobs, met het werkloosheidspercentage van verschillende sectoren in de VS tussen 2000 en 2010. Je ziet dat de gegevensset tijdreeksen bevat voor 16 sectoren en 122 tijdstippen (één per maand gedurende 10 jaar). In het algemeen omvat de typische workflow van een Data Science-project het opschonen en verkennen van data, dus we beginnen met het inlezen van de data en het controleren op ontbrekende waarden.
Deze oefening maakt deel uit van de cursus
Tijdreeksen visualiseren in Python
Oefeninstructies
We hebben pandas geïmporteerd als pd.
- Lees het csv-bestand op
url_jobsin als een DataFrame met de naamjobsen bekijk het gegevenstype van elke kolom. - Zet de kolom
datestampinjobsom naar het typedatetime. - Stel de kolom
datestampin als de index vanjobs. - Print het aantal ontbrekende waarden in elke kolom van
jobs.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Read in jobs file
jobs = ____
# Print first five lines of your DataFrame
print(jobs.head(5))
# Check the type of each column in your DataFrame
print(jobs.dtypes)
# Convert datestamp column to a datetime object
jobs[____] = ____(jobs[____])
# Set the datestamp columns as the index of your DataFrame
jobs = ____('datestamp')
# Check the number of missing values in each column
print(jobs.isnull().____())