Daten aus anderen Flatfiles laden
CSVs sind die gebräuchlichsten Flatfiles, aber manchmal gibt es Dateien mit anderen Trennzeichen. read_csv() kann all diese laden, wenn du das Schlüsselwortargument sep verwendest. Standardmäßig geht pandas davon aus, dass das Trennzeichen ein Komma ist. Deshalb müssen wir für CSVs sep nicht angeben.
Die Vermont-Steuerdaten hier liegen als Tab-getrennte Datei (TSV) vor. Daher musst du sep verwenden, um beim Einlesen das richtige Trennzeichen zu setzen. Denk daran: Tabs werden als \t dargestellt. Sobald die Datei geladen ist, gruppiert der restliche Code das Feld N1, das Einkommenskategorien enthält, um ein Diagramm der Steuererklärungen nach Einkommenskategorie zu erstellen.
Diese Übung ist Teil des Kurses
Vereinfachte Datenaufnahme mit pandas
Anleitung zur Übung
- Importiere
pandasmit dem Aliaspd. - Lade
vt_tax_data_2016.tsvund gib dabei mit dem Schlüsselwortargumentsepdas richtige Trennzeichen an.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import pandas with the alias pd
____
# Load TSV using the sep keyword argument to set delimiter
data = ____(____, ____)
# Plot the total number of tax returns by income group
counts = data.groupby("agi_stub").N1.sum()
counts.plot.bar()
plt.show()