1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Úvod do importu dat v Pythonu

Connected

Cvičení

Přizpůsobení importu v pandas

Balíček pandas si skvěle poradí s mnoha problémy, na které při importu dat narazíš, jako jsou komentáře v flat files, prázdné řádky nebo chybějící hodnoty (NA nebo NaN). Na závěr této kapitoly naimportuješ poškozenou kopii datasetu Titanic titanic_corrupt.txt, která obsahuje komentáře za znakem '#' a je oddělená tabulátorem.

Důležité argumenty funkce pd.read_csv():

  • sep nastavuje očekávaný oddělovač.
    • Pro oddělení čárkou použij ','.
    • Pro oddělení tabulátorem použij '\t'.
  • comment přijímá znaky, za nimiž se v souboru vyskytují komentáře — veškerý text začínající těmito znaky bude ignorován.
  • na_values přijímá seznam řetězců, které se mají považovat za NA/NaN. Některé hodnoty jsou jako NA/NaN rozpoznávány automaticky; tímto argumentem přidáš další.

Pokyny

100 XP
  • Doplň argumenty funkce pd.read_csv() tak, aby správně naimportovala soubor titanic_corrupt.txt:
    • sep nastavuje použitý oddělovač a funguje stejně jako argument delimiter funkce np.loadtxt(). Soubor, který importuješ, je oddělený tabulátorem.
    • comment přijímá znaky, za nimiž se v souboru vyskytují komentáře — v tomto případě '#'.
    • na_values přijímá seznam řetězců, které se mají považovat za NA/NaN — v tomto případě řetězec 'Nothing'.
  • Spusť zbytek kódu, aby se vypsal začátek výsledného DataFrame a zobrazil histogram sloupce 'Age' cestujících na palubě Titaniku.