1. Învăţa
  2. /
  3. Courses
  4. /
  5. Introducere în importul datelor în Python

Connected

exercise

Personalizarea importului cu pandas

Pachetul pandas este excelent pentru a gestiona multe dintre problemele pe care le vei întâlni când imporți date ca om de știință a datelor, cum ar fi comentariile din fișierele flat, liniile goale și valorile lipsă (NA sau NaN). Pentru a încheia acest capitol, vei importa o copie coruptă a setului de date Titanic, titanic_corrupt.txt, care conține comentarii după caracterul '#' și este delimitat prin tab.

Argumentele cheie pentru pd.read_csv() includ:

  • sep stabilește separatorul așteptat.
    • Poți folosi ',' pentru delimitare prin virgulă.
    • Poți folosi '\t' pentru delimitare prin tab.
  • comment primește caracterele după care apar comentariile în fișier, indicând că orice text care începe cu aceste caractere ar trebui ignorat.
  • na_values primește o listă de șiruri care să fie identificate ca NA/NaN. În mod implicit, unele valori sunt deja recunoscute ca NA/NaN. Furnizarea acestui argument va adăuga valori suplimentare.

Instrucțiuni

100 XP
  • Completează argumentele funcției pd.read_csv() pentru a importa corect titanic_corrupt.txt folosind pandas:
    • sep stabilește separatorul de utilizat și funcționează la fel ca argumentul delimiter al np.loadtxt(). Reține că fișierul pe care îl imporți este delimitat prin tab.
    • comment primește caracterele după care apar comentariile în fișier — în acest caz, '#'.
    • na_values primește o listă de șiruri care să fie tratate ca NA/NaN — în acest caz, șirul 'Nothing'.
  • Rulează restul codului pentru a afișa primele rânduri ale DataFrame-ului rezultat și a trasa histograma coloanei 'Age' a pasagerilor de pe Titanic.