BaşlayınÜcretsiz Başlayın

pandas içe aktarımını özelleştirme

pandas paketi, bir veri bilimci olarak veri içe aktarırken karşılaşacağın birçok sorunla başa çıkmada harikadır; örneğin düz dosyalardaki açıklama satırları, boş satırlar ve eksik değerler (NA veya NaN). Bu bölümü bitirirken, '#' karakterinden sonra açıklamalar içeren ve sekme ile ayrılmış bozuk bir Titanic veri kümesi kopyasını (titanic_corrupt.txt) içe aktaracaksın.

pd.read_csv() için önemli argümanlar şunlardır:

  • sep beklenen ayırıcıyı ayarlar.
    • Virgülle ayrılmış dosyalar için ',' kullanabilirsin.
    • Sekmeyle ayrılmış dosyalar için '\t' kullanabilirsin.
  • comment dosyada açıklamaların başladığı karakter(ler)i alır; bu karakterlerle başlayan metinlerin yoksayılması gerektiğini belirtir.
  • na_values NA/NaN olarak tanımlanacak dizelerin bir listesini alır. Varsayılan olarak bazı değerler zaten NA/NaN olarak tanınır. Bu argümanı vermek, ek değerler sağlar.

Bu egzersiz

Python'da Veri Aktarmaya Giriş

kursunun bir parçasıdır
Kursu Görüntüle

Egzersiz talimatları

  • pd.read_csv() argümanlarını tamamlayarak titanic_corrupt.txt dosyasını pandas ile doğru şekilde içe aktar:
    • sep kullanılacak ayırıcıyı ayarlar ve np.loadtxt()'nin delimiter argümanı ile aynı şekilde çalışır. İçe aktardığın dosyanın sekmeyle ayrıldığını unutma.
    • comment dosyada açıklamaların başladığı karakter(ler)i alır; bu durumda '#'.
    • na_values NA/NaN olarak değerlendirilecek dizelerin bir listesini alır; bu durumda 'Nothing' dizesi.
  • Kalan kodu çalıştırarak oluşan DataFrame'in ilk satırlarını yazdır ve Titanic yolcularının 'Age' değişkeninin histogramını çiz.

Uygulamalı interaktif egzersiz

Bu örnek kodu tamamlayarak bu egzersizi bitirin.

# Import matplotlib.pyplot as plt
import matplotlib.pyplot as plt

# Assign filename: file
file = 'titanic_corrupt.txt'

# Import file: data
data = pd.read_csv(file, sep='____', comment='____', na_values=[____])

# Print the head of the DataFrame
print(data.head())

# Plot 'Age' variable in a histogram
pd.DataFrame.hist(data[['Age']])
plt.xlabel('Age (years)')
plt.ylabel('count')
plt.show()
Kodu Düzenle ve Çalıştır