pandas içe aktarımını özelleştirme
pandas paketi, bir veri bilimci olarak veri içe aktarırken karşılaşacağın birçok sorunla başa çıkmada harikadır; örneğin düz dosyalardaki açıklama satırları, boş satırlar ve eksik değerler (NA veya NaN). Bu bölümü bitirirken, '#' karakterinden sonra açıklamalar içeren ve sekme ile ayrılmış bozuk bir Titanic veri kümesi kopyasını (titanic_corrupt.txt) içe aktaracaksın.
pd.read_csv() için önemli argümanlar şunlardır:
sepbeklenen ayırıcıyı ayarlar.- Virgülle ayrılmış dosyalar için
','kullanabilirsin. - Sekmeyle ayrılmış dosyalar için
'\t'kullanabilirsin.
- Virgülle ayrılmış dosyalar için
commentdosyada açıklamaların başladığı karakter(ler)i alır; bu karakterlerle başlayan metinlerin yoksayılması gerektiğini belirtir.na_valuesNA/NaNolarak tanımlanacak dizelerin bir listesini alır. Varsayılan olarak bazı değerler zatenNA/NaNolarak tanınır. Bu argümanı vermek, ek değerler sağlar.
Bu egzersiz
Python'da Veri Aktarmaya Giriş
kursunun bir parçasıdırEgzersiz talimatları
pd.read_csv()argümanlarını tamamlayaraktitanic_corrupt.txtdosyasını pandas ile doğru şekilde içe aktar:sepkullanılacak ayırıcıyı ayarlar venp.loadtxt()'nindelimiterargümanı ile aynı şekilde çalışır. İçe aktardığın dosyanın sekmeyle ayrıldığını unutma.commentdosyada açıklamaların başladığı karakter(ler)i alır; bu durumda'#'.na_valuesNA/NaNolarak değerlendirilecek dizelerin bir listesini alır; bu durumda'Nothing'dizesi.
- Kalan kodu çalıştırarak oluşan DataFrame'in ilk satırlarını yazdır ve Titanic yolcularının
'Age'değişkeninin histogramını çiz.
Uygulamalı interaktif egzersiz
Bu örnek kodu tamamlayarak bu egzersizi bitirin.
# Import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
# Assign filename: file
file = 'titanic_corrupt.txt'
# Import file: data
data = pd.read_csv(file, sep='____', comment='____', na_values=[____])
# Print the head of the DataFrame
print(data.head())
# Plot 'Age' variable in a histogram
pd.DataFrame.hist(data[['Age']])
plt.xlabel('Age (years)')
plt.ylabel('count')
plt.show()