1. Learn
  2. /
  3. कोर्स
  4. /
  5. Python में डेटा आयात का परिचय

Connected

अभ्यास

pandas इम्पोर्ट को कस्टमाइज़ करना

pandas पैकेज डेटा साइंटिस्ट के रूप में डेटा इम्पोर्ट करते समय आने वाली कई समस्याओं से निपटने में बेहतरीन है, जैसे flat files में मौजूद comments, खाली पंक्तियाँ, और missing values (NA या NaN). इस अध्याय को समेटते हुए, आप Titanic डेटासेट की एक करप्ट कॉपी titanic_corrupt.txt इम्पोर्ट करेंगे, जिसमें '#' कैरेक्टर के बाद comments आते हैं, और यह tab-delimited है.

pd.read_csv() के मुख्य आर्ग्युमेंट्स:

  • sep अपेक्षित delimiter सेट करता है.
    • comma-delimited के लिए आप ',' उपयोग कर सकते हैं.
    • tab-delimited के लिए आप '\t' उपयोग कर सकते हैं.
  • comment वह कैरेक्टर लेता है जिसके बाद फ़ाइल में comments आते हैं, यानी इन कैरेक्टर्स से शुरू होने वाला कोई भी टेक्स्ट इग्नोर किया जाएगा.
  • na_values ऐसी strings की सूची लेता है जिन्हें NA/NaN माना जाना चाहिए. डिफ़ॉल्ट रूप से कुछ मान पहले से NA/NaN के रूप में पहचाने जाते हैं. यह आर्ग्युमेंट देने पर आप अतिरिक्त मान निर्दिष्ट कर सकते हैं.

निर्देश

100 XP
  • pd.read_csv() के आर्ग्युमेंट्स पूरी कीजिए ताकि titanic_corrupt.txt को pandas से सही तरह इम्पोर्ट किया जा सके:
    • sep वह delimiter सेट करता है जिसका उपयोग होना है, और यह np.loadtxt() के delimiter आर्ग्युमेंट की तरह ही काम करता है. ध्यान दें कि जो फ़ाइल आप इम्पोर्ट कर रहे हैं वह tab-delimited है.
    • comment उन कैरेक्टर्स को लेता है जिनके बाद फ़ाइल में comments आते हैं — इस केस में '#'.
    • na_values ऐसी strings की सूची लेता है जिन्हें NA/NaN माना जाएगा — इस केस में string 'Nothing'.
  • बाकी कोड चलाइए ताकि प्राप्त DataFrame का head प्रिंट हो और Titanic पर सवार यात्रियों की 'Age' का histogram प्लॉट हो.