अनाज क्लस्टरिंग का मूल्यांकन

पिछले अभ्यास में, आपने इनर्शिया प्लॉट से देखा था कि अनाज डेटा के लिए 3 क्लस्टर एक अच्छा विकल्प है. वास्तव में, अनाज सैंपल 3 अलग-अलग किस्मों के मिश्रण से आते हैं: "Kama", "Rosa" और "Canadian". इस अभ्यास में, अनाज सैंपलों को तीन क्लस्टरों में बाँटें, और क्रॉस-टैब्यूलेशन का उपयोग करके क्लस्टरों की तुलना अनाज की किस्मों से करें.

आपके पास अनाज सैंपलों का ऐरे samples है, और एक सूची varieties है जो हर सैंपल की अनाज किस्म बताती है. Pandas (pd) और KMeans पहले से इंपोर्ट किए गए हैं.

3 क्लस्टरों वाला model नाम का KMeans मॉडल बनाएँ.
model की .fit_predict() मेथड का उपयोग करके इसे samples पर फिट करें और क्लस्टर लेबल निकालें. .fit_predict() का उपयोग करना .fit() के बाद .predict() करने के बराबर है.
दो कॉलम 'labels' और 'varieties' वाले DataFrame df बनाएँ, जिनमें क्रमशः कॉलम मान के रूप में labels और varieties हों. यह आपके लिए कर दिया गया है.
pd.crosstab() फंक्शन का उपयोग df['labels'] और df['varieties'] पर करें ताकि यह गिने कि हर अनाज किस्म कितनी बार किस क्लस्टर लेबल के साथ मेल खाती है. परिणाम को ct में असाइन करें.
क्रॉस-टैब्यूलेशन देखने के लिए सबमिट करें!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}अभ्यास

निर्देश

अभ्यास