Clustering Wikipedia – Partea a II-a

A venit momentul să pui la treabă pipeline-ul construit în exercițiul anterior! Ai la dispoziție un array articles cu frecvențele tf-idf ale cuvintelor din câteva articole populare de pe Wikipedia și o listă titles cu titlurile acestora. Folosește pipeline-ul tău pentru a grupa articolele Wikipedia în clustere.

Soluția exercițiului anterior a fost preîncărcată, astfel că un Pipeline pipeline care înlănțuie TruncatedSVD cu KMeans este deja disponibil.

Importă pandas ca pd.
Antrenează pipeline-ul pe matricea de frecvențe ale cuvintelor articles.
Prezice etichetele clusterelor.
Alinierea etichetelor clusterelor cu lista titles a titlurilor articolelor, prin crearea unui DataFrame df cu coloanele labels și titles, a fost deja realizată pentru tine.
Folosește metoda .sort_values() a lui df pentru a sorta DataFrame-ul după coloana 'label' și afișează rezultatul.
Apasă Trimite răspunsul și ia-ți un moment să explorezi rezultatul impresionant al grupării articolelor Wikipedia!

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}exercițiu

Instrucțiuni

exercițiu