1. Learn
  2. /
  3. Cursuri
  4. /
  5. Învățare nesupervizată în Python

Connected

exercițiu

Clustering Wikipedia – Partea a II-a

A venit momentul să pui la treabă pipeline-ul construit în exercițiul anterior! Ai la dispoziție un array articles cu frecvențele tf-idf ale cuvintelor din câteva articole populare de pe Wikipedia și o listă titles cu titlurile acestora. Folosește pipeline-ul tău pentru a grupa articolele Wikipedia în clustere.

Soluția exercițiului anterior a fost preîncărcată, astfel că un Pipeline pipeline care înlănțuie TruncatedSVD cu KMeans este deja disponibil.

Instrucțiuni

100 XP
  • Importă pandas ca pd.
  • Antrenează pipeline-ul pe matricea de frecvențe ale cuvintelor articles.
  • Prezice etichetele clusterelor.
  • Alinierea etichetelor clusterelor cu lista titles a titlurilor articolelor, prin crearea unui DataFrame df cu coloanele labels și titles, a fost deja realizată pentru tine.
  • Folosește metoda .sort_values() a lui df pentru a sorta DataFrame-ul după coloana 'label' și afișează rezultatul.
  • Apasă Trimite răspunsul și ia-ți un moment să explorezi rezultatul impresionant al grupării articolelor Wikipedia!