1. Nauka
  2. /
  3. Kursy
  4. /
  5. Uczenie nienadzorowane w Pythonie

Connected

ćwiczenie

Grupowanie artykułów Wikipedii – część II

Czas wykorzystać potok zbudowany w poprzednim ćwiczeniu! Masz do dyspozycji tablicę articles z częstościami słów w postaci tf-idf dla wybranych popularnych artykułów z Wikipedii oraz listę titles z ich tytułami. Użyj swojego potoku, aby pogrupować te artykuły.

Rozwiązanie poprzedniego ćwiczenia zostało już wczytane, więc potok pipeline łączący TruncatedSVD z KMeans jest gotowy do użycia.

Instrukcje

100 XP
  • Zaimportuj pandas jako pd.
  • Dopasuj potok do tablicy częstości słów articles.
  • Przewidź etykiety skupień.
  • Połącz etykiety skupień z listą tytułów artykułów titles, tworząc ramkę danych df z kolumnami labels i titles. Ten krok został już wykonany za ciebie.
  • Użyj metody .sort_values() na df, aby posortować ramkę danych według kolumny 'label', i wydrukuj wynik.
  • Kliknij Prześlij odpowiedź i poświęć chwilę, żeby przyjrzeć się efektom grupowania artykułów Wikipedii!