NMF leert onderwerpen van documenten

In de video heb je geleerd dat wanneer NMF wordt toegepast op documenten, de componenten overeenkomen met onderwerpen, en dat de NMF-features de documenten vanuit die onderwerpen reconstrueren. Controleer dit zelf voor het NMF-model dat je eerder met de Wikipedia-artikelen hebt gebouwd. Eerder zag je dat de 3e NMF-featurewaarde hoog was voor de artikelen over de acteurs Anne Hathaway en Denzel Washington. Identificeer in deze oefening het onderwerp van de bijbehorende NMF-component.

Het NMF-model dat je eerder hebt gebouwd is beschikbaar als model, terwijl words een lijst is met de woorden die de kolommen van de woordfrequentie-array labelen.

Als je klaar bent, sta dan even stil bij het onderwerp dat de artikelen over Anne Hathaway en Denzel Washington gemeen hebben!

Deze oefening maakt deel uit van de cursus

Unsupervised Learning in Python

Oefeninstructies

Importeer pandas als pd.
Maak een DataFrame components_df van model.components_ en zet columns=words zodat de kolommen door de woorden gelabeld zijn.
Print components_df.shape om de afmetingen van de DataFrame te controleren.
Gebruik de .iloc[]-toegangsfunctie op de DataFrame components_df om rij 3 te selecteren. Ken het resultaat toe aan component.
Roep de methode .nlargest() aan op component en print het resultaat. Dit geeft de vijf woorden met de hoogste waarden voor die component.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import pandas
import pandas as pd

# Create a DataFrame: components_df
components_df = ____

# Print the shape of the DataFrame
print(components_df.shape)

# Select row 3: component
component = ____

# Print result of nlargest
print(component.nlargest())

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Unsupervised Learning in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Leer hoe je de onderliggende groepen (of "clusters") in een gegevensset ontdekt. Aan het einde van dit hoofdstuk cluster je bedrijven op basis van hun aandelenkoersen en onderscheid je soorten door hun metingen te clusteren.

Exercise 1: Unsupervised Learning Exercise 2: Hoeveel clusters?Exercise 3: Clusteren van 2D-punten Exercise 4: Bekijk je clustering Exercise 5: Een clustering evalueren Exercise 6: Hoeveel graanclusters?Exercise 7: De graanclustering evalueren Exercise 8: Features transformeren voor betere clusterings Exercise 9: Vissengegevens schalen voor clustering Exercise 10: Clusteren van de visgegevens Exercise 11: Aandelen clusteren met KMeans Exercise 12: Welke aandelen bewegen samen?

In dit hoofdstuk leer je twee unsupervised learning-technieken voor datavisualisatie: hiërarchisch clusteren en t-SNE. Hiërarchisch clusteren voegt datasamples samen tot steeds grovere clusters en levert zo een boomvisualisatie van de clustergelaagdheid op. t-SNE projecteert de datasamples in 2D-ruimte zodat je hun onderlinge nabijheid kunt visualiseren.

Exercise 1: Hiërarchieën visualiseren Exercise 2: Hoeveel samenvoegingen?Exercise 3: Hiërarchische clustering van de graangegevens Exercise 4: Hiërarchieën van aandelen Exercise 5: Clusterlabels bij hiërarchisch clusteren Exercise 6: Welke clusters liggen het dichtst bij elkaar?Exercise 7: Andere linkage, andere hiërarchische clustering!Exercise 8: Tussenliggende clusterings Exercise 9: Clusteringlabels extraheren Exercise 10: t-SNE voor 2D-kaarten Exercise 11: t-SNE-visualisatie van graangegevensset Exercise 12: Een t-SNE-kaart van de aandelenmarkt

Dimensiereductie vat een gegevensset samen via veelvoorkomende patronen. In dit hoofdstuk leer je de belangrijkste techniek voor dimensiereductie kennen: "Principal Component Analysis" ("PCA"). PCA wordt vaak vóór supervised learning gebruikt om de modelprestatie en generalisatie te verbeteren. Het is ook nuttig voor unsupervised learning. Je gebruikt bijvoorbeeld een variant van PCA waarmee je Wikipedia-artikelen op basis van hun inhoud kunt clusteren!

Exercise 1: De PCA-transformatie visualiseren Exercise 2: Gecorreleerde data in de natuur Exercise 3: Met PCA de korrelmetingen decorreleren Exercise 4: Hoofdcomponenten Exercise 5: Intrinsieke dimensie Exercise 6: De eerste hoofcomponent Exercise 7: Variantie van de PCA-features Exercise 8: Intrinsieke dimensie van de visgegevens Exercise 9: Dimensiereductie met PCA Exercise 10: Dimensiereductie van de vismetingen Exercise 11: Een tf-idf-woordfrequentie-array Exercise 12: Wikipedia clusteren, deel I Exercise 13: Wikipedia clusteren, deel II

In dit hoofdstuk maak je kennis met een techniek voor dimensiereductie, "Non-negative matrix factorization" ("NMF"), die samples uitdrukt als combinaties van interpreteerbare onderdelen. Zo kun je documenten weergeven als combinaties van onderwerpen en afbeeldingen als veelvoorkomende visuele patronen. Je leert ook NMF gebruiken om aanbevelingssystemen te bouwen die vergelijkbare artikelen kunnen vinden om te lezen, of muzikale artiesten die passen bij je luistergeschiedenis!

Exercise 1: Niet-negatieve matrixfactorisatie (NMF)Exercise 2: Niet-negatieve data Exercise 3: NMF toegepast op Wikipedia-artikelen Exercise 4: NMF-features van de Wikipedia-artikelen Exercise 5: NMF reconstrueert steekproeven Exercise 6: NMF leert interpreteerbare onderdelen Exercise 7: NMF leert onderwerpen van documenten

Huidige oefening

Exercise 8: Verken de LED-cijferdataset Exercise 9: NMF leert de delen van afbeeldingen Exercise 10: PCA leert geen delen Exercise 11: Aanbevelingssystemen bouwen met NMF Exercise 12: Welke artikelen lijken op 'Cristiano Ronaldo'?Exercise 13: Muziekaartiesten aanbevelen deel I Exercise 14: Muziekartiesten aanbevelen, deel II Exercise 15: Tot slot