NMF-features van de Wikipedia-artikelen
Nu ga je de NMF-features verkennen die je in de vorige oefening hebt gemaakt. Een oplossing van de vorige oefening is alvast ingeladen, dus de array nmf_features is beschikbaar. Ook is er een lijst titles met de titel van elk Wikipedia-artikel.
Let bij het onderzoeken van de features op dat voor beide acteurs NMF-feature 3 veruit de hoogste waarde heeft. Dit betekent dat beide artikelen vooral worden gereconstrueerd met de 3e NMF-component. In de volgende video zie je waarom: NMF-componenten stellen onderwerpen voor (bijvoorbeeld acteren!).
Deze oefening maakt deel uit van de cursus
Unsupervised Learning in Python
Oefeninstructies
- Importeer
pandasalspd. - Maak een DataFrame
dfvannmf_featuresmetpd.DataFrame(). Zet de index optitlesmetindex=titles. - Gebruik de
.loc[]-accessor vandfom de rij met titel'Anne Hathaway'te selecteren, en print het resultaat. Dit zijn de NMF-features voor het artikel over de actrice Anne Hathaway. - Herhaal de vorige stap voor
'Denzel Washington'(ook een acteur).
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import pandas
____
# Create a pandas DataFrame: df
df = ____
# Print the row for 'Anne Hathaway'
print(____)
# Print the row for 'Denzel Washington'
print(____)