TF-IDF van filmplots

Laten we de plots van willekeurig geselecteerde films gebruiken om documentclustering op uit te voeren. Voordat je documenten clustert, moeten ze worden opgeschoond van ongewenste ruis (zoals speciale tekens en stopwoorden) en omgezet in een sparse matrix via TF-IDF van de documenten.

Gebruik de klasse TfidfVectorizer om de TF-IDF van filmplots in de lijst plots uit te voeren. De functie remove_noise() is beschikbaar om te gebruiken als tokenizer in de klasse TfidfVectorizer. De methode .fit_transform() past de data op de TfidfVectorizer-objecten en genereert vervolgens de TF-IDF sparse matrix.

Let op: het uitvoeren van de methode .fit_transform() duurt een paar seconden.

Deze oefening maakt deel uit van de cursus

Clusteranalyse in Python

Oefeninstructies

Importeer de klasse TfidfVectorizer uit sklearn.
Initialiseer de klasse TfidfVectorizer met minimale en maximale frequenties van 0.1 en 0.75, en 50 maximale features.
Gebruik de methode fit_transform() op de geïnitialiseerde klasse TfidfVectorizer met de lijst plots.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import TfidfVectorizer class from sklearn
from sklearn.feature_extraction.text import ____

# Initialize TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer(____)

# Use the .fit_transform() method on the list plots
tfidf_matrix = ____

Code bewerken en uitvoeren

Deze oefening maakt deel uit van de cursus

Clusteranalyse in Python

SkillTag.level.intermediateSkillTag.label

4.8+

Begin gratis met de cursus

Voordat je klaar bent om nieuwsartikelen te classificeren, maak je eerst kennis met de basis van clustering. Dit hoofdstuk laat je kennismaken met een klasse van machinelearning-algoritmen, unsupervised learning, en introduceert vervolgens clustering, een van de populaire unsupervised learning-algoritmen. Je leert over twee veelgebruikte clusteringtechnieken: hiërarchische clustering en k-means clustering. Het hoofdstuk sluit af met basisstappen voor het voorbewerken van data voordat je gaat clusteren.

Exercise 1: Unsupervised learning: de basis Exercise 2: Unsupervised learning in de echte wereld Exercise 3: Pokémon-waarnemingen Exercise 4: Basis van clusteranalyse Exercise 5: Pokémon-waarnemingen: hiërarchisch clusteren Exercise 6: Pokémon-waarnemingen: k-means clustering Exercise 7: Gegevens voorbereiden voor clusteranalyse Exercise 8: Normaliseer eenvoudige lijstgegevens Exercise 9: Genormaliseerde data visualiseren Exercise 10: Normalisatie van kleine getallen Exercise 11: FIFA 18: Gegevens normaliseren

Dit hoofdstuk richt zich op een populair clusteringalgoritme — hiërarchische clustering — en de implementatie ervan in SciPy. Naast de procedure om hiërarchische clustering uit te voeren, helpt het je een belangrijke vraag te beantwoorden: hoeveel clusters zitten er in je data? Het hoofdstuk eindigt met een bespreking van de beperkingen van hiërarchische clustering en aandachtspunten bij het gebruik ervan.

Exercise 1: Basis van hiërarchisch clusteren Exercise 2: Hiërarchische clustering: ward-methode Exercise 3: Hiërarchische clustering: single-methode Exercise 4: Hiërarchische clustering: complete-methode Exercise 5: Clusters visualiseren Exercise 6: Clusters visualiseren met matplotlib Exercise 7: Clusters visualiseren met seaborn Exercise 8: Hoeveel clusters?Exercise 9: Maak een dendrogram Exercise 10: Hoeveel clusters in comic con-gegevens?Exercise 11: Beperkingen van hiërarchisch clusteren Exercise 12: Tijdmeting van hiërarchisch clusteren Exercise 13: FIFA 18: verdedigers verkennen

Dit hoofdstuk introduceert een ander clusteringalgoritme — k-means clustering — en de implementatie ervan in SciPy. K-means clustering pakt het grootste nadeel van hiërarchische clustering aan dat in het vorige hoofdstuk is besproken. Omdat dendrogrammen specifiek zijn voor hiërarchische clustering, bespreekt dit hoofdstuk een methode om het aantal clusters te bepalen voordat je k-means clustering uitvoert. Het hoofdstuk sluit af met een bespreking van de beperkingen van k-means clustering en aandachtspunten bij het gebruik van dit algoritme.

Exercise 1: Basis van k-means clustering Exercise 2: K-means clustering: eerste oefening Exercise 3: Uitvoeringstijd van k-means clustering Exercise 4: Hoeveel clusters?Exercise 5: Elbow-methode op duidelijke clusters Exercise 6: Elbow-methode op uniforme data Exercise 7: Beperkingen van k-means-clustering Exercise 8: Invloed van seeds op verschillende clusters Exercise 9: Uniforme clusterpatronen Exercise 10: FIFA 18: verdedigers opnieuw bekeken

Nu je bekend bent met twee van de meest populaire clusteringtechnieken, helpt dit hoofdstuk je om die kennis toe te passen op realistische problemen. Eerst komt het bepalen van dominante kleuren in een afbeelding aan bod, waarna we teruggaan naar het probleem uit de introductie: het clusteren van nieuwsartikelen. Het hoofdstuk sluit af met een bespreking van clusteren met meerdere variabelen, wat het lastiger maakt om alle data te visualiseren.

Exercise 1: Dominante kleuren in afbeeldingen Exercise 2: RGB-waarden uit een afbeelding halen Exercise 3: Hoeveel dominante kleuren?Exercise 4: Dominante kleuren weergeven Exercise 5: Documentclustering Exercise 6: TF-IDF van filmplots

Huidige oefening

Exercise 7: Toptermen in filmclusters Exercise 8: Clusteren met meerdere kenmerken Exercise 9: Clusteren met veel features Exercise 10: Basistests op clusters Exercise 11: FIFA 18: wat maakt een complete speler?Exercise 12: Tot ziens!