or
Deze oefening maakt deel uit van de cursus
Spark is een framework om met Big Data te werken. In dit hoofdstuk behandel je wat achtergrond over Spark en Machine Learning. Daarna leer je hoe je via Python verbinding maakt met Spark en CSV-data laadt.
Nu je weet hoe je data in Spark krijgt, ga je twee soorten classificatiemodel bouwen: beslissingsbomen en logistische regressie. Je ontdekt ook een paar aanpakken voor datapreparatie.
Vervolgens leer je Lineaire Regressiemodellen maken. Ook ontdek je hoe je je data kunt uitbreiden door nieuwe voorspellers te engineeren en een robuuste aanpak om alleen de meest relevante voorspellers te selecteren.
Tot slot leer je hoe je je modellen efficiënter maakt. Je ziet hoe je pipelines gebruikt om je code duidelijker en makkelijker te onderhouden. Daarna gebruik je cross-validatie om je modellen beter te testen en goede modelparameters te kiezen. Ten slotte ga je aan de slag met twee soorten ensemblemodellen.
Huidige oefening