Gegevenstypen
Goed gedaan! Voordat je gaat modelleren, is het belangrijk om te weten dat Spark alleen met numerieke gegevens werkt. Dat betekent dat alle kolommen in je DataFrame ofwel integers ofwel decimalen (in Spark 'doubles' genoemd) moeten zijn.
Toen we onze data importeerden, lieten we Spark raden wat voor informatie elke kolom bevatte. Helaas raadt Spark niet altijd goed, en je ziet dat sommige kolommen in ons DataFrame strings met cijfers zijn in plaats van echte numerieke waarden.
Om dit op te lossen, kun je de methode .cast() gebruiken in combinatie met .withColumn().
Belangrijk: .cast() werkt op kolommen, terwijl .withColumn() op DataFrames werkt.
Het enige argument dat je aan .cast() hoeft mee te geven, is het type waarde dat je wilt maken, als string. Bijvoorbeeld: om integers te maken, geef je het argument "integer" door en voor decimale getallen gebruik je "double".
Je kunt deze aanroep van .cast() binnen een aanroep van .withColumn() plaatsen om de bestaande kolom te overschrijven, net zoals je in het vorige hoofdstuk hebt gedaan!
Welk type data heeft Spark nodig om te modelleren?
Deze oefening maakt deel uit van de cursus
Basis van PySpark
Praktische interactieve oefening
Zet theorie om in actie met een van onze interactieve oefeningen.
Begin met trainen