Aan de slagGa gratis aan de slag

Gegevens splitsen in training en testing

Laatste stap voordat we het regressiemodel gaan bouwen! Hier volg je de stappen om de namen van de doelvariabele en de featurekolommen te bepalen, de gegevens te extraheren en ze te splitsen in training en testing.

De bibliotheken pandas en numpy zijn respectievelijk geladen als pd en np. De invoerkenmerken zijn geïmporteerd als de features-gegevensset, en de doelvariabele die je in de vorige oefening hebt gebouwd is voor je geïmporteerd als Y.

Deze oefening maakt deel uit van de cursus

Machine Learning voor marketing in Python

Cursus bekijken

Oefeninstructies

  • Sla de kolomnaam van de klant-ID op als een lijst.
  • Selecteer de namen van de featurekolommen, met uitzondering van de klant-ID.
  • Extraheer de features als X.
  • Splits de gegevens in training en testing met de functie train_test_split().

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Store customer identifier column name as a list
custid = ['___']

# Select feature column names excluding customer identifier
cols = [col for col in features.___ if col not in ___]

# Extract the features as `X`
X = features[___]

# Split data to training and testing
___, test_X, train_Y, ___ = ___(X, Y, test_size=0.25, random_state=99)
Code bewerken en uitvoeren