Sélection aléatoire de lignes

Dans cet exercice, vous allez comparer deux méthodes pour sélectionner, avec remise, des lignes (entrées) aléatoires dans un DataFrame pandas :

La fonction intégrée de pandas .sample()
Le générateur d’entiers aléatoires de NumPy np.random.randint()

En statistique et en Machine Learning, on entraîne généralement un algorithme sur 75 % des données disponibles, puis on évalue ses performances sur les 25 % restants.

Pour cet exercice, nous allons échantillonner aléatoirement 75 % de toutes les mains de poker jouées disponibles, en utilisant chacune des méthodes ci-dessus, puis vérifier laquelle est la plus rapide.

Cet exercice fait partie du cours

<cours>Écrire du code efficace avec pandas</cours>

Voir le cours

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Extract number of rows in dataset
N=poker_hands.shape[0]

# Select and time the selection of the 75% of the dataset's rows
rand_start_time = time.time()
poker_hands.iloc[np.random.randint(____=0, high=____, ____=int(0.75 * N))]
print("Time using Numpy: {} sec".format(time.time() - rand_start_time))

Modifier et exécuter le code