Sélection aléatoire de lignes
Dans cet exercice, vous allez comparer deux méthodes pour sélectionner, avec remise, des lignes (entrées) aléatoires dans un DataFrame pandas :
- La fonction intégrée de
pandas.sample() - Le générateur d’entiers aléatoires de
NumPynp.random.randint()
En statistique et en Machine Learning, on entraîne généralement un algorithme sur 75 % des données disponibles, puis on évalue ses performances sur les 25 % restants.
Pour cet exercice, nous allons échantillonner aléatoirement 75 % de toutes les mains de poker jouées disponibles, en utilisant chacune des méthodes ci-dessus, puis vérifier laquelle est la plus rapide.
Cet exercice fait partie du cours
<cours>Écrire du code efficace avec pandas</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Extract number of rows in dataset
N=poker_hands.shape[0]
# Select and time the selection of the 75% of the dataset's rows
rand_start_time = time.time()
poker_hands.iloc[np.random.randint(____=0, high=____, ____=int(0.75 * N))]
print("Time using Numpy: {} sec".format(time.time() - rand_start_time))