Sélection aléatoire de lignes
Dans cet exercice, vous allez comparer deux méthodes pour sélectionner, avec remise, des lignes (entrées) aléatoires dans un DataFrame pandas :
- La fonction intégrée de
pandas.sample() - Le générateur d’entiers aléatoires de
NumPynp.random.randint()
En statistique et en Machine Learning, on entraîne généralement un algorithme sur 75 % des données disponibles, puis on évalue ses performances sur les 25 % restants.
Pour cet exercice, nous allons échantillonner aléatoirement 75 % de toutes les mains de poker jouées disponibles, en utilisant chacune des méthodes ci-dessus, puis vérifier laquelle est la plus rapide.
Cet exercice fait partie du cours
Écrire du code efficace avec pandas
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Extract number of rows in dataset
N=poker_hands.shape[0]
# Select and time the selection of the 75% of the dataset's rows
rand_start_time = time.time()
poker_hands.iloc[np.random.randint(____=0, high=____, ____=int(0.75 * N))]
print("Time using Numpy: {} sec".format(time.time() - rand_start_time))