1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tư duy Thống kê với Python (Phần 1)

Connected

Bài tập

Vẽ biểu đồ tần suất cho dữ liệu iris

Trong các bài tập của phần này, bạn sẽ sử dụng một bộ dữ liệu kinh điển do nhà thực vật học Edward Anderson thu thập và được Ronald Fisher — một trong những nhà thống kê học có nhiều đóng góp nhất trong lịch sử — phổ biến rộng rãi. Anderson đã đo đạc cẩn thận các đặc tính giải phẫu của mẫu thuộc ba loài iris khác nhau: Iris setosa, Iris versicolor và Iris virginica. Toàn bộ dữ liệu có sẵn trong scikit-learn. Ở đây, bạn sẽ làm việc với các phép đo chiều dài cánh hoa (petal).

Hãy vẽ biểu đồ tần suất (histogram) của chiều dài cánh hoa từ 50 mẫu Iris versicolor sử dụng thiết lập mặc định của matplotlib/seaborn. Nhắc lại: để đặt kiểu mặc định của seaborn, bạn có thể dùng sns.set(), trong đó sns là bí danh khi import seaborn.

Phần dữ liệu con chứa chiều dài cánh hoa của Iris versicolor tính theo xentimét (cm) được lưu trong mảng NumPy versicolor_petal_length.

Trong video, Justin đã vẽ histogram bằng thư viện pandas và đánh chỉ mục DataFrame để trích xuất cột mong muốn. Tuy nhiên, ở đây bạn chỉ cần dùng mảng NumPy đã cung cấp. Ngoài ra, Justin gán các lệnh vẽ (trừ plt.show()) cho biến giả _. Mục đích là để tránh hiển thị các đầu ra không cần thiết. Điều này không bắt buộc cho lời giải của bạn, nhưng là một thói quen tốt. Hoặc, nếu bạn làm việc trong môi trường tương tác như Jupyter notebook, bạn có thể đặt dấu ; sau các lệnh vẽ để đạt hiệu quả tương tự. Justin thích dùng _, vì vậy bạn sẽ thấy nó xuất hiện trong mã lời giải.

Hướng dẫn

100 XP
  • Import matplotlib.pyplot và seaborn với các bí danh quen thuộc (plt và sns).
  • Dùng seaborn để đặt thiết lập vẽ mặc định.
  • Vẽ biểu đồ tần suất cho chiều dài cánh hoa Iris versicolor bằng plt.hist() với mảng NumPy versicolor_petal_length đã cho.
  • Hiển thị biểu đồ bằng plt.show().