1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Tư duy Thống kê với Python (Phần 2)

Connected

Bài tập

Tần suất xảy ra no-hitter là bao nhiêu?

Số trận đấu diễn ra giữa mỗi lần no-hitter trong kỷ nguyên hiện đại (1901–2015) của Major League Baseball được lưu trong mảng nohitter_times.

Nếu giả sử no-hitter tuân theo một quá trình Poisson, thì thời gian giữa các lần no-hitter có phân phối Exponential. Như bạn đã thấy, phân phối Exponential có một tham số duy nhất, ta gọi là \(\tau\), thời gian khoảng cách điển hình. Giá trị tham số \(\tau\) giúp phân phối Exponential khớp dữ liệu tốt nhất chính là thời gian khoảng cách trung bình (đơn vị là số trận) giữa các no-hitter.

Hãy tính giá trị tham số này từ dữ liệu. Sau đó, dùng np.random.exponential() để “lặp lại” lịch sử của Major League Baseball bằng cách rút các khoảng thời gian giữa các lần no-hitter từ một phân phối Exponential với \(\tau\) bạn đã tìm được và vẽ biểu đồ histogram như một xấp xỉ cho PDF.

NumPy, pandas, matplotlib.pyplot và seaborn đã được nhập sẵn với các bí danh np, pd, plt và sns.

Hướng dẫn

100 XP
  • Đặt hạt cho bộ sinh số ngẫu nhiên với 42.
  • Tính thời gian trung bình (đơn vị là số trận) giữa các lần no-hitter.
  • Lấy 100.000 mẫu từ phân phối Exponential với tham số bạn tính được từ trung bình của các khoảng thời gian giữa no-hitter.
  • Vẽ PDF lý thuyết bằng plt.hist(). Nhớ dùng các đối số từ khóa bins=50, normed=True, và histtype='step'. Nhớ gắn nhãn cho các trục.
  • Hiển thị biểu đồ của bạn.