So sánh độ rủi ro khi phương sai và độ lệch chuẩn, khoảng biến thiên giống nhau?
khi phương sai và độ lệch chuẩn giống nhau, khoảng biến thiên giống nhau, nhưng tần số phân bố khác nhau, thì ta khó dùng các chỉ số thông thường để phân biệt rủi ro.
Vậy phải làm sao?
✅ Nếu phương sai, độ lệch chuẩn và khoảng biến thiên đều giống nhau, ta làm gì để so sánh rủi ro?
👉 Ta cần xem xét dạng phân bố (hình dạng) của dữ liệu:
Dưới đây là các cách tiếp cận:
🔹 1. Phân bố có tập trung (peakedness) khác nhau — dùng Kurtosis (độ nhọn)
-
Kurtosis đo mức độ tập trung dữ liệu quanh trung bình.
-
Nếu một mẫu có kurtosis thấp ⇒ dữ liệu phân tán đều hơn ⇒ rủi ro cao hơn (vì nhiều giá trị ở xa trung bình hơn).
-
Nếu kurtosis cao ⇒ dữ liệu tập trung chặt quanh trung bình ⇒ rủi ro thấp hơn.
Ví dụ:
Mẫu A | Phân bố đều |
---|---|
Mẫu B | Phân bố tập trung quanh trung bình (kurtosis cao) |
→ Mẫu B ít rủi ro hơn, dù độ lệch chuẩn bằng nhau.
🔹 2. Độ lệch phân bố – dùng Skewness (độ lệch)
-
Skewness đo độ lệch về bên trái hoặc phải.
-
Một mẫu bị lệch (ví dụ skewed to the left or right) có thể có nhiều giá trị cực đoan hơn về một phía, làm tăng tính bất định về phía đó ⇒ rủi ro tiềm ẩn cao hơn.
🔹 3. So sánh rủi ro trong ngữ cảnh cụ thể (contextual risk)
-
Trong tài chính chẳng hạn: cùng một độ lệch chuẩn, nhưng nếu một mẫu có nhiều giá trị âm (lỗ) hơn, thì mẫu đó rủi ro hơn về mặt tài chính, dù độ phân tán là như nhau.
-
Vì vậy, nội dung của các giá trị cũng quan trọng, không chỉ các chỉ số thống kê.
🧠 Tóm lại:
Nếu hai mẫu có cùng độ lệch chuẩn, phương sai, và khoảng biến thiên, thì:
-
So sánh rủi ro cần dựa vào các chỉ số cao hơn như:
-
Kurtosis: mẫu nào có kurtosis thấp hơn ⇒ rủi ro cao hơn
-
Skewness: mẫu lệch về một phía (đặc biệt là lệch âm) có thể rủi ro hơn
-
-
Ngoài ra, phải xét cả ngữ cảnh ứng dụng của dữ liệu (ví dụ: trong đầu tư, mẫu có nhiều giá trị âm vẫn rủi ro hơn dù độ lệch chuẩn giống nhau)
hai tập dữ liệu có cùng phương sai, độ lệch chuẩn và khoảng biến thiên, nhưng rủi ro thực tế khác nhau.
🎯 Ví dụ minh họa
🟦 Mẫu A (phân bố tập trung quanh trung bình):
🟥 Mẫu B (phân bố dàn trải):
📊 Tính toán nhanh:
Cả hai mẫu đều có:
-
Trung bình (mean) ≈ 50
-
Phương sai ≈ 25
-
Độ lệch chuẩn ≈ 5
-
Khoảng biến thiên = 70 - 30 = 40
🎯 Nhưng sự phân bố khác nhau:
Đặc điểm | Mẫu A (tập trung) | Mẫu B (dàn trải) |
---|---|---|
Kurtosis | Cao (phân bố nhọn) | Thấp (phân bố bẹt) |
Skewness | ≈ 0 (đối xứng) | ≈ 0 (đối xứng) |
Giá trị cực đoan | Ít (rất ít lệch xa 50) | Nhiều (có 30, 70 cách xa 50) |
Rủi ro thực tế | Thấp hơn | Cao hơn |
✅ Giải thích:
-
Dù phương sai giống nhau, Mẫu B có nhiều giá trị xa trung bình hơn (30 và 70 xuất hiện nhiều hơn).
-
Điều này tạo ra nhiều khả năng mất mát lớn (rủi ro) nếu bạn đang dùng mẫu này để ước đoán trong đầu tư, chất lượng sản phẩm, v.v.
🧠 Kết luận:
Hai mẫu có thể giống nhau hoàn toàn về phương sai, độ lệch chuẩn, khoảng biến thiên, nhưng rủi ro thực tế khác nhau do:
-
Phân bố dàn trải hơn
-
Nhiều giá trị cực đoan hơn
-
Tập trung dữ liệu thấp hơn quanh trung bình