Note này dùng để ghi lại những quotes/luận điểm đáng chú ý trong sách. Quyển này viết khá hay để giải thích những hiểu lầm / cố tình gây hiểu lầm khi sử dụng toán học (nhất là các khái niệm thống kê). Tôi buộc phải ghi lại, nếu chỉ đọc thoáng qua sẽ rất phí.
Note này tôi ghi cho chính mình để gợi nhớ lại những điểm chính trong sách. Tôi khuyên bạn nên đọc sách này.
Tôi chỉ note những ý thú vị, có khá nhiều ý / chương tôi đã bỏ qua.
Toán học không chỉ là các tính toán theo thói quen cho đến khi em mất kiên nhẫn, dù có thể đó là cách em được dạy. Vai trò của tích phân trong toán học tương tự như vai trò của nâng tạ trong bóng đá. Để chơi bóng đá nghiêm túc, em phải thực hiện nhiều bài tập lặp đi lặp lại, có vẻ vô nghĩa. Cầu thủ chuyên nghiệp không trực tiếp sử dụng các bài tập đó khi thi đấu - không ai nâng tạ hay chạy zigzag giữa trận. Nhưng họ dùng sức mạnh, tốc độ và sự linh hoạt có được từ những bài tập đó. Đây là một phần không thể thiếu của việc luyện tập. Toán học cũng vậy. Em có thể không theo đuổi nghề toán học, điều đó bình thường. Nhưng em vẫn làm toán, có thể ngay cả khi không gọi đó là toán. Toán học là thành phần thiết yếu trong lập luận của chúng ta và giúp em giỏi hơn trong mọi việc. Hiểu biết về toán như đeo kính X-quang giúp nhìn thấu cấu trúc bên dưới mặt hỗn loạn của thế giới. Toán học giúp tránh sai lầm, với kỹ thuật được đúc kết qua nhiều thế kỷ. Với công cụ toán học, em hiểu thế giới sâu sắc hơn. Tất cả những gì em cần là một người hướng dẫn. Tôi sẽ là thầy của em.
Câu chuyện về Abraham Wald và những lỗ đạn còn thiếu minh họa một sai lầm phổ biến khi phân tích dữ liệu, gọi là thiên lệch kẻ sống sót (survivorship bias).
Trong Thế chiến II, quân đội Mỹ muốn gia cố thêm giáp cho máy bay để giảm thiệt hại khi chiến đấu. Họ thu thập dữ liệu từ các máy bay quay trở về, nhận thấy phần thân máy bay có nhiều lỗ đạn, trong khi động cơ lại ít bị trúng đạn. Ban đầu, các chỉ huy nghĩ rằng nên gia cố các khu vực có nhiều lỗ đạn nhất.
Nhưng Abraham Wald, một nhà toán học, chỉ ra rằng đó là một sai lầm. Ông lập luận rằng dữ liệu chỉ đến từ những máy bay sống sót quay về, còn những máy bay bị bắn hạ thì không được thống kê. Do đó, những khu vực không có nhiều lỗ đạn trên máy bay quay về chính là những điểm yếu chết người – khi bị bắn trúng, máy bay sẽ không thể quay về được.
Từ đó, quân đội quyết định gia cố giáp cho các khu vực có ít lỗ đạn, đặc biệt là động cơ, giúp tăng tỷ lệ sống sót của máy bay.
Bài học rút ra: Không chỉ nhìn vào dữ liệu có sẵn mà cần suy nghĩ về những dữ liệu bị thiếu để tránh đưa ra kết luận sai lầm.
Cũng minh hoạ cho thiên lệch kẻ sống sót. Quỹ tương hỗ (mutual fund) là một loại quỹ đầu tư tập hợp tiền từ nhiều nhà đầu tư để mua một danh mục đa dạng các tài sản như cổ phiếu, trái phiếu, hoặc các công cụ tài chính khác. Quỹ này do các công ty quản lý quỹ điều hành và các nhà đầu tư sở hữu cổ phần trong quỹ thay vì trực tiếp sở hữu từng tài sản riêng lẻ.
Các quỹ có hiệu suất kém thường bị giải thể, nên khi chỉ xem xét các quỹ còn tồn tại, ta có thể đánh giá quá cao hiệu suất thực sự của toàn bộ thị trường.
Tại sao Obama cố làm cho nước Mỹ giống Thuỵ Điển hơn trong khi Thuỵ Điển lại cố gắng bớt giống Thuỵ Điển? — Daniel J. Mitchell của Viện Cato.
- TĐ có phúc lợi tốt như vậy lại đang cắt giảm mà US lại đẩy mạnh tăng phúc lợi xã hội?
Vào năm 1974, nhà kinh tế học Arthur Laffer ngồi ăn tối với Dick Cheney, Donald Rumsfeld, và Jude Wanniski tại một nhà hàng ở Washington, D.C. Trong lúc tranh luận về chính sách thuế của Tổng thống Gerald Ford, Laffer vẽ một đường cong đơn giản lên khăn ăn để minh họa một ý tưởng quan trọng:
- Nếu thuế suất = 0%, chính phủ không thu được tiền thuế.
- Nếu thuế suất = 100%, không ai có động lực làm việc, nên chính phủ cũng không thu được thuế.
- Giữa hai mức này, có một điểm tối ưu mà tại đó thu ngân sách đạt mức cao nhất.
Laffer lập luận rằng nếu thuế suất quá cao, giảm thuế có thể thực sự tăng thu ngân sách, vì sẽ khuyến khích người dân làm việc, đầu tư, và chi tiêu nhiều hơn.
Ý nghĩa và tranh cãi
- Laffer không phải là người đầu tiên đưa ra ý tưởng này, nhưng cách trình bày đơn giản của ông giúp nó trở nên nổi tiếng.
- Chính quyền Ronald Reagan sau đó sử dụng lý thuyết này để biện minh cho chính sách cắt giảm thuế mạnh mẽ.
- Tuy nhiên, nhiều nhà kinh tế cho rằng đường cong Laffer không phải lúc nào cũng đúng, vì hiệu ứng này chỉ xảy ra ở mức thuế rất cao.
Bài học từ câu chuyện
- Không phải lúc nào giảm thuế cũng làm tăng thu ngân sách—hiệu quả phụ thuộc vào mức thuế ban đầu.
- Tư duy phi tuyến là quan trọng—nhiều vấn đề kinh tế không thể giải quyết bằng cách chỉ tăng hoặc giảm một yếu tố theo một đường thẳng.
(Tôi không note Chương 2)
Tác giả đề cập đến một nghiên cứu trên tạp chí Béo phì của Youfa Wang và cộng sự, trong đó họ sử dụng hồi quy tuyến tính để dự đoán rằng đến năm 2048, 100% người Mỹ sẽ bị thừa cân hoặc béo phì.
Ellenberg chỉ ra rằng đây là một cách tiếp cận sai lầm, vì:
- Xu hướng không thể kéo dài mãi mãi theo đường thẳng – Nếu theo mô hình này, đến năm 2060 sẽ có 109% dân số bị thừa cân, điều này vô lý .
- Tốc độ tăng béo phì sẽ chậm dần – Khi tỷ lệ béo phì tăng, càng ít người còn lại để bị béo, và thực tế, dữ liệu sau này đã cho thấy tốc độ gia tăng béo phì đã giảm .
- Hồi quy tuyến tính không phù hợp – Việc áp dụng mô hình tuyến tính cho một xu hướng phi tuyến như béo phì dẫn đến dự đoán phi thực tế.
Tác giả lấy ví dụ về tỷ lệ béo phì của người da đen để chỉ ra sự mâu thuẫn trong mô hình hồi quy tuyến tính của nghiên cứu về béo phì.
Theo nghiên cứu của Wang và cộng sự, người da đen có tỷ lệ béo phì thấp hơn so với trung bình người Mỹ, và tốc độ tăng béo phì của họ cũng chậm hơn một nửa so với mức trung bình. Khi áp dụng mô hình hồi quy tuyến tính vào nhóm này, kết quả cho thấy:
- Đến năm 2048, chỉ 80% người da đen bị béo phì.
- Đến năm 2095, 100% người da đen sẽ béo phì.
Tác giả chỉ ra rằng đây là một nghịch lý toán học: Nếu mô hình dự đoán rằng 100% người Mỹ sẽ béo phì vào năm 2048, nhưng vào cùng thời điểm, vẫn còn 20% người da đen chưa bị béo phì, thì điều đó có nghĩa là những người này… không còn tồn tại trong dân số Mỹ?
Bài học rút ra
- Không thể áp dụng mô hình tuyến tính một cách máy móc để dự đoán các xu hướng trong thực tế.
- Cần xem xét giới hạn tự nhiên và tính phi tuyến của dữ liệu trước khi đưa ra dự đoán.
- Không phải cứ thấy xu hướng tăng là có thể kéo dài mãi mãi theo cùng một tốc độ.
Trong chương này, tác giả Jordan Ellenberg phê phán một lập luận sai lệch phổ biến trong truyền thông và chính trị: việc so sánh số người chết ở các quốc gia khác nhau bằng cách quy đổi dựa trên tỷ lệ dân số.
Đại ý của lập luận sai lệch này là:
- Khi một sự kiện bạo lực xảy ra ở một quốc gia nhỏ (như Israel), các nhà bình luận thường quy đổi số người chết theo tỷ lệ dân số để so sánh với quốc gia lớn hơn (như Mỹ). Ví dụ: "1.074 người Israel bị giết tương đương với 50.000 người Mỹ".
- Tác giả chỉ ra rằng cách tính này là một ví dụ của "chủ nghĩa tuyến tính" phi lý, vì nếu áp dụng triệt để, nó sẽ dẫn đến những kết luận phi lý như "một vụ đánh nhau trong quán bar giữa hai người sẽ tương đương với 150 triệu người Mỹ bị đấm vào mặt".
- Ellenberg cũng chỉ ra rằng cùng một sự kiện có thể được quy đổi theo nhiều cách khác nhau (theo dân số quốc gia, thành phố, tỉnh) và cho ra những kết quả khác nhau, chứng tỏ phương pháp này không đáng tin cậy.
Kết luận của tác giả là: nếu bạn muốn hiểu ý nghĩa của một thảm kịch, hãy hiểu nó đúng như bản chất của nó, thay vì cố gắng quy đổi sang một tỷ lệ phi thực tế. Ông viết: "Nếu bạn muốn tưởng tượng việc hai mươi sáu người bị giết có ý nghĩa gì, hãy tưởng tượng việc hai mươi sáu người bị giết - không phải tại nơi cách bạn nửa vòng Trái đất mà là ngay trong chính thành phố của bạn."
Tác giả Jordan Ellenberg không phủ nhận hoàn toàn giá trị của tỷ lệ trong phân tích dữ liệu. Ông sử dụng ví dụ về tỷ lệ ung thư não giữa các bang ở Mỹ để minh họa cho điểm này:
- Khi xem xét số ca tử vong do ung thư não theo con số tuyệt đối, các bang lớn như California, Texas, New York và Florida luôn đứng đầu - không phải vì họ có vấn đề ung thư não nghiêm trọng mà đơn giản vì dân số của họ lớn hơn.
- Khi chuyển sang phân tích theo tỷ lệ (số ca tử vong trên 100.000 người), bức tranh thay đổi hoàn toàn. Bất ngờ là các bang nhỏ như Nam Dakota, Nebraska, Alaska, Delaware và Maine lại xuất hiện ở đầu bảng xếp hạng với tỷ lệ cao nhất.
- Tương tự, các bang có tỷ lệ thấp nhất lại là Wyoming, Vermont, Bắc Dakota, Hawaii và Quận Colombia - cũng toàn là những nơi có dân số thấp.
- Ellenberg chỉ ra rằng đây không phải do các bang nhỏ thực sự có vấn đề ung thư não nghiêm trọng hơn, mà là minh họa cho Luật Số Lớn (Law of Large Numbers): các mẫu nhỏ hơn có xu hướng dao động mạnh hơn, trong khi các mẫu lớn hơn thường ổn định gần với giá trị trung bình.
Ông so sánh hiện tượng này với các cầu thủ ném rổ ít thi đấu trong NBA thường dẫn đầu bảng tỷ lệ ném rổ thành công - không phải vì họ giỏi hơn mà vì họ chỉ ném một vài lần và tình cờ trúng tất cả.
Qua ví dụ này, tác giả cho thấy tỷ lệ là có giá trị, nhưng khi áp dụng cần hiểu rõ bản chất thống kê đằng sau chúng, đặc biệt là ảnh hưởng của kích thước mẫu đến độ dao động của dữ liệu.
Tác giả Jordan Ellenberg minh họa Luật Số Lớn (Law of Large Numbers) thông qua một ví dụ trực quan về việc tung đồng xu:
- Tác giả mô tả một trò chơi tưởng tượng gọi là "ai tung đồng xu giỏi nhất", trong đó Đội Nhỏ được tung 10 đồng xu mỗi lần, còn Đội Lớn được tung 100 đồng xu mỗi lần.
- Khi đánh giá kết quả theo số lượng tuyệt đối mặt ngửa, Đội Lớn sẽ luôn thắng (vì họ có nhiều đồng xu hơn). Nhưng khi đánh giá theo tỷ lệ phần trăm mặt ngửa, Đội Nhỏ thường có thành viên đạt tỷ lệ cao nhất.
- Tác giả cho thấy khi tung 10 đồng xu, tỷ lệ mặt ngửa có thể dao động mạnh (từ 30% đến 90%). Khi tung 100 đồng xu, phạm vi dao động thu hẹp lại (chỉ còn từ 40% đến 60%). Và khi tung 1.000 đồng xu, phạm vi dao động chỉ còn từ 46,2% đến 53,7%.
- Đây chính là bản chất của Luật Số Lớn: khi số lượng đồng xu tăng lên, tỷ lệ mặt ngửa ngày càng hội tụ gần với giá trị kỳ vọng (50%), như thể bị một "cái ê-tô vô hình siết lại".
Ellenberg nhắc đến nhà toán học Jacob Bernoulli đã chứng minh toán học cho Luật Số Lớn, và Abraham de Moivre đã phát triển thêm bằng cách chỉ ra rằng sự phân bố của các kết quả tạo thành một đường cong hình chuông (phân bố chuẩn).
Ví dụ này không chỉ giải thích tại sao các bang nhỏ như Nam Dakota có thể đứng đầu bảng xếp hạng bệnh ung thư não, mà còn giải thích nhiều hiện tượng khác như cầu thủ ném rổ ít thi đấu trong NBA dẫn đầu bảng tỷ lệ, hay trường học nhỏ thống trị bảng xếp hạng giáo dục.
(Tôi không note chương 5)
Trong chương này, tác giả kể về một trò lừa đảo tài chính phổ biến dựa trên xác suất:
Một người môi giới chứng khoán ở Baltimore gửi thư cho 10.000 người, chia thành hai nhóm, mỗi nhóm 5.000 người. Với nhóm đầu tiên, anh ta dự đoán một cổ phiếu cụ thể sẽ tăng giá; với nhóm thứ hai, anh ta dự đoán cổ phiếu đó sẽ giảm giá. Dù cổ phiếu tăng hay giảm, sẽ có một nhóm 5.000 người nhận được dự đoán đúng.
Trong tuần tiếp theo, anh ta lại gửi thư cho 5.000 người đã nhận được dự đoán đúng trước đó, chia họ thành hai nhóm 2.500 người và đưa ra dự đoán trái ngược nhau về một cổ phiếu khác. Quá trình này tiếp tục, và sau năm tuần, còn lại khoảng 300 người đã nhận được năm dự đoán chính xác liên tiếp.
Lúc này, người môi giới sẽ liên hệ với 300 người còn lại và nói: "Như bạn thấy, tôi có khả năng dự đoán thị trường phi thường. Hãy đầu tư tiền của bạn qua tôi với một khoản phí nhỏ..." Những người này, đã chứng kiến năm dự đoán chính xác liên tiếp, sẽ có xu hướng tin tưởng và đưa tiền cho anh ta.
Ellenberg sử dụng ví dụ này để minh họa cách mà người ta có thể bị lừa bởi những dãy số "có ý nghĩa" nhưng thực chất chỉ là kết quả của xác suất và sàng lọc.
Trong chương 6, Jordan Ellenberg đã sử dụng tác phẩm "Chiến tranh và Hòa bình" của Leo Tolstoy để minh họa cho lập luận của mình về mật mã Kinh Thánh. Đây là một so sánh đầy tính thuyết phục:
Ellenberg chỉ ra rằng một nhà nghiên cứu đã áp dụng phương pháp tìm kiếm "mật mã" tương tự như trong Kinh Thánh vào tác phẩm "Chiến tranh và Hòa bình" và đã tìm thấy những "dự đoán" đáng ngạc nhiên. Bằng cách sử dụng phương pháp tìm kiếm các cụm từ có ý nghĩa bằng cách bỏ qua một số ký tự nhất định (ví dụ: cứ 4 ký tự lấy 1), người ta cũng có thể tìm thấy "thông điệp ẩn" trong tiểu thuyết của Tolstoy.
Điểm mấu chốt của tác giả là: nếu chúng ta có thể tìm thấy "mật mã" hay "lời tiên tri" trong một cuốn tiểu thuyết hiện đại mà chúng ta biết chắc chắn là không có ý định chứa mật mã, thì việc tìm thấy những dạng mẫu tương tự trong Kinh Thánh không có gì đặc biệt cả. Đây chỉ đơn giản là kết quả của việc áp dụng đủ nhiều mẫu tìm kiếm khác nhau vào một văn bản đủ dài.
Ví dụ này tăng cường lập luận chính của Ellenberg: con người có xu hướng tìm kiếm ý nghĩa trong những mẫu ngẫu nhiên, đặc biệt khi họ được phép sàng lọc dữ liệu một cách có chọn lọc và áp dụng nhiều cách diễn giải khác nhau cho đến khi tìm được điều gì đó "có ý nghĩa".
Trong chương "Cá chết không đọc ý nghĩ" (Dead Fish Don't Read Minds), Jordan Ellenberg trình bày một luận điểm quan trọng về sự nguy hiểm của việc tìm kiếm các mẫu hình trong dữ liệu mà không có khung phân tích thống kê phù hợp.
Tiêu đề chương sách lấy cảm hứng từ một nghiên cứu nổi tiếng trong đó các nhà khoa học cho thấy hoạt động não của một con cá hồi đã chết khi được đặt trong máy fMRI (công cụ quét não) lại có vẻ "phản ứng" với các hình ảnh về cảm xúc của con người. Điều này hoàn toàn vô lý vì cá đã chết không thể đọc được ý nghĩ hay nhận biết cảm xúc.
- Nghe nhiều “xác suất ngày mai mưa là 20%” → “xác suất” là như thế nào? Không giống việc xác suất mặt ngửa khi tung đồng xu là 50% ← nghĩa là tung rất rất nhiều lần, 1000 lần thì có khoảng 500 lần ngửa. Có những thứ không thể xác định hay thực hiện đủ lần được, ví dụ “xác suất loài người tuyệt chủng?” ← Hiểu theo cách “Nó có vẻ rất khó xảy ra” hoặc “Nó có vẻ có khả năng xảy ra” ← Hay “Chắc chắn đến mức nào?”
- Tính “khó xảy ra” chỉ là 1 khái niệm tương đối, tuỳ vào hoàn cảnh, điều kiện đi kèm mà 1 vấn đề có khó xảy ra hay không.
- “Liệu một loại thuốc mới có tác dụng đáng kể trong việc chữa trị 1 căn bệnh nào đó hay không? → Nếu “không có tác dụng gì”, người ta gọi là giả thuyết không. ← Nghiên cứu của bạn phải loại bỏ được giả thuyết không này! ← Làm thế nào để bác bỏ nó? → Kiểm định mức ý nghĩa giả thuyết không!
- Sự kiểm định diễn ra ntn?
- Chọn 100 người thử thuốc, 50 dùng thuốc, 50 dùng giả dược → nếu số bệnh nhân bên dùng thuốc tử vong ít hơn bên dùng giả dược thì có thể tin tưởng thuốc đang nghiên cứu? ← chưa chắc! Khi ấy dữ liệu đang đúng với giả thuyết của ta thôi, chúng còn phải mâu thuẫn với phần phủ định của lý thuyết của ta nữa!
- Ví dụ: “Tôi có thể kéo mặt trời lên khỏi đường chân trời” → dẫn chứng? Sáng ra tôi làm cho bạn xem. → Giả thuyết không : “Tôi hoàn toàn không có năng lực siêu nhiên”, nếu đúng (tức tôi koi có siêu năng), thì mặt trời vẫn mọc lên thôi.
- Giải thích kết quả của 1 thí nghiệm lâm sàng càng phải cẩn thận tương tự.
- Nhắc lại giả thuyết không: “Thuốc không có tác dụng gì” ← Trong thế giới của giả thuyết không: xác suất tử vong của 2 nhóm là giống hệt nhau (eg. 10%) ← xác suất để 5 bệnh nhân dùng thuốc cùng chết là 18.5% (khá khó xảy ra). Ngoài ra còn có các xác suất sau:
- 13.3% = số bệnh nhân chết khi dùng thuốc bằng số bệnh nhân chết khi dùng giả dược.
- 43.3% = số bệnh nhân chết khi dùng thuốc ít hơn số bệnh nhân chết khi dùng giả dược.
- 43.3% = số bệnh nhân chết khi dùng thuốc nhiều hơn số bệnh nhân chết khi dùng giả dược.
- Mọi chuyện sẽ khác nếu những bệnh nhân dùng thuốc có kết quả tốt hơn rất nhiều! Ví dụ:
- Bên dùng giả dược chết 5 người còn bên dùng thuốc sống hết 50 người.
- Nhắc lại là khả năng tử vong trong thế giới là 10% ↔ khả năng sống sót của mỗi người là 90% → để tổng cộng 50 người đều sống thì khả năng là 0.9*0.9*….*0.9 (50 lần) ~ 0.00515… (rất nhỏ) ← đều này thuyết phục hơn rất nhiều!
→ Bạn thấy đấy, có đến 43.3% khả năng (ko khó xảy ra) số bệnh nhân dùng thuốc chết ít hơn số bệnh nhân dùng giả dược → ko thể kết luận được gì là thuốc có tác dụng hay không!
- Quy trình để loại trừ giả thuyết không:
- Tiến hành một thí nghiệm.
- Giả sử giả thuyết không là đúng + kết quả quan sát được là 1 trường hợp rất hiếm ← gọi p là xác xuất thu được với giả sử trên.
- p được gọi là p-value → nếu nó rất nhỏ thì mình nên vui, còn nếu nó lớn thì mình nên chấp nhận rằng giả thuyết không vẫn chưa thể bác bỏ được!
- Vậy chọn p bao nhiêu? Không có con số chính xác nhưng có truyền thống (từ chính cha đẻ Fisher) là hay 1/20 làm ngưỡng.
Tác giả nhấn mạnh rằng không có con số tuyệt đối cho ngưỡng p-value, nhưng theo truyền thống từ nhà thống kê R.A. Fisher, ngưỡng 0.05 (1/20) thường được sử dụng. Nếu p-value nhỏ, ta có thể bác bỏ giả thuyết không; nếu p-value lớn, ta chấp nhận rằng giả thuyết không vẫn chưa thể bác bỏ được.
Kiểm định mức ý nghĩa giả thuyết không phổ biến vì phản ánh cách lập luận trực giác của chúng ta về sự không chắc chắn. Các mật mã Kinh Thánh ban đầu có vẻ thuyết phục vì những gì Witztum phát hiện rất hiếm xảy ra nếu giả thuyết không (Torah không biết gì về tương lai) là đúng. P-value - xác suất tìm thấy nhiều chuỗi ký tự cách đều chính xác trong hồ sơ của các giáo sĩ - gần như bằng 0.
- reductio ad absurdum = phép chứng minh bằng phản chứng dẫn đến sự vô lý
- reductio ad unlikely = phép chứng minh bằng phản chứng dẫn đến một kết quả là hiếm gặp, trong khi nó thực ra là quan sát được
Trong sách “Để không phạm sai lầm” của Jordan Ellenberg, chòm sao Pleiades được nhắc đến trong bối cảnh nghiên cứu thống kê của nhà thiên văn học John Michell ở thế kỷ 18. Michell đặt câu hỏi liệu Pleiades có thực sự là một cụm sao hay chỉ là một sự trùng hợp ngẫu nhiên khi các ngôi sao nằm gần nhau từ góc nhìn của Trái Đất. Ông tính toán rằng nếu các ngôi sao được phân bố ngẫu nhiên, xác suất để sáu ngôi sao xếp thành cụm như Pleiades chỉ là 1 trên 500.000. Vì vậy, Michell kết luận rằng việc cụm sao này tồn tại không thể là do ngẫu nhiên, mà phải có một nguyên nhân vật lý nào đó khiến chúng kết thành cụm. Đây là một trong những ví dụ sớm nhất về việc sử dụng thống kê để nghiên cứu thiên văn học.
Tác giả đề cập đến cụm số nguyên tố và cấu trúc của sự phi cấu trúc - cách số nguyên tố có vẻ ngẫu nhiên nhưng thực tế tuân theo quy luật toán học sâu sắc.
- Số nguyên tố: ngẫu nhiên mà không ngẫu nhiên
- Không xuất hiện theo quy luật đơn giản, nhưng có tính chất chung ở quy mô lớn. Xác suất một số là số nguyên tố giảm dần theo Định lý số nguyên tố.
- Khoảng cách giữa số nguyên tố
- Khoảng cách trung bình giữa số nguyên tố liên tiếp tăng khi số lớn dần.
- Zhang chứng minh có vô số cặp số nguyên tố có khoảng cách ≤ 70 triệu - số nguyên tố vẫn có thể gần nhau bất chấp xu hướng thưa dần. Sau đó James Maynard đã hạ giới hạn này xuống 600.
- Điều này gợi ý rằng số nguyên tố có thể tạo cụm, tương tự như cụm sao.
→ Nếu rải các con số một cách ngẫu nhiên, rất có khả năng một vài cặp sẽ tình cờ
đứng rất gần nhau, giống như các điểm được thả một cách ngẫu nhiên trên một mặt phẳng sẽ tạo ra các cụm trông thấy được.
đứng rất gần nhau, giống như các điểm được thả một cách ngẫu nhiên trên một mặt phẳng sẽ tạo ra các cụm trông thấy được.
- Số nguyên tố sinh đôi
- Hệ quả nghiên cứu: giả thuyết về số nguyên tố sinh đôi (cặp số nguyên tố có hiệu 2, như (3,5) hay (11,13)).
- Nếu số nguyên tố thực sự ngẫu nhiên ⇒ số nguyên tố sinh đôi có thể tồn tại vô hạn (giả thuyết).
- Cấu trúc trong phi cấu trúc
- Số nguyên tố không ngẫu nhiên, nhưng hành xử như ngẫu nhiên trong một số khía cạnh.
- Các giả thuyết như Goldbach hay số nguyên tố sinh đôi xuất phát từ ý tưởng số nguyên tố phân bố như điểm ngẫu nhiên, nhưng thực tế tuân theo quy luật chưa hiểu rõ.
Tóm lại, tác giả dùng nghiên cứu về số nguyên tố để minh họa nghịch lý: hệ thống có vẻ ngẫu nhiên vẫn có thể tuân theo quy luật chặt chẽ mà chỉ phát hiện được bằng phân tích sâu.
Trong chương này, tác giả Jordan Ellenberg sử dụng câu chuyện ngụ ngôn về Tạp chí Bói Toán Quốc Tế để phê phán vấn đề thiên lệch xuất bản và sai lầm thống kê trong khoa học.
- Ví dụ về bói toán bằng nội tạng cừu
- Giả sử có một nhóm thầy bói sử dụng nội tạng cừu để tiên đoán sự kiện tương lai.
- Để được công bố trên Tạp chí Bói Toán Quốc Tế, kết quả phải có ý nghĩa thống kê (p-value < 0.05).
- Tuy nhiên, nếu thử nghiệm đủ nhiều lần, một số tiên đoán ngẫu nhiên sẽ trông có vẻ chính xác chỉ nhờ may mắn, dù thực tế không có cơ sở khoa học nào.
- Vấn đề trong nghiên cứu khoa học hiện đại
- Trong khoa học, các nghiên cứu không có kết quả đáng kể (p > 0.05) thường không được công bố (vấn đề ngăn kéo đựng tài liệu).
- Ngược lại, những nghiên cứu có kết quả ngẫu nhiên nhưng vượt qua ngưỡng thống kê lại dễ được chấp nhận.
- Điều này dẫn đến một lượng lớn các nghiên cứu không chính xác hoặc khó tái lập.
- Ví dụ trong nghiên cứu y học và di truyền
- Khi tìm kiếm các gen liên quan đến bệnh tật, người ta thường kiểm tra hàng nghìn gen.
- Nếu chỉ dùng ngưỡng p-value < 0.05, hàng trăm gen có thể được coi là có liên quan chỉ do may mắn, dù chúng thực ra không có tác động nào.
- Điều này làm dấy lên vấn đề tỷ lệ dương tính giả cao trong nghiên cứu khoa học.
- Vấn đề “chặt-p” (p-hacking)
- Các nhà khoa học có thể vô tình hoặc cố ý điều chỉnh dữ liệu và phương pháp phân tích để đạt p-value nhỏ hơn 0.05, nhằm giúp kết quả trông có vẻ hợp lệ.
- Việc này có thể dẫn đến các phát hiện sai lệch hoặc phóng đại mức độ ảnh hưởng của một yếu tố.
- Giải pháp và cảnh báo
- Ellenberg kêu gọi cần thay đổi cách khoa học được công bố:
- Khuyến khích công bố cả các nghiên cứu không có kết quả có ý nghĩa thống kê.
- Không chỉ dựa vào p-value mà cần đánh giá cả bối cảnh và chất lượng nghiên cứu.
- Sử dụng các phương pháp thống kê mạnh mẽ hơn để giảm thiểu tỷ lệ dương tính giả.
Chương này chỉ ra rằng nếu không cẩn thận, khoa học có thể giống như bói toán—nếu ta chỉ công bố những nghiên cứu có kết quả “may mắn”, ta sẽ có một nền khoa học đầy rẫy kết luận sai.
"Lời nguyền của kẻ chiến thắng" là hiện tượng khiến các kết quả thí nghiệm ấn tượng, được quảng cáo rầm rộ, thường không thể tái hiện được khi thực hiện lại. Khi một nghiên cứu có cỡ mẫu nhỏ, phát hiện ấn tượng thường là do may mắn thống kê hơn là hiệu ứng thực sự. Những phát hiện được chọn lọc để công bố vì có ý nghĩa thống kê thường quá phóng đại so với hiệu ứng thực.
Dựa trên cuốn sách của Jordan Ellenberg, tác giả đưa ra những lời khuyên sau về việc sử dụng p-value trong thống kê:
Khi nào nên tin p-value:
- Khi p-value được xem là một manh mối, một điểm khởi đầu để tập trung nghiên cứu, không phải là kết luận cuối cùng
Rõ ràng là sai khi coi “p < 0,05” đồng nghĩa với “đúng” và “p > 0,05” nghĩa là “sai”.
- Khi kết quả có thể được tái hiện nhiều lần - tác giả nhấn mạnh câu nói của Fisher "Một kiến thức khoa học nên được xem là được xác lập qua thực nghiệm chỉ khi một thí nghiệm được thiết kế đúng đắn hiếm khi thất bại trong việc đưa ra mức ý nghĩa này"
- Khi bạn xem xét câu hỏi trong bối cảnh kiến thức đã biết và xác suất tiên nghiệm hợp lý
Khi nào không nên tin p-value:
- Khi thực hiện quá nhiều kiểm định cùng lúc (như ví dụ về gen và tâm thần phân liệt) - việc này dẫn đến nhiều kết quả dương tính giả
- Khi bỏ qua vấn đề "ngăn kéo đựng tài liệu" - các nghiên cứu không có ý nghĩa thống kê thường không được công bố
- Khi bạn áp dụng ngưỡng p < 0.05 một cách cứng nhắc, máy móc mà không xem xét bối cảnh và kiến thức đã biết từ trước
- Khi dữ liệu đã bị "tra tấn" (p-hacking) để đạt được ý nghĩa thống kê
Cuối cùng, Fisher, cha đẻ của p-value, cũng từng nói: "trong thực tế, không người làm khoa học nào có một mức ý nghĩa thống kê cố định để sử dụng hết năm này qua năm khác, và trong tất cả các tình huống [...] thay vào đó anh ta dồn hết tâm sức vào từng trường hợp cụ thể dựa trên việc xem xét bằng chứng và các ý tưởng của mình." Tức là p-value chỉ là công cụ hỗ trợ, không nên áp dụng máy móc và phải đặt trong bối cảnh cụ thể của vấn đề.
Hoá ra hiệu ứng thiên lệch kẻ sống sót (survivorship bias) có ý nghĩa tương tự như hiệu ứng ngăn kéo đựng tài liệu (file drawer problem / publication bias).
Trong khoa học, không có kẻ lừa gạt ám muội và không có nạn nhân ngây thơ. Khi cộng đồng khoa học cất vào ngăn kéo các thí nghiệm thất bại của mình thì họ đang đóng cả hai vai cùng lúc. Họ đang thực hiện trò lừa đảo với chính bản thân mình.
Theo sách của Jordan Ellenberg, Neyman và Pearson đưa ra một cách tiếp cận thống kê khác với Fisher, với những luận điểm chính sau:
Mục đích của thống kê là ra quyết định, không phải tìm sự thật: Neyman và Pearson cho rằng thống kê không nhắm đến việc nói cho chúng ta biết phải tin điều gì là đúng, mà là hướng dẫn chúng ta phải làm gì. Mục tiêu là đưa ra quyết định, không phải trả lời câu hỏi về chân lý.
Thống kê giống như tòa án: Tương tự như việc tòa án có luật lệ nghiêm ngặt về bằng chứng, thống kê cũng cần có quy trình cứng nhắc để ra quyết định. Khi một loại thuốc không vượt qua kiểm định, chúng ta không nói "chúng ta khá chắc chắn là thuốc này không có tác dụng" mà chỉ đơn thuần nói là "thuốc này không cho thấy có tác dụng" và bác bỏ nó.
Chủ nghĩa hình thức chặt chẽ: Họ đề cao việc tuân theo quy trình thống kê nghiêm ngặt, tránh phụ thuộc vào đánh giá chủ quan của nhà nghiên cứu.
Fisher không đồng tình với cách tiếp cận này. Ông cho rằng các nhà nghiên cứu có kiến thức nền tảng và trực giác, nên không thể và không nên bị ràng buộc vào một quy trình máy móc. Theo Fisher, điều nhà nghiên cứu thực sự cần là câu trả lời cho câu hỏi "Tôi có phải chú ý đến kết quả này không?", không phải một quy trình cứng nhắc do Neyman và Pearson đề xuất.