“การหลอกลวงมีด้วยกัน 3 รูปแบบ การโกหก คำตอแหล และสถิติ”*
สองอย่างแรกนั้นตรงไปตรงมา แต่สงสัยไหมครับว่าทำไมประโยคคลาสสิกข้างบนถึงรวมเอา ‘สถิติ’ เข้าไปเป็นหนึ่งในรูปแบบของการหลอกลวง?
สถิติคือการนำเสนอข้อมูลด้วยการใช้ตัวเลขที่ทรงพลังโดยมีน้อยคนที่จะกล้าถกเถียง มันดูเหมือนจะเป็นวิทยาศาสตร์ เถรตรง ไร้อคติ แตกต่างจากการบรรยายเป็นตัวอักษรที่ตีความได้กว้างขวางหลากหลาย
ตัวอย่างเช่น เราอาจบอกว่า ‘การระบาดของ COVID-19 คร่าชีวิตคนไทยจำนวนมาก บางคนเสียชีวิตที่บ้าน บางคนนอนตายอยู่ข้างถนน’ หากคนมองโลกในแง่ดีมาอ่านก็อาจตีความว่ามีคนเสียชีวิตหลักสิบในแต่ละวัน แต่ถ้าเป็นคนมองโลกในแง่ร้าย ประโยคดังกล่าวอาจหมายถึงคนไทยเสียชีวิตไม่ต่ำกว่าวันละหนึ่งพันคน ในทางกลับกัน หากรัฐบาลประกาศว่าวันที่ 18 สิงหาคม พ.ศ.2564 มีผู้เสียชีวิตจากCOVID-19 จำนวน 312 คน ไม่ว่าใครมาอ่านก็ตีความได้ตามตัวเลข ไม่มีทางบิดพลิ้วเป็นอย่างอื่นไปได้
แต่สถิติเป็นเรื่องตรงไปตรงมาอย่างที่เราเข้าใจจริงๆ หรือ?
คำตอบคือ ไม่ใช่ ต่อให้ข้อมูลที่หยิบมาบอกเล่าจะเป็นตัวเลขจริง แต่ด้วยการที่ข้อมูลมีอยู่มหาศาล สถิติที่เราเห็นจึงเป็นเพียง ‘บางอย่าง’ ที่ถูกคัดเลือกเพื่อนำมาถ่ายทอด โดยผู้ที่ทำการคัดเลือกก็เป็นมนุษย์ปุถุชนที่อาจมีแรงจูงใจหรืออคตินำไปสู่การเสนอตัวเลขแบบ ‘หวังผล’ ซึ่งหลายครั้งอาจทำให้คนอ่านเข้าใจผิด
สมมติว่าผมมีโจทย์คือ ‘สถานการณ์ COVID-19 ประเทศในทวีปเอเชีย’ โดยต้องสรุปข้อมูลทั้งหมดในหนึ่งสไลด์ นอกจากจะต้องคัดเลือกประเทศที่จะนำเสนอแล้ว เราก็ต้องคิดต่อว่า ‘สถิติ’ ที่จะหยิบมาใช้เปรียบเทียบคืออะไร สิ่งที่บอกเล่าสถานการณ์ได้ดีที่สุดย่อมเป็นจำนวนผู้ป่วยและผู้เสียชีวิต แต่เราจะหยิบตัวเลขไหนดีระหว่างตัวเลขทั้งหมดแบบกำปั้นทุบดิน หรือจะนำเสนอเป็นจำนวนต่อประชากร 1 ล้าน ยังไม่หมดนะครับเพราะเราต้องคิดอีกว่าตัวเลขนั้นควรจะเป็นของวันล่าสุด เฉลี่ยย้อนหลัง 7 วัน หรือนับตั้งแต่วันแรกที่มีการระบาด
หากไม่มีธงในใจ ตัวเลขที่ควรจะหยิบมาใช้บอกเล่าสถานการณ์คือจำนวนผู้ป่วยและผู้เสียชีวิตต่อประชากร 1 ล้านคนเพื่อให้สามารถเปรียบเทียบสถานการณ์ระหว่างประเทศได้ง่าย พร้อมกับใช้ค่าเฉลี่ยย้อนหลัง 7 วันสำหรับฉายภาพความรุนแรงของสถานการณ์การระบาดในปัจจุบัน
แต่เชื่อไหมครับว่าตัวเลขที่เฟซบุ๊กศูนย์ข้อมูล COVID-19 ภายใต้หัวข้อเดียวกันนี้คือตัวเลขย้อนหลังซึ่งนับตั้งแต่วันแรกที่มีการระบาดเมื่อปีก่อน ยังไม่นับเรื่องน่าฉงนทั้งที่หัวสไลด์บอกว่า ‘สถานการณ์ COVID-19 ประเทศในทวีปเอเชีย’ แต่กลับใส่ประเทศอย่างสหรัฐอเมริกาและสหราชอาณาจักรเข้ามาประกอบการเปรียบเทียบ ชวนให้สงสัยถึงเจตนาคนทำสไลด์ว่าจะใส่มาทำไม
ผู้อ่านน่าจะเดาได้นะครับว่าสถิติที่รัฐเลือกนำเสนอเพื่อให้สถานการณ์ในไทยดูเบาบางเมื่อเทียบกับประเทศอื่นๆ นั้น ความจริงแล้วเป็นภาพลวงตาทางสถิติที่ทำให้ผู้อ่านเข้าใจผิด หากเปรียบเทียบเฉพาะตัวเลขอัตราการติดเชื้อและอัตราการตายต่อประชากร 1 ล้านคนในช่วง 7 วันที่ผ่านมา (จากข้อมูล ณ วันที่ 18 สิงหาคม พ.ศ.2564) ภาพที่ได้จะเป็นคนละเรื่องทันทีเพราะไทยไม่ได้ติดอันดับรั้งท้ายที่มีจำนวนผู้ติดเชื้อและผู้เสียชีวิตรั้งท้ายอย่างที่รัฐบาลนำเสนอ แต่เริ่มขยับเข้ามาเป็นกลุ่มประเทศกลางๆ ที่อาจกลายเป็นผู้นำในอนาคต
ประเทศ | อัตราการติดเชื้อต่อประชากร 1 ล้านคน (เฉลี่ยย้อนหลัง 7 วัน) |
อัตราการตายต่อประชากร 1 ล้านคน (เฉลี่ยย้อนหลัง 7 วัน) |
มาเลเซีย | 4,401 | 58 |
สหราชอาณาจักร | 3,008 | 9 |
สหรัฐอเมริกา | 2,839 | 13 |
ไทย | 2,179 | 20 |
ฟิลิปปินส์ | 804 | 11 |
อินโดนีเซีย | 627 | 34 |
ข้อมูลจาก www.worldometers.info
สถิติยังเป็นเรื่องตรงไปตรงมาอยู่ไหมครับเมื่ออ่านมาถึงตรงนี้?
ถ้าเริ่มรู้สึกตะหงิดๆ ว่ากำลังถูกหลอกอยู่หรือเปล่า บทความนี้จะชวนไปสำรวจกับดักทางสถิติที่ภาครัฐกวักมือให้เราไปติด ผมขอชวนคิดและใช้วิจารณญาณโดยพิจารณาจากอินโฟกราฟฟิกและข้อมูลต่างๆ ที่รัฐนำเสนอไปพร้อมๆ กันครับ เริ่มจากกฎข้อแรกคือ ‘ถ้าอะไรที่ดูดีเกินไป หรือดูแย่เกินไป ให้สงสัยไว้ก่อนว่าต้องมีอะไรไม่ชอบมาพากล’ ดังตัวอย่างข้างต้นที่หยิบมาเล่าสู่กันฟัง ส่วนที่เหลือมีอะไรบ้างนั้นเรามีเริ่มกันเลยครับ
มีตัวเลขเป็นเรื่องดี แต่นิยามคืออะไรนะ?
ย้อนกลับไปเมื่อปี พ.ศ.2541 ประเทศไทยมีป่าไม้คิดเป็น 25.28 เปอร์เซ็นต์ของพื้นที่ แต่ในปี พ.ศ.2543 สัดส่วนพื้นที่ป่าในประเทศไทยก็เพิ่มขึ้นอย่างก้าวกระโดดเป็น 33.15 เปอร์เซ็นต์ เมื่อเห็นตัวเลขดังกล่าว เราก็อาจตีความไปว่าวิกฤติต้มยำกุ้งปี พ.ศ.2540 คือสาเหตุที่ทำให้พื้นที่ป่าไม้ในเมืองไทยเพิ่มขึ้นอย่างรวดเร็ว เนื่องจากกลุ่มทุนหมดกำลังส่วนคนไทยหันกลับมาอนุรักษ์สิ่งแวดล้อมมากขึ้น ฯลฯ
แต่ช้าก่อน ความจริงแล้วความแตกต่างที่เกิดจากการเปลี่ยนมาตราส่วนและเครื่องมือในการวิเคราะห์จากสัดส่วน 1:250,000 เป็น 1:50,000 นั่นหมายความว่าป่าผืนเล็กผืนน้อยที่เคยตกสำรวจไปเพราะเทคโนโลยียังไม่ทันสมัยได้ถูกนำกลับมาบวกรวมใหม่ใน พ.ศ.2543 นี่แหละครับคือความสำคัญของ ‘นิยาม’ ของตัวเลขที่เราไม่ควรมองข้ามว่าคิดคำนวณบนฐานของอะไร
กลับมาที่สถานการณ์ COVID-19 ในประเทศไทย เราจะเห็นการใช้คำอย่างตรงไปตรงมา เช่น ผู้ติดเชื้อเพิ่มวันนี้และคนที่หายป่วยกลับบ้าน น่าเสียดายที่ภาครัฐไม่ยอมใส่หมายเหตุตัวเล็กๆ ไว้ว่าตัวเลขทั้งสองนั้นรวมหรือไม่รวมอะไรบ้าง
ที่แน่ๆ คือยอดผู้ป่วยรายใหม่นั้นไม่ได้รวม ‘ผู้ป่วยน่าจะเป็น’ ซึ่งได้ผลบวกจากการตรวจด้วย ATK (antigen test kit) สวนทางกับแนวนโยบายของกระทรวงสาธารณสุขที่ประกาศว่าผู้ที่ได้ผลตรวจ ATK เป็นบวกจะสามารถเข้ารักษาในระบบทันทีไม่ต้องรอผลตรวจยืนยันด้วย RT-PCR แถมหน่วยงานรัฐเองก็ยังประกาศว่าผลตรวจ ATK มีความน่าเชื่อถือพอสมควรโดยต่างจากผลตรวจของ RT-PCR แค่ 3% เท่านั้น
สมมติว่าแต่ละวันมีผู้ตรวจด้วย ATK แล้วได้ผลบวก 10,000 ราย ผู้ป่วยกลุ่มนี้แม้จะได้เข้าระบบและรอการรักษา แต่ก็ยังไม่ปรากฎในยอดผู้ป่วยรายใหม่จนกว่าจะได้รับผลตรวจยืนยันด้วย RT-PCR นั่นหมายความว่ายอดผู้ป่วยรายใหม่ที่นำเสนอนั้นอาจต่ำกว่าความเป็นจริงไป 9,700 ราย นี่ยังไม่ต้องพูดถึงปริมาณการตรวจในแต่ละวันที่จำกัดจำเขี่ยโดยมีอัตราที่ผลตรวจเป็นบวกสูงลิ่วสะท้อนให้เห็นถึงความหนักหนาสาหัสของสถานการณ์ แม้แต่การประเมินสถานการณ์โดยกระทรวงสาธารณสุขเองยังคาดว่าผู้ติดเชื้อจริงอาจสูงกว่าถึง 6 เท่า
ส่วนการใช้คำว่า ‘หายป่วยกลับบ้าน’ ก็ชวนให้เข้าใจผิดเช่นกัน เนื่องจากปัจจุบันรัฐได้ริเริ่มมาตรการกักตัวและรักษาที่บ้านหรือชุมชน พร้อมทั้งปรับเปลี่ยนเกณฑ์ให้คนไข้สีเขียวซึ่งหมายถึงคนไข้ที่มีอาการไม่หนักสามารถกลับไปรักษาตัวเองเมื่อรักษาตัวครบ 7–10 วันจากเดิม 14 วัน เพื่อลดภาระของบุคลากรทางการแพทย์และเพิ่มจำนวนศักยภาพในการรองรับคนไข้อาการหนักของโรงพยาบาล การใช้คำว่า ‘หายป่วยกลับบ้าน’ จึงต้องมีหมายเหตุตัวโตๆ ว่ามีผู้ป่วยจำนวนหนึ่งกลับบ้านโดยไม่ได้หายป่วย แต่กลับไปรักษาตัวต่อที่บ้านตามเกณฑ์ที่รัฐบาลกำหนด
ดังนั้นก่อนที่จะอ่านสถิติทุกครั้ง อย่าเพิ่งกระโดดไปวิเคราะห์ตัวเลขนะครับ เราต้องเริ่มจากการตั้งคำถามว่า ‘นิยาม’ ของตัวเลขนั้นคืออะไร
โปรดระวังตัวเลขเบี่ยงเบนความสนใจ (แต่ไม่เกี่ยวอะไรเลย)
หากใครติดตามเพจเฟซบุ๊กศูนย์ข้อมูล COVID-19 อยู่เนืองๆ จะเห็นอินโฟกราฟฟิกชิ้นสถานการณ์ COVID-19 ทั่วโลก ฉายภาพตัวเลขผู้ป่วยสะสมที่น่าตื่นตระหนกเทียบกับประเทศไทยที่ยังเบาใจได้เพราะอยู่อันดับ 34 และมีจำนวนผู้ติดเชื้อประมาณ 1 ล้านราย
ผมเองรู้สึกแปลกใจนิดหน่อยว่าทำไมช่วงการระบาดหนักดูเหมือนว่ารัฐไทยอยากจะเอาประเทศไปเปรียบเทียบกับเพื่อนๆ ในเวทีโลก ถึงขนาดทำอินโฟกราฟฟิกชิ้นนี้แทบทุกวันราวกับต้องการบอกกลายๆ ว่าสถานการณ์ในไทยยังดีกว่าในอีกหลายๆ ประเทศทั่วโลก ทั้งที่ย้อนกลับไปในช่วงที่การระบาดยังไม่รุนแรง อินโฟกราฟฟิกลักษณะนี้มีมาให้เห็นราวเดือนละสองสามครั้งเท่านั้น
ข้อมูลจากอินโฟกราฟฟิกชิ้นนี้เป็นเรื่องที่ ‘รู้ก็ดี’ แต่ถ้าลองคิดอย่างถี่ถ้วนผมก็แทบไม่เห็นประโยชน์อะไรจากการเผยแพร่อินโฟกราฟฟิกดังกล่าวแบบรายวัน ในเมื่อสิ่งคนไทยอยากรู้ในแต่ละวันคือจะหาจุดตรวจเชื้อที่ไหน ติด COVID-19 แล้วต้องทำยังไง หาเตียงไม่ได้ควรติดต่อใคร และอีกสารพัดเรื่องที่น่าจะเป็นประโยชน์ที่จะเสียเวลาอ่านมากกว่ามาบอกว่าตั้งแต่ปี พ.ศ.2563 สหรัฐอเมริกามีผู้ติดเชื้อ 37,896,582 คนนะจ๊ะ
ยังไม่ต้องพูดถึงว่าการจัดลำดับแบบนี้นอกจากจะเป็นการเปรียบเทียบโดยไม่ได้ดูจากจำนวนประชากรของแต่ละประเทศแล้ว ยังทำราวกับว่าการระบาดของ COVID-19 คือกีฬาโอลิมปิกที่รัฐบาลทุกประเทศต้องแข่งขันกันว่าใครจะมีผู้ติดเชื้อน้อยที่สุดในโลก ประเทศไหนที่ตรวจเจอผู้ติดเชื้อเยอะที่สุด 5 อันดับแรกก็ควรค่าแก่การแขวนประจาน ส่วนไทยอยู่ที่อันดับ 34 และมีผู้ติดเชื้อแค่เกือบล้านแสดงว่ารัฐบาลบริหารจัดการดี
อย่าลืมนะครับว่าจำนวนคนตายไม่ใช่แค่ตัวเลข แต่คือชีวิตและคนในครอบครัวของใครสักคน
นี่คือตัวอย่างของการหยิบตัวเลขซึ่งไม่ได้เกี่ยวข้องอะไร นำเสนอแบบเปรียบเทียบกันทั้งที่เปรียบเทียบกันไม่ได้ เพื่อเบี่ยงเบนความสนใจจากสถานการณ์ปัจจุบัน พร้อมทั้งทำให้ผู้เห็นสถิติดังกล่าวอาจประเมินสถานการณ์ในประเทศไทยต่ำเกินจริง
ถ้ามีหลักฐานหลักก็ควรพับหลักฐานรอง
ประมาณวันสองวันหลังจาก ศบค. แถลงครั้งใหญ่ว่าจะจัดซื้อวัคซีนซิโนแวคเพิ่มอีก 12 ล้านโดส ภรรยาก็ชวนผมคุยบนโต๊ะอาหารว่าด้วยระดับภูมิคุ้มกันหลังได้รับวัคซีนโดสที่สอง เธอบอกว่าซิโนแวคสองเข็มภูมิขึ้นตั้งหนึ่งพันส่วนแอสตร้าเซนเนก้าสองเข็มภูมิขึ้นแค่พันสอง
พอได้ยินประโยคดังกล่าวผมก็เบรกกะทันหันว่าเราไม่ควรคุยเรื่องระดับภูมิคุ้มกันอีกแล้ว เพราะระดับภูมิคุ้มกันเป็นเพียงหลักฐานรอง ในเมื่อเรามีหลักฐานหลักนั่นคือ ‘ประสิทธิภาพ’ ในการป้องกันโรคจริงๆ หลังจากการฉีดวัคซีน เราก็ควรจะสนใจเฉพาะงานวิจัยเหล่านั้น และควรหยุดพูดถึงระดับภูมิคุ้มกันได้แล้ว
ความปากไวทำให้ผมพลาดตำหนิภรรยาไปโดยไม่ทันระวัง ทั้งที่ความจริงแล้วเธอแค่เล่างานวิจัยชิ้นเอกโดยศูนย์เชี่ยวชาญเฉพาะทางด้านไวรัสวิทยา คณะแพทยศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยที่ ศบค. ใช้อ้างอิงเป็นหลักฐานสนับสนุนการฉีดวัคซีสูตรไขว้ SV + AZ และเป็นเหตุผลสำคัญที่ทำให้รัฐไทยเดินหน้าสั่งซิโนแวคเพิ่มเข้ามาท่ามกลางเสียงทัดทานของประชาชน
บทความนี้ไม่มีมีเป้าหมายวิเคราะห์เจาะลึกงานวิจัยชิ้นนี้ ผมจึงขอตั้งสมมติฐานว่างานดังกล่าวมีความน่าเชื่อถือโดยมองข้ามช่วงเวลาตรวจวัดหลังได้รับวัคซีนโดสที่สอง ซึ่งกว้างเป็นมหาสมุทรตั้งแต่ 14–72 วัน รวมถึงข้อเท็จจริงที่ว่างานชิ้นนี้ไม่ได้รับการตีพิมพ์ในวารสารทางวิชาการ หมายความว่าไม่ได้มีการทบทวนหรือวิพากษ์วิธีการศึกษาและผลการศึกษาโดยคณะกรรมการผู้เชี่ยวชาญที่ไม่มีส่วนได้ส่วนเสีย
ผมไม่ปฏิเสธครับว่าระดับภูมิคุ้มกันที่สูงย่อมมีความสัมพันธ์กับความสามารถในการ ‘กันติดกันตาย’ ของวัคซีน แต่ความสัมพันธ์ดังกล่าวยังมีตัวแปรมากมายที่นอกเหนือจากภูมิคุ้มกัน ผมจึงชวนตั้งคำถามว่าเราจะมาเสียเวลานั่งวัดระดับภูมิคุ้มกันไปทำไม ในเมื่อมีงานวิจัยจำนวนมหาศาลที่ตีพิมพ์ในวารสารชั้นนำทั่วโลกซึ่งทดสอบประสิทธิผลในโลกจริงของวัคซีนหลากหลายยี่ห้อต่อสารพัดสายพันธุ์ แค่นั่งอยู่ที่บ้านแล้วคลิกเข้ากูเกิลก็มีให้เลือกอ่านมากมายนับไม่ถ้วน
ในวันที่องค์ความรู้ส่วนใหญ่ชี้ไปในทิศทางเดียวกันว่าวัคซีน mRNA มีประสิทธิผลสูงกว่าในการป้องกันเชื้อสายพันธุ์ใหม่ ผมก็อดสงสัยไม่ได้ว่าเราจะคิดค้นสูตรวัคซีนใหม่แล้วศึกษาระดับผลภูมิคุ้มกันซึ่งยังไม่อาจยืนยันประสิทธิผลในการป้องกันโรคในโลกจริงไปทำไม แค่เปลี่ยนไปสั่งซื้อวัคซีน mRNA ของบริษัทอื่นก็สิ้นเรื่อง
การใช้หลักฐานรองมีความจำเป็นในบางสถานการณ์ที่เป้าหมายหลักยังไม่อาจวัดผลได้อย่างแม่นยำ เช่น หากเราต้องการวัดประสิทธิผลของวัคซีนในการป้องกันโรคระบาดสายพันธุ์ใหม่ เราก็อาจต้องใช้ตัวชี้วัดเบื้องต้นอย่างระดับภูมิคุ้มกันมาประเมินไปพลางๆ ก่อน แต่ในวันที่มีการศึกษาจำนวนมากถึงประสิทธิผลภาคสนามในการป้องกันโรคของวัคซีน เราก็ไม่มีเหตุผลใดๆ ที่จะย้อนกลับมาศึกษาหลักฐานรอง เว้นแต่มีเหตุให้เชื่อว่างานวิจัยอื่นๆ ไม่สามารถใช้งานได้ เนื่องจากเหตุเฉพาะเจาะจง เช่น คนไทยมี ‘ยีนพิเศษ’ ที่ทำให้ภูมิคุ้มกันในร่างกายตอบสนองได้อย่างดีเยี่ยมต่อวัคซีนบางยี่ห้อ
อย่าลืมดูกลุ่มตัวอย่าง
‘คนไทยส่วนใหญ่เห็นว่า พลเอก ประยุทธ์ จันทร์โอชา ลาออกจากตำแหน่งนายกรัฐมนตรี พร้อมเปิดทางให้พรรคเพื่อไทยจัดตั้งรัฐบาลใหม่ และเดินหน้าแก้ไขรัฐธรรมนูญซึ่งไม่เป็นธรรม’
ใครที่อ่านประโยคข้างต้นแล้วรู้สึก ‘หัวร้อน’ ย่อมตะโกนเสียงดังว่า ‘คนไทยส่วนใหญ่’ คือใคร ทำไมฉันไม่ได้แสดงความคิดเห็น และอาจหัวร้อนยิ่งกว่าถ้าผมบอกว่าการสำรวจความคิดเห็นนี้สุ่มเก็บตัวอย่าง 236 คน แต่ขอไม่เปิดเผยว่าเขาเหล่านั้นคือใคร อายุเท่าไหร่ ทำอาชีพอะไร ฯลฯ
คำด่ากราดอาจประกอบไปด้วยพื้นฐานทางสถิติ เช่น คนแค่ 236 คนจะเป็นตัวแทนประเทศได้อย่างไร? เรื่องใหญ่ขนาดนี้ทำไมใช้กลุ่มตัวอย่างน้อย? ทำไมไม่เปิดเผยลักษณะทางประชากรของกลุ่มตัวอย่าง? คนแค่นี้จะมาตัดสินอนาคตของประเทศได้อย่างไร? และอีกสารพัดคำถามหวังว่าจะสามารถ ‘ด้อยค่า’ ความน่าเชื่อถือของการสำรวจความคิดเห็นดังกล่าว
ผมขอน้อมรับผิดในความเฮงซวยของงานวิจัยสมมติชิ้นนี้ และเห็นด้วยกับความคิดเห็นของทุกท่านทุกประการ
แต่ เอ … ผู้อ่านคุ้นตากับงานวิจัยที่ใช้กลุ่มตัวอย่างที่ 236 คนไหมครับ?
หากยังนึกไม่ออกให้ลองเลื่อนไปอ่านข้างบน … ถูกต้องแล้วครับ ตัวเลขดังกล่าวเท่ากับกลุ่มตัวอย่างในการวัดระดับภูมิคุ้มกันของอาสาสมัครผู้ฉีดวัคซีนสามสูตรคือ (1) SV + SV จำนวน 79 คน (2) AZ + AZ จำนวน 80 คน และ (3) SV + AZ จำนวน 77 คน หากคุณสามารถก่นด่าการศึกษาสมมติของผม คุณก็คงมองเห็นความบกพร่องของงานวิจัยชิ้นนี้ได้เช่นกัน
ในงานวิจัยที่ใช้เครื่องมือทางสถิติทั้งหลาย ถ้าเราสามารถทดสอบกับกลุ่มประชากรทั้งหมดได้ก็นับเป็นเรื่องดี แต่ความเป็นจริงแล้วเป็นเรื่องยากจึงต้องเลือก ‘กลุ่มตัวอย่าง’ ที่จะมาเป็นภาพแทนของประชากร ซึ่งถ้าจะให้ดี กลุ่มตัวอย่างจะต้องมีจำนวนมากในระดับที่ว่าเมื่อหยิบสุ่มจากกลุ่มตัวอย่างจะได้การกระจายตัวที่เหมือนกับประชากร เพราะหากกลุ่มตัวอย่างน้อยเกินไปก็เป็นไปได้ว่าผลการทดลองอาจเกิดจากโชค และไม่สามารถทำให้เป็นกรณีทั่วไป (generalizability) ที่แปลไทยเป็นไทยว่า อย่าคาดหวังว่าถ้าเอาวัคซีนสูตรนี้ไปฉีดกับประชาชนจริงๆ จะได้ภูมิคุ้มกันใกล้เคียงกับที่เกิดในห้องทดลอง
เรื่องกลุ่มตัวอย่างไม่ใช่เรื่องยุ่งยากซับซ้อน แต่สิ่งที่ทำให้ผมรู้สึกแปลกใจระคนเศร้าใจ คือ การเลือกตัดสินใจเชิงนโยบาย—ในประเทศที่มีประชากรร่วม 70 ล้านคน—ด้วยงานวิจัยที่มีกลุ่มตัวอย่างหลักร้อยจริงๆ หรือ และโปรดอย่าบอกว่าไม่มีงบประมาณเพราะการศึกษาชิ้นนี้ช่วยสนับสนุนการสั่งซื้อวัคซีนซิโนแวค 12 ล้านโดส หากตีราคาโดสละ 500 บาท นี่คือการใช้เงินภาษีประชาชน 6,000 ล้านบาทที่อ้างอิงจากงานวิจัยที่มีกลุ่มตัวอย่าง 236 คน
นี่คือไม่กี่ตัวอย่างที่คนที่เคยเรียนสถิติมาบ้างอย่างผมพอจะสังเกตเห็น หวังว่าผู้อ่านคงจะพอได้แนวทางในการจับผิดการนำเสนอตัวเลขทางสถิติของภาครัฐ พร้อมทั้งเข้าใจว่าการ ‘เข้าใจผิดจากข้อเท็จจริง’ นั้นเป็นอย่างไร ถ้ามีใครเจออะไรน่าสงสัยในเฟซบุ๊กศูนย์ข้อมูล COVID-19 ก็อย่าลืมมาแบ่งปันกันอ่านนะครับ
*ประโยคนี้โด่งดังจากการที่ มาร์ก ทเวน นักเขียนวรรณกรรมชาวอเมริกันนำมากล่าวซ้ำ ส่วนใครคือผู้คิดค้นประโยคดังกล่าวเป็นคนแรกสนั้นก็ยังไม่มีข้อสรุป
Illustration by Waragorn Keeranan