สัปดาห์ก่อนผมเพิ่งได้อ่านบทความออนไลน์ที่พาดหัวทำนองว่า “ผู้ชายที่มีปมเรื่องจู๋เล็ก มักจะชอบรถสปอร์ต” แล้วก็อ้างงานวิจัยของ University College London ที่ศึกษาเรื่องนี้ แน่นอนว่ามีคนแชร์บทความนั้นมากมาย พร้อมแคปชั่นสนุกสนานไปตามประสา ซึ่งผมก็ไม่ได้มีเจตนาจะไปขัดความสนุกอะไรของใคร
พอนึกๆ ดูแล้วจริงๆ ไม่ใช่แค่เรื่องนี้ แต่เรามักจะเห็นบทความที่ว่าด้วยงานวิจัยทำนองนี้บ่อยๆ ในโลกออนไลน์ ไม่ว่าจะเป็น งานวิจัยที่พบว่าคนที่เรียกตัวเองว่าเกมเมอร์ มีแนวโน้มจะเหยียดเพศและเหยียดผิว งานวิจัยที่บอกว่าหลักประกันสุขภาพถ้วนหน้าไม่ได้ทำให้คนไปโรงพยาบาลเกินความจำเป็น ไปจนถึงงานวิจัยที่บอกว่าคนที่นอนน้อยจะเห็นใจคนอื่นน้อยลง คำถามคือ งานวิจัยพวกนี้เชื่อถือได้แค่ไหน
ถ้าจะพูดถึงความเชื่อถือไม่ได้ของบทความที่อ้างงานวิจัยสักชิ้น ต้องแยกออกเป็นสองเรื่อง คืองานวิจัยนั้นเชื่อถือไม่ได้ด้วยตัวของมันเอง กับจริงๆ แล้วงานวิจัยเขาก็ทำมาน่าเชื่อถือดี แต่คนอ่านและเอามาเล่าต่อต่างหากที่เข้าใจผิดหรือเอามาเล่าผิดๆ เอง
เริ่มจากความเชื่อถือไม่ได้ของตัวงานวิจัยเองก่อน มีปัจจัยมากมายที่จะทำให้งานวิจัยสักชิ้นไม่น่าเชื่อถือ เริ่มต้นตั้งแต่กระบวนการเลือกตัวอย่าง ใครบ้างที่ถูกเลือกให้มาตอบว่าตัวเองเป็นเกมเมอร์ วิธีการเก็บข้อมูล เราจะวัดยังไงว่าใครที่เห็นใจคนอื่นมากหรือน้อย วิธีวิเคราะห์ทางสถิติที่เลือกใช้ ไปจนถึงวิธีการสรุปผล อย่างคำว่า “มักจะชอบรถสปอร์ต” นี่กำกวมมาก มากแค่ไหนเรียกมัก เกินครึ่งพอไหม หรือต้อง 80% 90% หรือเท่าไรกันแน่ ใครที่เคยเรียนสถิติวิจัยมาจะรู้ว่าแม้การพูดว่าอะไรบางอย่างจริง ‘อย่างมีนัยยะสำคัญทางสถิติ’ นั้นก็ยังกำกวม เพราะสุดท้ายมันก็อยู่ที่ว่าเรากำหนดระดับนัยยะสำคัญ (significant level) ไว้ที่เท่าไร
หลายคนเข้าใจผิดว่า สิ่งที่สำคัญที่สุดเวลาอ่านงานวิจัยทางสถิติคือผลลัพท์ (conclusion) ซึ่งไม่ถูกทั้งหมด เพราะระเบียบวิธีวิจัย (research methodology) ก็สำคัญไม่แพ้กัน งานวิจัยที่ดีจะบอกขั้นตอนแต่ละขั้นอย่างชัดเจน ตั้งแต่วิธีการเลือกกลุ่มตัวอย่าง ไม่ใช่แค่บอกว่าสุ่มคนมากี่คน แต่บอกด้วยว่าเลือกมาอย่างไร เพศอะไรบ้าง อายุกระจายเป็นอย่างไร ตอนเก็บข้อมูลตั้งคำถามอย่างไร วัดค่าต่าง ๆ ด้วยเครื่องอะไร ยี่ห้ออะไร รุ่นอะไร ควบคุมตัวแปรแต่ละตัวอย่างไร ยาวไปจนถึงเครื่องมือทางสถิติที่เลือกใช้ ผลการวิเคราะห์โดยละเอียด ระดับนัยยะสำคัญที่เลือกใช้ พร้อมให้เหตุผล
อย่างงานวิจัยเรื่องการนอนน้อยกับความเห็นแก่ตัว ผู้วิจัยแบ่งการทดลองออกเป็น 3 ส่วน และหนึ่งในนั้นคือการวิเคราะห์จากข้อมูลการบริจาคเพื่อการกุศล 3 ล้านข้อมูลในเวลา 15 ปี และพบว่าผู้คนบริจาคน้อยลงถึง 10% ในวันหลังจาก Daylight Saving Time ที่คนเหล่านั้นได้นอนน้อยลงหนึ่งชั่วโมง ต่างจากรัฐอื่นๆ ในวันเดียวกันที่ไม่ได้ถูกลดชั่วโมงนอน
ดังนั้น ถ้าจะถามว่างานวิจัยนี้เชื่อถือได้หรือไม่
ก็ต้องย้อนกลับมาถามว่าน่าเชื่อถือว่าอะไร
ถ้าน่าเชื่อถือว่าในเช้าวันหลังจาก Daylight Saving Time ผู้คนจะบริจาคเงินน้อยลงไป 10% แบบนี้ก็ต้องพูดว่าน่าเชื่อถือ เพราะจากข้อมูลก็สามารถสรุปเช่นนั้นได้จริงๆ แต่จากข้อมูลเท่านี้ ถ้าจะให้สรุปไปเลยว่าการนอนน้อยส่งผลทำให้คนเห็นแก่ตัวมากขึ้นก็อาจจะทำใจได้ยากอยู่ เพราะในเช้าหลัง Daylight Saving Time ผู้คนอาจจะเร่งรีบจนไม่ทันได้มีเวลาบริจาคเงิน ไม่ได้เกี่ยวกับนอนมากนอนน้อย หรือเอาเข้าจริง การบริจาคเงินมากหรือน้อยบ่งชี้ถึงความเห็นแก่ตัวของคนได้จริงๆ หรือ
แต่ในความเป็นจริง งานวิจัยที่ทำโดยสถาบันที่น่าเชื่อถือ ผู้วิจัยจะรู้หลักจริยธรรมการวิจัยเป็นอย่างดี และแจกแจงผลลัพท์ที่ได้อย่างชัดเจน ไม่กำกวมหรือเกินจริง แต่ความผิดพลาดอาจเกิดจากสื่อที่ไปอ่านแล้วเอามาสรุปต่อต่างหาก แล้วพออ่านต่อกัน แปลจากภาษาหนึ่งเป็นอีกภาษาหนึ่ง ความผิดพลาดก็จะเกิดมากขึ้นเรื่อยๆ เหมือนเกมพรายกระซิบ
ความผิดพลาดนี้อาจจะเกิดจากความตั้งใจของผู้เขียนบทความที่ต้องการเขียนให้เร้าใจคนอ่าน น่าตื่นเต้น เพื่อเรียกยอดไลก์ยอดแชร์ หรืออาจเกิดจากความไม่เข้าใจของผู้เขียนจริงๆ ก็ได้ อย่างเรื่องเช้าหลัง Daylight Saving Time นั้น มีบางสื่อนำไปเขียนว่า “รัฐที่มีคนขาดชั่วโมงการนอน จำนวน 1 ชั่วโมง จะทำบุญกล่องบริจาคน้อยลง 10% เมื่อเทียบกับรัฐที่นอนครบชั่วโมง” ซึ่งก็ไม่ได้ผิดอะไร เพราะคนเหล่านั้นเขาก็ขาดชั่วโมงการนอนไป 1 ชั่วโมงจริงๆ แต่เรื่องว่าวันนั้นเป็นเช้าหลัง Daylight Saving Time นั้นก็หายไปเลย
เพราะฉะนั้น ทุกครั้งที่เราอ่านบทความเกี่ยวกับงานวิจัยอะไร ทางที่ดีที่สุดคือย้อนกลับไปอ่านตัวบทความวิจัยแรกสุด เพื่อความแน่ใจว่า งานวิจัยนั้นมีกระบวนการทำอย่างไร สรุปผลอย่างไร และมีอะไรที่ถูกบิดหรือเข้าใจผิดไปในบทความที่สรุปมาบ้าง
กลับมาที่บทความเจ้าปัญหาเรื่อง “ผู้ชายที่มีปมเรื่องจู๋เล็ก มักจะชอบรถสปอร์ต” ของเรา เมื่อไปดูที่ตัวบทความวิจัยตั้งต้นจะพบว่า ทีมวิจัยเก็บข้อมูลจากผู้ชายจำนวน 200 คนในช่วงอายุ 18-74 ปี ที่พูดภาษาอังกฤษได้ จากเว็บไซต์ Prolific ซึ่งเป็นเว็บไซต์สำหรับช่วยหากลุ่มตัวอย่าง ซึ่งทุกคนได้ค่าตอบแทน 1.5 ปอนด์สำหรับการทำแบบสอบถามยาว 8 นาที จะเห็นว่าผู้วิจัยอธิบายกระบวนการเลือกกลุ่มตัวอย่างไว้ชัดเจนมาก
ผู้เข้าร่วมแต่ละคนถูกหลอกว่านี่คือการทดลองเพื่อศึกษาการจดจำข้อมูลต่างๆ เมื่อต้องเลือกซื้อของไปด้วย เมื่อเริ่มการทดลอง ผู้ร่วมการทดลองแต่ละคนจะได้เห็นข้อความที่เป็นข้อเท็จจริงสั้นๆ ขึ้นมาบนจอนาน 7 วินาที ถัดไปเป็นรูปของสินค้านาน 5 วินาที และให้ผู้เข้าร่วมทดลองประเมินว่าชอบสินค้าชิ้นนี้แค่ไหน การทดลองจะเป็นเช่นนี้ไป 12 รอบ นั่นคือ 12 ข้อเท็จจริง สลับกับรูปสินค้า 12 รูป โดย 6 ใน 12 ข้อความนั้นเป็นข้อเท็จจริงที่ชี้นำความมั่นใจให้ผู้ร่วมทดลอง ตามด้วยรูปสินค้าหรูหราราคาแพง
โดยจุดที่น่าสนใจของการทดลองนี้อยู่ที่รอบที่ข้อความที่แสดงเป็นการบอกค่าเฉลี่ยของขนาดจู๋ และหลังจากนั้นตามด้วยรถสปอร์ต ปัญหาคือ ขนาดจู๋เฉลี่ยที่บอกผู้ร่วมการทดลองนั้นไม่ใช่ค่าจริง บางคนจะถูกบอกว่าค่าเฉลี่ยของขนาดจู๋ตอนแข็งตัวนั้นอยู่ที่ 18 ซม. ซึ่งเยอะเกินจริงไปมาก ทำให้ผู้ทดลองกลุ่มนั้นรู้สึกว่าของฉันเล็กกว่ามาตรฐานหรอเนี่ย ในขณะที่อีกกลุ่มหนึ่งจะถูกบอกว่าค่าเฉลี่ยคือ 10 ซม. ต่างหาก ซึ่งคนที่ทำก็จะรู้สึกว่า เห้ย ของฉันก็ไม่ใช่เล่นๆ นี่นา
ผลที่ได้ก็คือ ผู้ชายที่อายุเกิน 29 ที่ถูกทำให้สูญเสียความมั่นใจเรื่องขนาดจู๋นั้นจะให้คะแนนรถสปอร์ตสูงกว่ากลุ่มที่ถูกทำให้มั่นใจในขนาดจู๋อย่างมีนัยยะสำคัญทางสถิติ โดยคำนวณค่า Main experiment effect (MPE) แล้วได้มากกว่า 95% ส่วนคนที่อายุน้อยกว่า 29 สิ่งนี้ก็ยังมีผลอยู่ แต่ค่า MPE น้อยกว่า 90% เท่านั้น
เพราะฉะนั้น การจะสรุปว่า “ผู้ชายที่มีปมเรื่องจู๋เล็ก มักจะชอบรถสปอร์ต” นั้นก็อาจจะไม่ได้ถูกตรงๆ ซะทีเดียวอย่างที่บางคนเชื่อไปแล้ว แต่ก็ไม่ได้เป็นข้อสรุปที่ไร้สาระไปซะเสียหมดอย่างที่บางคนชอบดูถูกงานวิจัยทำนองนี้
ความจริงแล้วในตัวงานวิจัยชิ้นนี้ได้พูดถึงกระบวนการวิเคราะห์ทางสถิติและผลที่ได้ไว้อย่างละเอียดกว่านี้ แต่ก็อย่างที่บอกไปแล้ว ถ้าอยากเข้าใจงานวิจัยพวกนี้ให้ถูกต้อง อย่าอ่านพวกบทความสรุปมาก แม้แต่บทความนี้ก็เช่นกัน
ดังนั้น ไปครับ ไปอ่านงานวิจัยตัวเต็มกัน มันไม่ได้อ่านยากขนาดนั้น เชื่อเถอะ