“ปฏิบัติกับการดูสถิติให้เหมือนกับการเลือกดูข่าวครับ ว่ามันมีที่มาจากไหน แล้วก็เชื่อถือได้มากน้อยแค่ไหน ไม่ใช่ว่าเห็นว่ามีแผนภูมิ มีตัวเลขปุ๊บก็เชื่อได้เลย”
คือคำตอบของแอดมินเพจ The Researcher หลังจากถามถึงการดูข้อมูลตัวเลขสถิติ ตัวเลขที่ทุกวันนี้เราต้องตื่นมาเจอจนเป็นเรื่องปกติในภาวะที่ไม่ปกติ การอ่านตัวเลขรายงานสถานการณ์ COVID-19 กลายเป็นเรื่องหลีกเลี่ยงไม่ได้ ข้อมูลรายวันคือหนึ่งในตัวแปรสำคัญที่จะช่วยเราประเมินว่าควรทำอย่างไรต่อในวิกฤตแบบนี้
ในช่วงเวลาที่เราต่างกังวลกับตัวเลข The MATTER ไปพูดคุย ‘บิ๊ก—ปรเมศวร์ วัฒนประสาน’ แอดมินเพจ The Researcher เพจที่จริงจังกับการเปลี่ยนตัวเลขสถานการณ์ COVID-19 ให้เป็นกราฟที่ดูเข้าใจง่าย มาพร้อมกับเว็บไซต์ covid-19.researcherth.co ที่คอยอัพเดตการกระจายวัคซีน
พูดถึงข้อมูลทางสถิติ ปรเมศวร์ให้ความสำคัญกับที่มาและวิธีการได้ข้อมูลไม่น้อยไปกว่าตัวเลขที่เราเห็นในตอนสุดท้าย การจะเชื่อข้อมูลอะไรก็ตามมีตัวแปรที่เราต้องระวังอยู่เสมอ และยิ่งในสถาการณ์การระบาดของ COVID-19 การเปิดเผยข้อมูลของรัฐต่อประชาชนก็เป็นอีกประเด็นที่ควรให้ความสนใจ
เราจะอยู่กับข้อมูลสถิติอย่างไรในภาวะที่เราต้องตื่นมาเห็นตัวเลขผู้ป่วยทุกวัน ต่อจากนี้คือคำตอบของแอดมินเพจ The Researcher
อยากให้แนะนำตัวสักนิดหนึ่งครับว่าเป็นใคร และกำลังทำอะไรอยู่
ครับชื่อ บิ๊ก—ปรเมศวร์ วัฒนประสาน เป็นแอดมินเพจ The Researcher จุดมุ่งหมายของเพจก็คือการเอาข้อมูลต่างๆ ทั้งในด้านวิทยาศาสตร์หรือว่าด้านการแพทย์มาทำให้เข้าถึงคนทั่วไป เอามานำเสนอในรูปแบบต่างๆ เช่น กราฟิกที่มีปฏิสัมพันธ์กับคนดู และเว็บไซต์ที่ตอนนี้ทำอยู่ก็เป็นโปรเจ็กต์การเก็บรวบรวมข้อมูลเกี่ยวกับการระบาดของ COVID-19 และการกระจายวัคซีน เอามาทำให้เป็นฐานข้อมูลเปิด (open source) ที่สามารถนำไปประมวลผลต่อได้ครับ
ทุกวันนี้เราเห็นข้อมูลตัวเลขและสถิติบนหน้าจอกันบ่อยๆ อยากรู้ว่าเราเชื่อข้อมูลสถิติที่เห็นอยู่ตรงหน้าได้แค่ไหน
ผมอยากให้มองแบบนี้ครับว่า สถิติก็คือเครื่องมือทางคณิตศาสตร์ที่ทำให้เราเห็นภาพของข้อมูลที่มีอยู่อย่างกระจัดกระจาย นำข้อมูลมาใส่ในบริบท (context) เพื่อทำให้เราเห็นปัจจัยและเหตุผลต่างๆ
แต่ก่อนที่เราจะอนุมานไปได้ว่าข้อมูลนั้นสื่อถึงอะไร เราต้องทำความเข้าใจก่อนว่า สถิติมันเก็บมายังไง และในบริบทของโลกความเป็นจริงคืออะไร
อะไรคือข้อควรระวังของการดูข้อมูลสถิติ
ในข้อมูลสถิติจะมีสิ่งที่เรียกว่า ตัวแปรแฝง หรือ lurking variable เป็นสิ่งที่ข้อมูลทุกตัวมีอยู่ ยกตัวอย่าง การทดลองประสิทธิภาพวัคซีน เราเห็นได้ว่าประสิทธิภาพวัคซีนนี้มี 90% 60% แตกต่างกันไป แต่ตัวแปรต่างๆ ที่อยู่เบื้องหลังตัวเลขเหล่านี้ก็มีอยู่ เช่น ระยะเวลาของการฉีดวัคซีนที่อาจจะไม่พร้อมกัน กลุ่มอายุของผู้ได้รับวัคซีนเองก็มีผลต่อการป้องกันโรคแตกต่างกัน ก่อนที่เราจะไปสรุปได้ว่าตัวเลขที่รายงานออกมานั้นเป็นอย่างไร เราต้องทำความเข้าใจก่อนว่าวิธีการเก็บข้อมูลและการทดลองเป็นยังไง ดูว่าข้อมูลตัวเลขนั้นมีที่มายังไงในโลกแห่งความเป็นจริง
เราโดนข้อมูลทางสถิติหลอกได้ไหม
ถ้าจะบอกว่าสถิติหลอกได้มั้ย ทุกอย่างก็หลอกได้ครับ สถิติก็เหมือนกับข่าวข่าวหนึ่ง เหมือนกับเวลาที่สื่อมวลชนจะเลือกเขียนข่าว เขาก็เขียนด้วยตัวหนังสือ แต่ว่าตอนนี้ก็มีสถิติเข้ามาก็ทำให้เราเขียนข้อมูลด้วยตัวเลข ข้อมูลด้วยแผนภูมิต่างๆ จะหลอกได้ไม่ได้ก็ขึ้นอยู่กับความเจตนาของคนเขียนกับจรรยาบรรณ
พอพูดถึงงานวิจัยหรือตัวเลขทางสถิติ เรามักจะเชื่อว่าตัวเลขเหล่านี้ผ่านกระบวนการที่ทำให้ดูจริง มีการตรวจสอบมาแล้ว มันเป็นแบบนั้นไหม
ก็มีหลายระดับนะครับ เอาอย่างนี้ละกัน สถิติแบบคุณภาพต่ำสุดเราก็จะได้มาจากพวกมีมหรือข้อมูลที่ไม่มีที่มาที่ไป ถัดขึ้นมาก็จะเป็นจากการดึงข้อมูลมาแล้วก็หาความสัมพันธ์ระหว่างสองตัวแปร (correlation) โดยที่คิดขึ้นมาเอง ไม่มีที่มาที่ไปมาสนับสนุน ไม่มีหลักฐานมารองรับ อันนี้ก็อันตรายเหมือนกัน ต่อมาก็จะเป็นงานวิจัยต่างๆ ที่มีกระบวนการวิทยาศาสตร์รองรับ มีที่มาที่ไปแต่อาจจะไม่ได้เผยแพร่วิธีการเก็บข้อมูล หรือการวิเคราะห์ที่ชัดเจนพอ ถ้าเกิดเราใช้กระบวนการวิทยาศาสตร์ที่มีการยอมรับในวงการก็จะมีการตีพิมพิ์ลงวรสารให้วงการนักวิทยาศาสตร์เข้าไปรีวิวว่าเชื่อได้มากน้อยแค่ไหน แล้วก็จะมีตีกลับออกมาก่อนที่จะนำไปให้สื่อกระแสหลักเผยแพร่ให้ประชาชนต่อไป
ในการดูข้อมูลทางสถิติมีดัชนีหรือปัจจัยอะไรที่เราต้องดูเป็นพิเศษไหม
อย่างแรกเลยเราต้องเข้าใจก่อนว่าไม่มี one size fit all solution เราได้แต่ลดความเสี่ยงข้อมูลแย่ๆ ที่จะเข้าไปในสมองเรา ที่ดูง่ายๆ ก็อาจจะเป็นคนโพสต์ว่าเป็นใคร น่าเชื่อมากแค่ไหน มีคนติดตามมากแค่ไหน แต่เดี๋ยวนี้ดูแค่นี้ก็ไม่พออีก เพราะก็มีหลายที่ที่นำเสนอข่าวที่มี agenda จนได้รับการยอมรับ ต่อมาก็น่าจะเป็นการทำรีเสิร์ชเพิ่มเติมว่าเขาอ้างอิงที่มาอะไร เราจะเลือกเชื่อได้มากแค่ไหนจาก
แปลว่าสุดท้ายเราต้องเช็กข้อมูลด้วยตัวเอง
ปฏิบัติกับการดูสถิติให้เหมือนกับการเลือกดูข่าวครับ ว่ามันมีที่มาจากไหน แล้วก็เชื่อถือได้มากน้อยแค่ไหน ไม่ใช่ว่าเห็นว่ามีแผนภูมิ มีตัวเลขปุ๊บก็เชื่อได้เลย
แล้วอย่างข้อมูลรายงานการแพร่เชื้อของ COVID-19 ล่ะ
อย่างข้อมูลสถิติ COVID-19 ก็มี lurking variable อยู่ ก็คือจำนวนการตรวจ ที่หากเราไปดูแต่ละประเทศว่าประเทศนี้ติดเชื้อเท่านี้ๆ จำนวนการตรวจก็ส่งผลต่อการพบเชื้อเหมือนกันครับ ตัวอย่างสัปดาห์ล่าสุดที่รัฐบาลเผยแพร่มาก็พบว่า อัตราการตรวจที่เป็น positive ของเราค่อนข้างสูง ซึ่งตอนนี้เฉพาะการตรวจทางห้องปฏิบัติการก็อยู่ที่ประมาณ 16–20% แล้ว ตัวเลขผู้ป่วย 10,000 กว่าก็ถือว่าน่าเป็นห่วง ถ้าตรวจมากกว่านี้ก็อาจจะพบผู้ติดเชื้อมากกว่านี้
แล้วก็มีเรื่องนิยามของผู้ติดเชื้อที่เราต้องยืนยันด้วย PCR ต่อไปเราอาจจะต้องเปลี่ยนรูปแบบการนับเคสยืนยัน (confirmed case) ที่ตรวจจากที่อื่นด้วย แต่ว่าตอนนี้กำลังการตรวจของเรามากสุดได้แค่ 60,000–70,000 คนต่อวัน
เราควรมองตัวเลขผู้ติดเชื้อยังไง ต้องตั้งคำถามกับตัวเลขที่เห็นแค่ไหน
ต้องทำความเข้าใจก่อนว่าความสามารถในการตรวจของเรามีอยู่อย่างจำกัด และตัวเลขนี้อาจจะไม่ได้สะท้อนสภาพจริงๆ ในบางพื้นที่ อย่างเช่นในพื้นที่กรุงเทพฯ ที่การระบาดค่อนข้างสูง เราก็ได้เห็นภาพของโรงพยาบาลเตียงเต็ม
และในตัวเลข 10,000 กว่าในรอบหลายวันที่ผ่านมา ผู้ป่วยก็มีระดับอาการที่แตกต่างกัน จำนวนเตียงอาจจะพอ แต่จำนวนเตียงสำหรับผู้ป่วยอาการสูงๆ ก็อาจจะไม่เพียงพอ แค่ตัวเลข 10,000 กว่า ก็จะยังทำให้เราเห็นภาพสถานการณ์โดยรวมได้ไม่ครบครับ
ถ้าดูจากข้อมูลรายงานสถานการณ์ COVID-19 รายวัน มีอะไรที่เราต้องใส่ใจ หรืออะไรที่ต้องปรับเปลี่ยนบ้าง
ที่ผมอยากจะให้มีการปรับเปลี่ยนจากภาพการรายงานก็คือ เวลาคนปกติเห็น 10,000 กว่าคน ต่อวัน เขาก็จะเห็นว่าแย่แล้ว ระบาดหนักจังเลย แล้วเขาก็จะเห็น10,000 ต่อวันไปทุกๆ วัน เพราะว่านี่คือธรรมชาติของโรคระบาดที่มันไม่ใช่พรุ่งนี้หายไปเหลือแค่สิบคน คนป่วยสะสมจะโตเป็น logistic curve แต่ถ้าเกิดเราดูติดเชื้อรายวันมันจะโตเป็นกราฟระฆังคว่ำ ผมว่าการรายงานน่าจะทำเป็นกราฟผู้ป่วยรายวันแล้วก็ทำไล่มาเป็นส่วนโค้ง (trajectory) เราจะเห็นแนวโน้มของอนาคตว่าควรจะรับมือยังไงกับมัน เราจะรับมือกับเส้นโค้งการระบาดนี้ยังไงถ้าเกิดมันพุ่งขึ้นไปโดยไม่มีแนวโน้มที่จะชะลอลง ซึ่งถึงตอนนั้นก็ทำใจได้เลยว่าในอีก 1–2 สัปดาห์ข้างหน้า เราต้องรับมือกับผู้ติดเชื้อที่เพิ่มขึ้นอย่างต่อเนื่อง
ส่วนตัวเลขคนหายป่วยสะสมไม่ค่อยมีประโยชน์เท่าไหร่ แต่ผมอยากให้ตัวเลขผู้ติดเชื้อสะสมเนี่ยเราแบ่งไปเลยว่าอาการหนักต้องอยู่ ICU ต้องใช้เครื่องช่วยหายใจมีมากเท่าไหร่ แล้วมีคนที่ดูแลอาการอยู่บ้านมากน้อยแค่ไหน เทียบกับทรัพยากรทางสาธารณสุข
ถ้าจะให้ดีผมอยากแบ่งเป็นแผนที่ประเทศเลยว่า โรงพยาบาลไหน ในพื้นที่ไหนมีทรัพยากรมากน้อยแค่ไหนถ้าจะต้องรับมือกับผู้ป่วย โรงพยาบาลแต่ละที่เหลือเตียงมากแค่ไหน
แปลว่ารูปแบบการนำเสนอข้อมูลมีผลมากเหมือนกัน
ยกตัวอย่างการนำเสนอข้อมูลที่มีการเปลี่ยนแปลงวันต่อวัน แต่เรากลับนำเสนอแค่เลขเดียวมันก็สร้างความตื่นตระหนกกับสังคมอยู่แล้ว เรากลับไปตีความว่า 10,000 ต่อวันเนี่ยมันแย่ มันก็เกิดความกลัว ความตื่นตระหนกขึ้น แทนที่จะทำให้เรารู้ว่าสถานการณ์จริงๆ มันเป็นยังไง แทนที่จะทำให้มองเห็นว่าอนาคตอีกกี่เดือนกันที่เราต้องยอมรับกับสถานการณ์นี้ต่อไป
การเก็บข้อมูลโดยส่วนกลางของบ้านเรามีประสิทธิภาพมากแค่ไหน
พูดถึงที่ทำอยู่ก็เป็นข้อมูลเกี่ยวกับ COVID-19 จะมีสองข้อมูลหลักๆ ที่ผมพยายามรวบรวม คือ ข้อมูลการติดเชื้อ กับข้อมูลการฉีดและการกระจายวัคซีน ข้อมูลการติดเชื้อถ้าดูคนทำงานภาคสนามก็พบว่ามีการเก็บข้อมูลที่หลากหลายมาก เช่น คนป่วยคนหนึ่งนี่เขาตามหมดว่าป่วยมาจากที่ไหน มีความเสี่ยงอะไร อายุเท่าไหร่ มีโรคประจำตัวไหม ได้รับวัคซีนหรือไม่ได้รับวัคซีน แล้วก็เก็บไว้ในฐานข้อมูลสาธารณสุขที่ถือว่ามีข้อมูลละเอียดเลยทีเดียวครับ ส่วนนี้ประชาชนสามารถเข้าถึงได้
ที่เขาเอามารายงานต่างๆ ก็จะเป็นเคสแต่ละเคสแยกรายงานเป็นจังหวัด ซึ่งเขาก็เป็นฐานข้อมูลที่ประชาชนเข้าถึงได้ แต่ก็ต้องอาศัยการประมวลผลกว่าจะได้มาว่าแต่ละจังหวัดมีผู้ติดเชื้อเท่าไหร่ แต่ละอำเภอมีผู้ติดเชื้อเท่าไหร่ ก็ถือว่าโอเคครับการจัดการข้อมูลการติดเชื้อ
แต่ที่ไม่ค่อยโอเค คือ ข้อมูลวัคซีนครับ แม้จะมีการเก็บข้อมูลในฐานข้อมูล immunization center ของกระทรวงสาธารณสุข แต่เขาเลือกวิธีรายงานรายวันเป็น .pdf ซึ่งไฟล์ .pdf ก็สามารถนำไปประมวลผลได้ แต่ต้องใช้คอมมูนิตี้ของโปรแกรมเมอร์ในการช่วยกันดึงตัวเลขเหล่านั้นจนนำมาทำเป็นเว็บไซต์และฐานข้อมูลให้คนอื่นนำไปใช้ได้
ผมว่าการเปิดเผยข้อมูล (open data) เป็นสิ่งสำคัญมากในสถานการณ์อย่างเช่นการกระจายทรัพยากรที่มีอยู่อย่างจำกัดอย่างวัคซีน จะช่วยสร้างความมั่นใจได้ว่าไม่มีการทุจริต เพราะว่ามีประชาชนจำนวนมากที่จับตามองอยู่
ตลอดการเก็บข้อมูลที่ผ่านมามีเรื่องน่าสนใจอะไรบ้าง
ผมกับเพื่อน data scientist ก็สังเกตเห็นว่า จำนวนตัวอย่างที่เป็น positive กับจำนวนเคสรายวันมันไม่ตรงกัน ไปสอบถามกับทางกระทรวงเขาก็บอกว่าวิธีการเก็บข้อมูลเคสกับวิธีการรายงานข้อมูลจากแล็บเนี่ยเราแยกฐานข้อมูลกัน ก็จะทำให้บางวันที่แล็บเรามีจำนวนตัวอย่างส่งมามาก เขาก็อาจจะค่อยๆ ส่งรายงานกลับมาในอนาตก็ได้ ทำให้จำนวนเคสกับจำนวนตัวอย่างยืนยันไม่ตรงวันกัน แล้วเราก็เห็นได้ว่าการตรวจในห้องแล็บของเรามีข้อจำกัดอย่างมากในการจะยืนยันผู้ติดเชื้อ
ตอนนี้ก็เห็นการปรับเปลี่ยนนโยบายที่เริ่มใช้ antigen test kit ในอนาคตน่าจะมีการเปลี่ยนนิยามของผู้ติดเชื้อยืนยันให้ใช้ antigen test kit ได้
แล้วก็เห็นว่าอัตราการติดเชื้อ (positive rate) ของเราเนี่ยสูงมากกว่าที่การระบาดวิทยาจะยอมรับได้ที่ 5% แต่ตอนนี้เราอยู่ที่ 16% บอกได้ว่าเราตรวจไม่เพียงพอ
เจอปัญหาอะไรบ้าง
ผมใช้เวลา 2–3 เดือน เพื่อจะดูว่าทรัพยากรของโรงพยาบาลเหลือมากน้อยแค่ไหน ปรากฏว่าข้อมูลนี้อยู่ในฐานข้อมูล CO-ward ที่ต้องใช้ยูเซอร์เนมและพาสเวิร์ดเพื่อไปดู ซึ่งเราเข้าดูไม่ได้ แม้แต่คนที่เป็น infectious diseases specialist ก็เข้าไปดูไม่ได้ ต้องเป็น สสจ. หรือแพทย์ที่ลงงานจริงๆ ที่ต้องคีย์ข้อมูลผู้ป่วย
อยากให้อธิบายเพิ่มว่าการเปิดเผยข้อมูลสำคัญแค่ในทั้งในช่วงปกติและวิกฤต
ช่วงเวลาปกติ ความสำคัญของการเปิดเผยข้อมูลก็คือทำให้เราทราบว่ารัฐบาลกำลังทำอะไรอยู่ แล้วกำลังให้ความสำคัญกับด้านใด อย่างเช่นนโยบายต่างๆ ของเขา ว่าทำได้มากแค่ไหน แล้วก็งบประมาณที่ใช้ไป แต่ในสถานการณ์ปกติ วิธีการที่เราทำกันก็คือแต่ละหน่วยงานก็มีวิธีการรายงานที่แตกต่างกันไป บางหน่วยงานก็เป็น .pdf บางหน่วยงานก็เป็น Excel อย่างการประชุมสภาเรื่องนโยบายเรื่องงบประมาณก็ทำออกมาเป็น .pdf เพราะกลัวว่าจะได้รับการดัดแปลงข้อมูลอะไรอย่างนี้แหละ จนสุดท้ายต้องอาศัยหมู่โปรแกรมเมอร์เข้าไปแปลงเป็นตัวเลข
ส่วนในสถานการณ์ COVID-19 การเปิดเผยข้อมูลก็ทำให้เราเข้าใจว่า เราอยู่ในสถานการณ์ที่หนักมากน้อยแค่ไหน แล้วประชาชนควรจะเตรียมตัวรับมือกับอนาคตที่จะเกิดขึ้นยังไงตามความเป็นจริง ในสหรัฐอเมริกาก็มี CDC ที่ให้ความสำคัญด้านนี้มาก เขาเปิดเผยหมดว่าวัคซีนที่ได้ไปมีกลุ่มอายุเท่าไหร่ได้ไปบ้าง มากน้อยแค่ไหน แล้วก็ลงไปถึงระดับเมืองย่อยไปจากระดับรัฐด้วยซ้ำว่า เมืองนี้ได้วัคซีนมากน้อยเท่าไหร่ ประชากรกลุ่มอายุเท่าไหร่ที่ได้ไปตามความสำคัญที่เขาให้จากคนแก่ไปยังคนหนุ่มสาว ก็ทำให้เห็นการกระจายวัคซีน การจัดคิวที่ชัดเจน ตรวจสอบย้อนหลังได้
การเข้าถึงข้อมูลไม่ได้ส่งผลขนาดไหน
อย่างข้อมูลผู้ป่วยในแต่ละโรงพยาบาลเขาก็ไม่ให้เราเข้าดู ผมยกตัวอย่างอเมริกาอีกแหละ เขาก็มีให้เห็นเลยว่า ICU มีเท่าไหร่ เป็นกี่เปอร์เซ็นต์ของทรัพยากของเขา แล้วก็เผยแพร่เป็นประจำทุกวัน อันนี้ก็ทำให้ประชาชนรู้ถึงความเป็นจริงที่เกิดขึ้นว่ามันระบาดมากน้อยแค่ไหน เพราะว่าตัวแปรของการระบาดโรคว่าหนักไม่หนักจริงๆ ต้องไปดูว่าสาธารณสุขรับได้มากน้อยแค่ไหน
อีกประเทศก็สหราชอาณาจักร การตรวจของเขาถือว่าทำได้ดีมาก ของเขานับการตรวจ antigen test kit ที่เขาส่งให้ประชาชนว่าส่งได้มากเท่าไหร่ แล้วผล positive มากน้อยแค่ไหน
สุดท้ายมีอะไรที่อยากพูดถึงไหม
อยากรัฐบาลให้ความสำคัญกับการเผยแพร่ข้อมูลในรูปแบบที่สาธารณะสามารถนำไปใช้ต่อได้ อย่าเผยแพร่ข้อมูลเป็น .pdf หรือ info graphic สวยงามอย่างเดียว เราต้องการไฟล์ตัวเลข Excel หรือ csv
แล้วก็ขอบคุณโปแกรมเมอร์ที่มาช่วยในโปรเจกต์นี้ครับ ใครสนใจก็เข้าไปดูในเว็บไซต์เราได้ที่ รายงานการฉีดวัคซีน COVID-19 ประเทศไทย – The Researcher (researcherth.co)