มีบทความหนึ่งที่ผมเคยเขียนไว้บน The Matter เกี่ยวกับ Emotional Economy ที่บริษัทสตาร์ทอัพพยายามคาดเดาอารมณ์ความรู้สึก หรือแม้กระทั่งความคิดจากสีหน้าของมนุษย์ว่ามีปฏิกิริยาตอบสนองต่อสื่อที่พวกเขากำลังเสพแบบ real-time แล้วปรับคอนเทนต์ไปตามการตอบสนองในแต่ละครั้ง แต่มีบทความและข้อพิสูจน์หลายอันที่บอกว่ามันทำงานได้ไม่ค่อยดีและเชื่อถือไม่ได้ อย่างบทความจาก The Verge บอกว่า
“อารมณ์ความรู้สึกนั้นถูกแสดงออกมาได้หลายทาง ซึ่งทำให้มันยากที่บอกอย่างแม่นยำว่าใครคนนั้นรู้สึกยังไงจากแค่การขยับของใบหน้า”
พูดอีกอย่างก็คือว่ามนุษย์นั้นเป็นสิ่งมีขีวิตที่ซับซ้อน ใบหน้าอาจจะเปื้อนยิ้มแต่ว่าข้างในนั้นอาจจะร้องไห้หรือโกรธเป็นฟืนเป็นไฟอยู่ก็ได้
มนุษย์เป็นสิ่งมีชีวิตที่เรียนรู้และปรับตัวเพื่อความอยู่รอด ตั้งแต่ครั้งเป็นเด็ก ความสามารถหนึ่งที่ไม่ต้องมีใครสอนแต่ทุกคนทำได้คือการโกหก จากข้อมูลของเว็บไซต์ Psychology Today บอกว่า “การโกหกเป็นรูปแบบหนึ่งของอำนาจ เป็นรูปแบบหนึ่งของความเป็นตัวของตัวเอง มันเป็นเรื่องธรรมดา” และเมื่อโตขึ้น ความสามารถนี้ก็เติบโตตามเราขึ้นมาด้วย เวลาเราพูด ทวีต โพสต์เฟซบุ๊ก ลงภาพบนอินสตาแกรม อยู่ต่อหน้าหัวหน้า ฯลฯ เราสามารถโกหกได้ตลอดเวลา (และเก่งด้วย) แต่มีสิ่งหนึ่งที่มนุษย์ทำได้ไม่ดีนักคือซ่อนอารมณ์ไว้ในน้ำเสียงเวลาพูดออกมา ยกตัวอย่างง่ายๆ แค่เวลาภรรยาผมพูดว่า “ไม่เป็นไร” มันมีความหมายที่หลากหลายซ่อนอยู่ บางครั้งมันเป็น “ไม่เป็นไร” อาจจะลุกเป็นไฟ กลายเป็นการถกเถียงที่ยาวนานจากความไม่พอใจที่เธอพยายามซ่อน หรือว่ามันคือ “ไม่เป็นไร” แบบไม่เป็นไรจริงๆ และทุกคนแยกย้ายไปนอนได้ แต่หลายต่อหลายครั้งก็คาดเดาไม่ได้ว่าจะออกมาแบบไหน ซึ่งผมเชื่อว่าหลายคนเคยมีประสบการณ์แบบเดียวกันนี้มาแล้วทั้งนั้น
นั่นจึงเป็นเหตุผลว่าทำไมนักวิจัยมากมายคิดว่าเป็นเรื่องน่าสนใจที่จะใช้ AI เพื่อค้นหาความลับของความหมายในน้ำเสียงที่เราพูดออกไป ตีความหมายและวิเคราะห์ว่าสิ่งที่เรากำลังพูดอยู่นั้นมีอะไรแอบแฝงอยู่หรือไม่ ไม่ใช่แค่เรื่องอารมณ์โกรธ สุข ทุกข์ เหงา เศร้า เท่านั้น แต่รวมไปถึงสุขภาพจิตและบุคลิกภาพของแต่ละคนด้วย (ซึ่งก็ต้องขอบคุณพวก Smart Assistants อย่าง Siri หรือ Google Assistant ที่ทำให้เรานั้นคุ้นชินกับการพูดกับ Machine มากขึ้นเรื่อยๆ ด้วย)
ชารลส์ มาร์มาร์ (Charles Marmar) นักจิตแพทย์ของ NYU บอกว่าสิ่งที่เขาสนใจไม่ใช้ ‘เนื้อหา’ ที่เราพูด แต่เป็น ‘วิธี’ ที่เราพูดมากกว่า เป็นคลื่นเสียงที่ออกมาจากลำคอของเราที่กำหนดความหมายของเนื้อหาที่ออกมาจากปากเอาไว้ เขาทำการศึกษาเกี่ยวกับ PTSD (Post-Traumatic Stress Disorder หรือโรคเครียดหลังผ่านเหตุการณ์ร้ายแรง เป็นภาวะทางจิตที่เกิดจากการเผชิญกับเหตุการณ์ตึงเครียด น่ากลัว หรือกระทบกระเทือนจิตใจอย่างรุนแรง) มาเป็นเวลาหลายสิบปี เขาได้ทำดัชนีชี้วัดทางชีวภาพของเสียง (Vocal Biomarkers) สำหรับ PTSD โดยเฉพาะ มีตั้งแต่โทนเสียง ความเร็วในการพูด วิธีที่เราเน้นคำต่างๆ และการเว้นวรรคคำต่างๆ ซึ่งสิ่งเหล่านี้เป็นต้นแบบของการดึงเอา ‘ความหมาย’ ที่แฝงอยู่ ‘น้ำเสียง’ ของเราออกมานั้นเอง โดยป้อนข้อมูลเสียงของผู้ป่วยให้กับ AI โดยใช้เทคนิค Machine Learning
แต่ว่าเทคนิคนี้ถูกนำไปดัดแปลงและใช้กับเคสนอกจากผู้ป่วย PTSD ได้ด้วย โดยการใช้ข้อมูล Vocal Biomarkers ตัวอื่นๆ ที่แตกต่างกันออกไป อย่างผู้ป่วยโรคซึมเศร้า โรควิตกกังวล โรคไบโพล่า (โดยเฉพาะช่วง Mania ที่มักน้ำเสียงที่ดัง สูงและ รุนแรง) หรือผู้ที่มีโอกาสป่วยทางจิต ส่ิงเหล่านี้ล้วนมีความเป็นไปได้แล้วทั้งนั้น
CompanionMx – บริษัทเทคโนโลยีดิจิทัลเพื่อสุขภาพที่เริ่มต้นจาก MIT Media Lab และได้รับการรับรองจาก Harvard Medical School – ได้ออกแอพพลิเคชั่นชื่อว่า ‘Companion’ ที่ทำให้สมาร์ทโฟนในมือของเรานั้นติดตามอารมณ์ความรู้สึกของผู้ใช้งานว่ามีความเสี่ยงที่จะเป็นโรคซึมเศร้ารึเปล่า ในเว็บไซต์ของบริษัทบอกว่า
“ระบบใช้การมอนิเตอร์เสียงอย่างสม่ำเสมอ รวมถึงเก็บข้อมูลของสมาร์ทโฟนอื่นๆ เพื่อสร้างคลื่นเสียงและดัชนีชี้วัดทางชีวภาพของพฤติกรรมที่สามารถคาดเดาอาการหลักๆ ของอารมณ์และอาการป่วยของโรควิตกกังวล”
ซับ ดัตต้า (Sub Datta) CEO ของ CompanionMx อธิบายขั้นตอนการทำงานว่า ผู้ใช้งานจะบันทึกไดอารี่เสียงของตัวเองอย่างสม่ำเสมอ อย่างน้อยต้องอาทิตย์ละครั้งและหนึ่งคลิปต้องยาวไม่น้อยกว่า 10 วินาที หลังจากเก็บข้อมูลได้ประมาณ 7 วันเพื่อเป็นฐานเริ่มต้น AI ก็จะมาวิเคราะห์ข้อมูลตรงนี้ให้และแชร์ข้อมูลของเขาให้กับแพทย์ผู้ดูแล โดยผู้ป่วยที่ใช้แอพพลิเคชั่นตัวนี้จะรู้ว่าตัวเองรู้สึกดีมากขึ้นไหม ดีขึ้นแค่ไหน หรือว่าถ้ามีอาการน่าห่วงก็จะได้รับการดูแลจากแพทย์ได้ทันที โดยแอพพลิเคชั่นตัวนี้เปิดให้ใช้งานสำหรับผู้เชี่ยวชาญในการรักษาเท่านั้น (ไม่ได้เปิดให้ใช้สาธารณะ) ผลลัพธ์ที่ได้เป็นที่น่าพอใจว่าผู้ป่วยรู้สึกมีส่วนร่วมกับการพัฒนาตัวเองและมีปฏิสัมพันธ์ที่ดีกับแพทย์ที่ดูแลมากขึ้นด้วย
นอกเหนือจากเรื่องการแพทย์แล้ว Voice Analysis ด้วย AI นั้นกำลังถูกนำมาใช้ในธุรกิจอื่นๆ ด้วยเช่นเดียวกัน ซึ่งจุดนี้เองที่มีหลายๆ คนเริ่มบอกว่ามัน ‘น่ากังวลใจ’ ไม่น้อยเลยทีเดียว
บริษัทสตาร์ทอัพสัญชาติอิสราเอลชื่อว่า ‘VoiceSense’ บอกว่าพวกเขาสามารถวิเคราะห์เสียงของผู้ใช้งานและบ่งบอกลักษณะของบุคคลนั้นๆ ได้หลากหลายรูปแบบ ตั้งแต่สไตล์การลงทุนไปจนถึงการว่าจ้างพนักงานและโอกาสในการลาออกของพนักงานในบริษัทด้วย ตัวอย่างหนึ่งที่พวกเขาทำคือการนำข้อมูลเสียงของลูกหนี้มาวิเคราะห์ ผลลัพธ์ที่ได้ออกมานั้นน่าสนใจมาก โดยกลุ่ม ‘เสียงต่ำ’ (ที่คัดโดยอัลกอริทึมของ VoiceSense) จะผิดชำระหนี้เพียง 6% ส่วนกลุ่ม ‘เสียงสูง’ นั้นผิดชำระหนี้ถึง 27% และอีกตัวอย่างหนึ่งคือความเป็นไปได้ที่พนักงานของบริษัทจะลาออก ผลที่ได้คือประมาณ 13% ของกลุ่มเสี่ยงต่ำนั้นจะลาออก เทียบกับ 39% ของกลุ่มที่มีความเสียงสูง
VoiceSense เป็นหนึ่งในสตาร์ทอัพหลายแห่งที่กล่าวอ้างถึงผลลัพธ์อันน่าทึ่งนี้จากการใช้ AI วิเคราะห์น้ำเสียงของผู้ใช้งาน แต่ชารลส์เองก็บอกว่านี่เป็นเรื่องที่ต้องพึงระวังไว้เป็นอย่างมาก เพราะเมื่อไหร่ก็ตามที่มันเกี่ยวข้องกับสุขภาพและชีวิตของผู้คน ความผิดพลาดในการวินิจฉัยโรค (ทั้ง False Negative และ False Positive อย่างที่เราเคยเห็นกันมาแล้วในเคสของบริษัทสตาร์ทอัพอื้อฉาวอย่าง Theranos) จะเพิ่มความเสี่ยงให้กับบุคคลนั้นๆ อย่างที่ไม่ควรจะเกิดขึ้น (อาจจะเข้ารับการรักษาไม่ทันการหรือได้รับยาที่มากเกินไป)
อีกเรื่องหนึ่งที่ไม่พูดถึงคงไม่ได้คือเรื่องความเที่ยงตรงของผลลัพธ์และความเป็นส่วนตัว จะเกิดอะไรขึ้นถ้าบริษัทหนึ่งที่คุณไปสมัครงานใช้ VoiceSense วิเคราะห์เสียงแล้วบอกว่าคุณอยู่ในกลุ่มที่ ‘ไม่เหมาะสม’ หรือ ‘ขาดความมั่นใจ’ หรืออะไรบางอย่างที่ไม่เป็นความจริง อาจจะเกิดความผิดพลาดในการวิเคราะห์หรืออะไรก็ตามจนคุณพลาดงานนั้นไป หรืออย่างไปขอกู้เงินธนาคารเพื่อเริ่มต้นทำธุรกิจ แต่ VoiceSense บอกว่าคุณอยู่ในกลุ่ม “เสียงสูง” และมีโอกาสผิดชำระหนี้ สุดท้ายแล้วก็ไม่ได้เงินก้อนนั้นมาเริ่มต้นธุรกิจที่ตัวเองฝัน เพียงเพราะ AI ตัดสินแบบนั้นเหรอ?
แค่นั้นยังไม่พอ แล้วข้อมูลเหล่านี้ไปไหน? ใครเป็นเจ้าของ? เมื่อหลุดจากปากเราไปแล้วสิ่งเหล่านี้ไม่มีความเป็นส่วนตัวอีกต่อไปอย่างนั้นหรือ? แน่นอนว่าโลกของเราที่มีทั้ง Google, Facebook, Instagram, Siri, Alexa ฯลฯ ความเป็นส่วนตัวนั้นมีน้อยมากๆ อยู่แล้ว และถ้าต่อไปการพูดกับสมาร์ทโฟนหรือการคุยโทรศัพท์กับบริษัทต่างๆ มีการเก็บข้อมูลเหล่านี้เพื่อทำการโฆษณาแบบเฉพาะเจาะจงขึ้นมาจะเกิดอะไรขึ้น? ยกตัวอย่างเช่นจากน้ำเสียงของคนคนหนึ่งอาจจะบอกได้ว่าคนนี้อยากซื้อ iPhone อยู่? แล้วก็ยิงโฆษณา iPhone เครื่องใหม่มาให้ทันที โดยเฉพาะยิ่งอุปกรณ์อย่าง Smart Home Assistants อย่าง HomePod, Amazon Echo, Google Home และอีกหลายยี่ห้อถูกวางตั้งไว้ในแทบทุกห้องของบ้าน ข้อมูลเสียงเหล่านี้ถูกเก็บไปแล้วกี่ร้อยกี่พันชั่วโมง บริษัทยักษ์ใหญ่เหล่านี้ ‘ตอนนี้’ อาจจะยังไม่ได้ทำอะไรกับขุมทองของข้อมูลที่เก็บเอาไว้ แต่ในอนาคตเราไม่มีทางรู้ได้
แต่อย่างน้อยๆ ถ้าอุปกรณ์ Smart Home Assistants จะฉลาดมากพอที่วิเคราะห์ทุกอย่างที่พูดในบ้านของเราได้ ผมก็อยากจะเสนอว่าให้พวกเขาทำฟีเจอร์หนึ่งคือการเดาน้ำเสียงของคนในบ้าน เพื่อรับมือกับอารมณ์ที่กำลังจะเกิดขึ้นได้ถูก อย่างเช่นการเดาน้ำเสียงคำว่า ‘ไม่เป็นไร’
อ้างอิงข้อมูลจาก
AI ‘Emotion recognition’ can’t be trusted
Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements
How CompanionMX trained its AI to spot signs of depression
Why companies want to mint the secrets in your voice
Unlocking the secrets hidden inside your voice
Our phones can now detect health problems from Parkinson’s to depression. Is that a good thing?
Innovative Technology Changes How We Diagnose And Treat Workplace Mental Health
How AI Is Helping to Detect Suicide Risk in LGBTQ Youth, Veterans