เมื่อคืนก่อนมีโอกาสไปค้นดูคลิปวีดีโอหนึ่งจาก YouTube เกี่ยวกับเมนูการทำ ‘ไข่พระอาทิตย์’ ให้ลูกสาวเป็นอาหารเช้า หลังจากที่คลิกดูวีดีโอแรกผ่านไป ระบบแนะนำ (Recommendation System) ของ YouTube ก็เลือกคลิปต่อไปมาให้ดูต่อเป็น “แซนวิชง่ายๆ สำหรับเด็ก” ซึ่งด้วยความที่มันดูน่าสนใจดี ก็กดคลิกดูอันต่อไป พอจบปุ๊บก็มีอีกอันที่น่าสนใจมาต่อ ก็กดดูอีก สรุปสุดท้ายแทนที่จะใช้เวลาไม่นานหาเมนูให้ลูกสาวทานแค่ไม่กี่นาที รู้ตัวอีกทีคือผ่านไปเป็นชั่วโมง กลายเป็นนอนดึกไปซะงั้น
นี่ไม่ใช่ครั้งแรกที่เป็นแบบนี้ และผมเองก็เชื่อว่าหลายๆ คนก็คงเจอแบบนี้เช่นเดียวกัน มันเป็นระบบที่สร้างรายได้มหาศาลให้กับ YouTube เพราะผู้ใช้งานดูโฆษณาเยอะขึ้น ระบบแนะนำวีดีโอถัดไปเริ่มใช้มาตั้งแต่ช่วงปี ค.ศ.2016 และพัฒนามาอย่างต่อเนื่อง โดยผลการสำรวจจาก Pew Research Center พบว่ามากกว่า 80% ของผู้ใช้งาน YouTube จะคลิกดูที่วีดีโอที่ทางระบบแนะนำมาให้ด้วย
เบื้องหลังคำตอบที่ทุกคนน่าจะพอรู้กันอยู่แล้วว่าต้องมี Machine Learning (ML) ที่คอยเรียนรู้และพัฒนาขึ้นจากข้อมูลต่างๆที่ได้รับ เพื่อให้การเลือกวีดีโอต่อไปนั้นมีความแม่นยำมากขึ้นเรื่อยๆ แต่สิ่งที่น่าสนใจก็คือว่าแล้วเจ้าอัลกอริทึมนี่มันทำงานยังไงกันแน่ และแตกต่างจากที่อื่นยังไง?
ก่อนอื่นเราต้องไปดูประวัติความเป็นมาของระบบแนะนำวีดีโอของ YouTube ก่อนเพื่อจะได้เข้าใจว่าทำไมมันถึงมาอยู่ในจุดนี้ได้
ในช่วงแรกของการถือกำเนิดของ YouTube ตั้งแต่ปี ค.ศ.2005 – 2012 นั้น ทุกอย่างดูเรียบง่ายไปหมด พวกเขาใช้เพียงจำนวนคลิ๊กเพื่อแนะนำให้ผู้ใช้งานดูเท่านั้น ซึ่งถ้าย้อนกลับไปตอนนั้นตัววัดค่าอันนี้ก็ดูสมเหตุสมผลดี เพราะวีดีโอไหนที่คนคลิ๊กเยอะๆ ก็น่าจะดี ควรจะแนะนำต่อ แต่แนวคิดนี้เริ่มมีปัญหาเพราะว่าวีดีโอที่ ‘engaging’ หรือดึงดูดความสนใจ น่าสนใจ ดูได้ยาวๆ ที่ผู้ใช้งานดูแบบนานๆ ไม่ได้รับผลประโยชน์จากระบบแบบนี้ แต่ดันไปให้น้ำหนักกับพวกวีดีโอที่ชื่อน่าสนใจ บางอันเป็น Clickbait หรือจั่วหัวเพื่อล่อคลิก รูปภาพปกที่ชวนสงสัย ชวนกดดู หรือแม้แต่ชื่อวิดีโอที่ไม่ตรงกับเนื้อหาข้างในเลยก็มี ซึ่งวีดีโอเหล่านี้ได้คลิกเยอะ ได้ยอดดูเยอะแต่ engagement หรือปฏิสัมพันธ์ค่อนข้างน้อย กลายเป็นว่าผู้ใช้งานในช่วงนั้นไม่ค่อยชอบวีดีโอที่ YouTube แนะนำให้สักเท่าไหร่
เพื่อแก้ปัญหา Clickbait และมองว่า engagement สำคัญกว่าจำนวนคลิก YouTube เลยเริ่มหันมาดูว่าวีดีโออันไหนที่คนดูนานๆ ก็ให้คะแนนวีดีโออันนั้นว่าน่าสนใจ น่าแนะนำให้ผู้ใช้งานคนอื่นๆ ดูแทน นี่เป็นระบบที่พัฒนาขึ้นมาอีกระดับตั้งแต่ช่วงปี ค.ศ.2012 – 2016 ที่ช่วยทำให้ผู้ใช้งานนั้นรู้สึกว่าพวกเขาได้รับวีดีโอที่น่าสนใจและดูนานขึ้น ซึ่งก็สร้างรายได้ให้กับบริษัทมากขึ้นด้วยเพราะยิ่งดูนาน ยิ่งมีโฆษณาเยอะไปด้วย ปัญหาของ Clickbait ก็ลดลง (ไม่ได้หายไปนะ) แต่ก็ยังสามารถพัฒนาขึ้นได้อีก
มาถึงยุคต่อมาที่เป็นการเข้ามาของ Deep Learning ซึ่งเป็นรูปแบบหนึ่งของ Machine Learning ที่เป็น Artificial Intelligence (AI) เลียนแบบระบบเซลล์ประสาทในสมองของมนุษย์ (Neural Network) ซึ่งข้อดีของ Deep Learning นั้นจะเด่นชัดเมื่อจำนวนข้อมูลนั้นมีขนาดมหาศาล อย่างที่รู้กันว่าทุกวินาทีมีคนบนโลกคอยอัพโหลดวีดีโอใหม่ๆ ขึ้นบน YouTube มากมายนับไม่ถ้วน ซึ่งระบบเดียวกันนี้ก็ถูกนำไปใช้ในแพลตฟอร์มอื่นๆอย่าง Facebook, Twitter, Spotify, Netflix และอื่นๆอีกมากมาย
ระบบแนะนำของ YouTube นี้เรียนรู้และแนะนำวีดีโอที่น่าสนใจ
ให้กับผู้ใช้งานแต่ละคนไม่เหมือนกัน มันรู้จักความชอบของ
แต่ละคนมากขนาดที่ว่าค่าเฉลี่ยของคนที่ใช้งานบนมือถือนั้น
จะดู YouTube ครั้งหนึ่งอยู่ที่ราวๆ 60 นาที
ระบบนี้ทำงานได้อย่างดีเยี่ยม แต่ก็ยังมีเรื่องที่น่ากังขาอยู่อย่างหนึ่งที่ระบบนี้จะเลือกวีดีโอที่ ‘กระตุ้น’ อารมณ์ความรู้สึกอยากรู้อยากเห็นของผู้ใช้งาน ในรายงานของ The Wall Street Journal เขียนเอาไว้ว่า
“จากการสำรวจพบว่าระบบแนะนำวีดีโอของ YouTube นั้น หลายครั้งจะพาผู้ใช้งานไปยังช่องต่างๆ ที่เป็นเรื่องราวเกี่ยวกับทฤษฎีสมคบคิด กลุ่มหัวรุนแรง และวีดีโอที่ไม่เป็นความจริง แม้ว่าผู้ใช้งานเหล่านั้นอาจจะไม่เคยแสดงออกเลยว่าสนใจเรื่องราวเหล่านี้”
พูดอีกอย่างหนึ่งก็คือแม้ว่าตอนแรกผู้ใช้งานอาจจะไม่ได้สนใจ แต่ด้วยความอยากรู้อยากเห็นของมนุษย์ก็อาจจะกดเข้าไปดู และถ้าผู้ใช้งานเริ่มคลิกดูวีดีโอบางอย่าง เช่น วีดีโอเกี่ยวกับการเมืองที่เอนเอียงไปทางด้านหนึ่ง YouTube ก็จะเริ่มหาวีดีโอที่กระตุ้นปลุกเร้าความรู้สึกที่สะท้อนเรื่องเหล่านี้ให้รุนแรงและมีความเอนเอียงมากขึ้นเรื่อยๆ ซ้ายสุดขั้ว ขวาสุดขีดเลยทีเดียว เกิด ‘rabbit-hole effect’ ที่มีคอนเทนต์สุดขั้วและทำให้เกิดความแตกแยกทางสังคม ซึ่งก็กลายเป็นปัญหาและประเด็นที่พูดถึงกันมาก และทำให้คอนเทนต์ที่อยู่กลางๆ หรือเป็นคอนเทนท์ที่แท้จริงแล้วมีมุมมองที่น่าสนใจกลับไม่มีใครสนใจเลยด้วยซ้ำ
ถึงแม้ว่าระบบหลังบ้านที่ทำงานจริงๆ ของ YouTube นั้นจะเป็นความลับของบริษัท แต่ช่วงที่ผ่านมาก็มีเอกสารแจกแจงรายละเอียดการทำงานให้คนทั่วไปสามารถทำความเข้าใจในภาพใหญ่ได้ แม้จะไม่ได้ลงลึกไปในรายละเอียดทั้งหมดแต่ก็เพียงพอที่จะช่วยให้ผู้ใช้งานอย่างเราทุกคน รวมไปถึงเหล่าผู้สร้างคอนเทนท์เข้าใจว่าระบบนี้แท้จริงแล้วเป็นยังไงกันแน่ ทำไมระบบถึงแนะนำวีดีโอเหล่านี้มาให้เราดู
เบื้องต้นจากข้อมูลเราจะพบว่าความท้าทายของระบบนี้มีอยู่สามอย่างก็คือ
- Scale หรือ ขนาด – หมายถึงว่าระบบแนะนำวีดีโอทั่วไปนั้นทำงานได้ดีเมื่อถึงจุดหนึ่งเท่านั้น แต่มาใช้กับ YouTube ไม่ได้ผลเพราะว่าขนาดมันใหญ่มาก ไม่มีประสิทธิภาพมากเพียงพอ
- Freshness หรือ ความสดใหม่ – หมายถึงว่าทุกวินาทีที่หมุนไป จะมีวีดีโอใหม่ๆ ถูกอัพโหลดขึ้นบน YouTube เสมอ นั้นหมายความว่าระบบนี้จะต้องตอบสนองอยู่ตลอดเวลากับคอนเทนต์ใหม่ๆ เหล่านี้และการปฏิสัมพันธ์ของผู้ใช้งานกับคอนเทนต์ใหม่ๆ เหล่านี้ด้วย และยังต้องจัดความสมดุลระหว่างคอนเทนต์ใหม่ที่อัพโหลดกับคอนเทนต์เก่าที่น่าสนใจให้ผู้ใช้งานที่เหมาะสม
- Noise หรือ ข้อมูลที่ผิดปกติ – ข้อมูลการใช้งานของผู้ใช้งานบน YouTube นั้นค่อนข้างซับซ้อน บางคนเปิดค้างไว้ไม่ได้ดู บางคนเป็นเด็กกดดูไปเรื่อย บางคนมีความสนใจที่หลากหลาย ฯลฯ สิ่งเหล่านี้คือข้อมูลที่ระบบแนะนำจะต้องจัดการให้เรียบร้อยด้วย
นระบบนี้จะมีระบบเครือข่าย Deep Learning อยู่สองส่วนที่สำคัญ : Candidate Generation Network กับ Ranking Network ซึ่งทั้งสองส่วนนี่จะทำงานด้วยกันเป็นระบบทั้งหมด เมื่อเรากำลังดูวีดีโออันหนึ่งอยู่ ระบบก็จะเอาข้อมูลของเราและบริบททั้งหมดมาสร้างลิสต์ของวีดีโอที่เราน่าจะกดดูอันต่อไป ก็เหมือนกับการที่ดูเมนูทำไข่พระอาทิตย์ของผมนั้นแหละครับ
Candidate Generation Network เป็นระบบที่เอาโกดังของวีดีโอของ YouTube มาคัดแยกให้เหลือไม่กี่ร้อยอัน หลังจากนั้นระบบที่สอง Ranking Network ก็เข้ามาทำงานต่อโดยให้คะแนนแต่ละวีดีโอว่าผู้ใช้งานคนนี้ ‘น่าจะ’ สนใจวีดีโอไหนมากที่สุดก็จะได้อยู่สูงสุดและถูกแสดงไว้ก่อน อาจจะลองนึกถึงการแข่งขันกีฬาสักอย่างหนึ่งที่คัดเลือกผู้ชนะก็ได้ จะมีรอบคัดเลือกก่อน ผ่านมาถึงรอบชิงแล้วถึงจะได้เป็นผู้ชนะ ซึ่งจะทำให้มั่นใจได้มากขึ้นว่าผู้ชนะนั้นมีการคัดเลือกที่เหมาะสมแล้วจริงๆ
ระบบแรกนั้นจะเอาพวกประวัติการใช้งานต่างๆ ของเรามาดึงเอาวีดีโอหลายร้อยอันในโกดัง YouTube ออกมา (ประวัติการค้นหา, วีดีโอที่เคยดู, พื้นที่ที่อยู่, เพศ ฯลฯ) เพื่อทำให้มันแม่นยำยิ่งขึ้น ยังมีการใช้การคัดกรองแบบ Collaborative Filtering ที่ไม่ได้เลือกวีดีโอที่หมวดหมู่ เวลา หรือ ชื่อ เท่านั้น แต่จะขึ้นอยู่กับ rating ที่ได้รับจากผู้ใช้งานคนอื่นๆ ที่มีความคล้ายคลึงกัน เพราะฉะนั้นไม่ได้หมายความว่าวีดีโอที่ได้รับความนิยมสูงจะผ่านการคัดเลือกด่านนี้ไปได้ เพราะอาจจะไม่ตรงกับความสนใจของผู้ใช้งานหรือเป้าหมายของ YouTube เอง
เมื่อกรองมาแล้วในระดับหนึ่ง ระบบที่สองก็จะเอามาแตกย่อยให้เล็กลง
หลังจากนั้นก็ใส่คะแนนเข้าไปในแต่ละวีดีโอแล้วเรียงให้ผู้ใช้งาน
ได้รับชมจากร้อยๆ วีดีโอที่ผ่านมาจากระบบข้างบน
ระบบนี้จะดูพวกฟีเจอร์ต่างๆ ของวีดีโอมากยิ่งขึ้น อย่างพวกภาษาที่ใช้ในวีดีโอก็มีผล ยกตัวอย่างเช่นชาวเยอรมันชอบดูวีดีโอภาษาอังกฤษ แต่คนที่ใช้ภาษาอังกฤษไม่ได้ชอบดูวีดีโอภาษาเยอรมัน ข้อมูลอื่นๆ อย่างครั้งสุดท้ายที่ดูคือเมื่อไหร่ หรือเคยเห็นมาแล้วกี่ครั้ง ค้นหามาแล้วกี่ครั้ง ฯลฯ สิ่งเหล่านี้ถูกนำมาคำนวณเพื่อใส่คะแนนเข้าไปในแต่ละวีดีโอ โดยเป้าหมายก็คือการคำนวณ ‘expected watch time’ หรือเวลาที่คาดไว้ว่าวิดีโอนี้จะถูกคลิกแล้วดู มีความยาวประมาณเท่าไหร่ ถ้าได้คะแนนสูงก็จะถูกจัดว่าเป็นวีดีโอที่ควรจะแนะนำ
ซึ่งการใช้โครงสร้างที่มีสองระบบแบบนี้ แทนที่จะมีระบบเดียวเหมือนเมื่อก่อนนั้นช่วยทำให้ผลลัพธ์ที่ออกมาตรงมากขึ้นจากข้อมูลจำนวนมหาศาลที่พวกเขามี ซึ่งเป็นความท้าทายที่เผชิญอยู่ เป้าหมายคือให้ผู้ใช้งานอยู่ดูยาวๆ ให้มากที่สุด มากกว่าที่จะเป็นการกดไลก์และปฏิสัมพันธ์อื่นๆ กับวีดีโอ
ระบบนี้จะแนะนำวีดีโอที่คุณน่าจะดูยาวที่สุด
เพื่อให้ได้เห็นโฆษณามากที่สุด
ซึ่งก็สร้างรายได้ให้พวกเขามากที่สุดไปด้วย
ซึ่งนี่ก็เป็นเหตุผลที่ทำให้คอนเทนต์ที่กระตุ้นความสนใจหรือดึงดูดความสนใจของเราถูกแนะนำขึ้นมาด้วย เพราะระบบแนะนำนั้นถูกสร้างขึ้นมาโดยมีเป้าหมายอย่างเดียวคือให้ผู้ใช้งานอยู่นานที่สุด คอนเทนต์ที่กำลังเป็นประเด็นโต้แย้ง คอนเทนท์ที่อาจจะแตกต่างจากที่เคยเห็นมา ดึงดูดความอยากรู้และอยากคลิกของเรา เมื่อเข้าไปเสร็จก็จะอยากดูให้จบแล้วไปต่อเรื่อยๆ ซึ่งถามว่าเป็นความผิดพลาดของ YouTube ไหม ในเชิงธุรกิจคือไม่ใช่ เพราะพวกเขาต้องการรายได้ ซึ่งก็มาจากค่าโฆษณานั้นแหละ คอนเทนต์เหล่านี้ก็จะได้รับการรับชมสูงและนานด้วย แต่ YouTube เองก็พยายามแก้ไขตรงนี้อยู่โดยการใช้มนุษย์เข้ามาตรวจสอบพวกคอนเทนต์เหล่านี้อีกครั้งหนึ่ง แถมยังมีพวก recommended channels เพื่อเพิ่มความหลากหลายให้กับเนื้อหาที่แนะนำอีกด้วย
นอกเหนือจากตรงนี้แล้วพวกเขายังใช้ A/B Testing เพื่อให้แน่ใจว่าระบบนั้นทำงานได้อย่างดีเยี่ยม โดยการตรวจสอบการทำงานของการแนะนำแต่ละแบบและวัดค่าต่างๆ ของผู้ใช้งาน แล้วจึงแน่ใจได้ว่าโมเดลที่สร้างขึ้นมานั้นทำงานได้อย่างเหมาะสมตามที่คาดการณ์เอาไว้ก่อนจะปล่อยออกไปให้ผู้ใช้งานในกลุ่มใหญ่อีกครั้ง
ระบบแนะนำวีดีโอของ YouTube นั้นมีการพัฒนาอยู่ตลอดเวลา จากเมื่อสิบกว่าปีก่อน ตอนนี้มันฉลาดขึ้นมาก มันเป็นต้นแบบของระบบแนะนำที่น่าสนใจและถูกนำไปเป็นตัวอย่างของการใช้ข้อมูลเพื่อฝึก ML เพื่อแก้ไขปัญหาที่พวกเขามีได้อย่างมีประสิทธิภาพ แต่ก็อย่างที่เราเห็นว่าแม้มันจะทำงานได้อย่างยอดเยี่ยมแค่ไหน ก็ยังมีช่องโหว่และผลเสียในบางส่วน ซึ่งก็ยังต้องมีการพัฒนาเพื่อแก้ไขมันต่อไป Deep Learning เป็นเครื่องมือที่มีประโยชน์ก็จริง แต่ก็ต้องใช้อย่างระมัดระวังและมองดูผลลัพธ์ที่ตามมาทีหลัง
อย่างน้อยๆ ครั้งต่อไปที่เราเห็น ‘Recommended Videos’ บนหน้า YouTube ก็พอจะรู้ได้ว่าจากวีดีโอหลายล้านอัน วีดีโอที่ถูกเลือกมันมาจากไหนและเป้าหมายของมันคืออะไร
อ้างอิงข้อมูลจาก