Few-Shot Adversarial Learning of Realistic Neural Talking Head Models
ทีมนักวิจัยพัฒนา Russian IT
ที่ Samsung AI Center ใน Moscow และ
Skolkovo Institute of Science and Technology
ได้เปิดเผยว่าการสร้างวิดีโอปลอมที่เหมือนจริง
สามารถสร้างขึ้นได้ด้วยภาพต้นฉบับเพียงไม่กี่ภาพ
ในขณะที่ความสามารถในการสร้างความเชื่อมั่น
ให้ภาพเคลื่อนไหวเหล่านี้ดูสมจริงสมจังก็ไม่ใช่เรื่องใหม่
ผลการวิจัยนี้ยืนยันว่ามันทำได้ง่ายและรวดเร็วกว่าที่คาดคิดไว้ก่อนหน้านี้
การสร้างภาพเคลื่อนไหวด้วยเทคโนโลยีใหม่
ที่ทำให้ภาพคนสามารถแสดงท่าทางเหมือนกับ
ภาพข่าว/ภาพคนในหนังสือในภาพยนตร์เรื่อง Harry Potter
ภาพหลาย ๆ ภาพที่เคลื่อนไหวจะถูกรวบรวมเข้ามาในฐานข้อมูลขนาดใหญ่
แล้วสร้างขึ้นเป็นภาพหลักที่เคลื่อนไหวได้ ผสมกับภาพที่ต้องการ เช่น
ในที่สุด Mona Lisa ได้บอกเล่าเรื่องราวรอยยิ้มลึกลับของภาพเธอ
จากภาพเคลื่อนไหวที่สร้างจากชุดข้อมูลเพียง 1 ถึง 32 ภาพ
Yegor Zahkarov หัวหน้าทีมวิจัยและพัฒนา ได้อธิบายว่า
algorithm หรือ neural network จะถูกฝึกฝนขึ้นมา
ด้วยการใช้ภาพเคลื่อนไหวของบุคคลต่าง ๆ จำนวนมาก
มาสร้างเป็นฐานข้อมูลภาพการเคลื่อนไหวของมนุษย์
หลังจากที่ได้รวบรวมตัวอย่างภาพเคลื่อนไหวเพียงพอแล้ว
algorithm หรือ neural network ก็จะสามารถเลียนแบบ
ด้วยสร้างภาพจำลองที่เคลื่อนไหวได้ขึ้นมาชุดหนึ่ง
แล้วนำมาประมวลผลด้วยปัญญาประดิษฐ์ AI
เพื่อเป็นข้อมูลหลักในการสร้างภาพเคลื่อนไหว
หลังจากนั้น ภาพถ่ายทุกภาพหรือภาพวาดทุกภาพ
ที่ต้องการจะสร้างเป็นภาพเคลื่อนไหวได้
จะอยู่ภายใต้โปรแกรม
หน้ากากพิเศษ
ซึ่งมีขอบเขตของใบหน้าและการแสดงออกของใบหน้าขั้นพื้นฐาน
จากองค์ประกอบเด่น ๆ ของใบหน้าของแต่ละคน
ซึ่งประกอบด้วยโครงหน้า คิ้ว ดวงตา ริมฝีปาก ส่วนสัดของจมูกรวมถึงสันจมูก
เช่น การนำภาพบุคคลตัวอย่างที่ต้องการ เช่น Mona Lisa
เข้าไปใส่ไว้ภายใน
หน้ากากพิเศษ
แล้วนำไปประมวลผลกับ AI หรือปัญญาประดิษฐ์
เพื่อทำให้เกิดเป็นภาพเคลื่อนไหวได้
เพื่อทดสอบผลงานของการวิจัยครั้งนี้
นักวิจัยได้นำเอาภาพของคนดังในอดีต เช่น
Mona Lisa, Albert Einstein, Fyodor Dostoyevsky, Marilyn Monroe และคนอื่น ๆ
ด้วยการนำภาพต้นฉบับเพียง 1 ภาพ มาสร้างภาพย่อย ๆ จำนวนหลายภาพด้วยปัญญาประดิษฐ์
ผลลัพธ์จากภาพ 1 หนึ่งภาพจนถึง 32 ภาพ
ที่สร้างขึ้นดูน่าประทับใจ แต่ความสมจริงยังต้องปรับปรุงให้ดีขึ้นอีก
ด้วยการฝึกซ้อมอีกหลายครั้งจากภาพการแสดงในวิดีโอด้านล่าง
เพื่อให้ปัญญาประดิษฐ์ประมวลผลกับสร้างภาพเคลื่อนไหวให้สมจริงสมจังยิ่งขึ้น
หมายเหตุ
สิ่งที่น่ากลัวและเลวร้ายที่สุดที่อาจจะมีขึ้น
คือการที่ปัญญาประดิษฐ์สามารถเลียนแบบริมฝีปากของมนุษย์ได้
เช่น การพูดแต่ละคำจะมีการใช้ริมฝีปากแบบไหน
แบบคนที่ชำนาญการดูริมฝีปาก หรือคนพิการทางหูบางคน
จะสามารถคาดเดาได้ว่า คนพูดจะพูดคำไหนออกมา
โดยสังเกตจากริมฝีปากว่าขยับแบบนี้
จะต้องพูดคำว่าอะไรบ้างเป็นการอ่านริมฝีปาก
ถ้าทำได้ขนาดนี้แล้วความสมจริงสมจังจะมีมาก
จนทำให้เรื่องเท็จกลายเป็นเรื่องจริงได้
โดยเรียนรู้จากบันทึกเทปรายการทีวีต่างๆ ของ BBC
ความยาวรวมกันหลายพันชั่วโมง และจากการทดสอบล่าสุด
AI สามารถอ่านริมฝีปากได้ถูกต้องแม่นยำถึง 46.8%
แม้ดูเผินๆ จะเป็นตัวเลขที่ไม่มาก แต่จากการทดสอบแบบเดียวกัน
นักอ่านริมฝีปากมืออาชีพอ่านได้ถูกต้องเพียง 12.4% เท่านั้น
ทำให้ AI ตัวนี้อ่านริมฝีปากได้แม่นยำกว่าผู้เชี่ยวชาญที่เป็นมนุษย์เกือบ 4 เท่า!
แอพพลิเคชั่นนี้จะใช้งานได้จริงสำหรับการประชุมทางไกล
รวมถึง (การประชุมทางวิดีโอ) และเกมที่มีผู้เล่นหลายคน
และอุตสาหกรรมที่เฉพาะเจาะจงมากขึ้น
ในขณะเสียงของคนพูดดูสมจริงและน่าตื่นเต้นอย่างแรง
หมายเหตุ
ตัวจริงอาจจะไม่อยู่ในสถานที่ประชุม/สถานที่จริงก็ได้
เพราะกลัวถูกฝ่ายตรงข้ามรู้ตำแหน่งที่อยู่แน่นอน
อาจจะเกิดอันตรายจากการถูกยิงขีปนาวุธใส่ให้ตายได้
เลยให้มีแต่ภาพหน้าตาขึ้นพูดแทนในที่ประชุม
ด้วยระบบเครือข่ายและปัญญาประดิษฐ์
หรือแบบยุทธศาสตร์จีน ที่เชิดคนตาย หลอกคนเป็น
เช่น จิ๋นซีฮ่องเต้ ขงเบ้ง เพื่อหลอกคนทั่วไปว่ายังไม่ตาย
ทำให้อีกฝ่ายงงงวยไม่กล้าทำอะไรเพราะคิดว่ายังไม่ตาย
ยิ่งถ้าทำให้พูดได้ด้วย ยิ่งน่าเชื่อถือมากขึ้น
ยิ่งถ้ามีแต่ภาพคนตายในอดีตมาภาพหนึ่ง
สามารถทำให้พูดได้เคลื่อนไหวส่ายหน้าไปมาได้
จะหลอกคนที่ไม่รู้ ไม่ช่างสงสัย ไม่ช่างสังเกต
ได้ง่าย ๆ ว่ายังไม่ตาย หรือฟื้นคืนชีพขึ้นมาพูดอะไรบางอย่างแล้ว
วิดีโอปลอมจะมีศักยภาพในการทำลายชื่อเสียงใครบางคนและทำร้ายสังคมได้
ด้วยการพูดเท็จหรือปราศรัยเท็จ จากข้อมูล
เทปเสียงมาตัดต่อเข้าด้วยกัน
หรือเลียนแบบ
เสียงปลอมเหมือนเสียงของคนที่ถูกใส่ร้ายว่าได้พูดเรื่องนี้
แม้ว่างานวิจัยครั้งนี้จะไม่ได้มีเป้าหมายที่เลวร้ายในเรื่องนี้
แต่ก็ไม่มีใครรับรองได้ว่าเทคโนโลยีดังกล่าวนี้
จะไม่ได้ถูกใช้เพื่อเป้าหมายแบบ
หวังดีแต่ประสงค์ร้ายในอนาคต
เรียบเรียง/ที่มา
https://bit.ly/2YT7BmV
https://bit.ly/2MluPAS
วิดีโอปลอมที่สร้างขึ้นจากภาพคนในอดีต
ที่ Samsung AI Center ใน Moscow และ
Skolkovo Institute of Science and Technology
ได้เปิดเผยว่าการสร้างวิดีโอปลอมที่เหมือนจริง
สามารถสร้างขึ้นได้ด้วยภาพต้นฉบับเพียงไม่กี่ภาพ
ในขณะที่ความสามารถในการสร้างความเชื่อมั่น
ให้ภาพเคลื่อนไหวเหล่านี้ดูสมจริงสมจังก็ไม่ใช่เรื่องใหม่
ผลการวิจัยนี้ยืนยันว่ามันทำได้ง่ายและรวดเร็วกว่าที่คาดคิดไว้ก่อนหน้านี้
การสร้างภาพเคลื่อนไหวด้วยเทคโนโลยีใหม่
ที่ทำให้ภาพคนสามารถแสดงท่าทางเหมือนกับ
ภาพข่าว/ภาพคนในหนังสือในภาพยนตร์เรื่อง Harry Potter
ภาพหลาย ๆ ภาพที่เคลื่อนไหวจะถูกรวบรวมเข้ามาในฐานข้อมูลขนาดใหญ่
แล้วสร้างขึ้นเป็นภาพหลักที่เคลื่อนไหวได้ ผสมกับภาพที่ต้องการ เช่น
ในที่สุด Mona Lisa ได้บอกเล่าเรื่องราวรอยยิ้มลึกลับของภาพเธอ
จากภาพเคลื่อนไหวที่สร้างจากชุดข้อมูลเพียง 1 ถึง 32 ภาพ
Yegor Zahkarov หัวหน้าทีมวิจัยและพัฒนา ได้อธิบายว่า
algorithm หรือ neural network จะถูกฝึกฝนขึ้นมา
ด้วยการใช้ภาพเคลื่อนไหวของบุคคลต่าง ๆ จำนวนมาก
มาสร้างเป็นฐานข้อมูลภาพการเคลื่อนไหวของมนุษย์
หลังจากที่ได้รวบรวมตัวอย่างภาพเคลื่อนไหวเพียงพอแล้ว
algorithm หรือ neural network ก็จะสามารถเลียนแบบ
ด้วยสร้างภาพจำลองที่เคลื่อนไหวได้ขึ้นมาชุดหนึ่ง
แล้วนำมาประมวลผลด้วยปัญญาประดิษฐ์ AI
เพื่อเป็นข้อมูลหลักในการสร้างภาพเคลื่อนไหว
หลังจากนั้น ภาพถ่ายทุกภาพหรือภาพวาดทุกภาพ
ที่ต้องการจะสร้างเป็นภาพเคลื่อนไหวได้
จะอยู่ภายใต้โปรแกรมหน้ากากพิเศษ
ซึ่งมีขอบเขตของใบหน้าและการแสดงออกของใบหน้าขั้นพื้นฐาน
จากองค์ประกอบเด่น ๆ ของใบหน้าของแต่ละคน
ซึ่งประกอบด้วยโครงหน้า คิ้ว ดวงตา ริมฝีปาก ส่วนสัดของจมูกรวมถึงสันจมูก
เช่น การนำภาพบุคคลตัวอย่างที่ต้องการ เช่น Mona Lisa
เข้าไปใส่ไว้ภายในหน้ากากพิเศษ
แล้วนำไปประมวลผลกับ AI หรือปัญญาประดิษฐ์
เพื่อทำให้เกิดเป็นภาพเคลื่อนไหวได้
เพื่อทดสอบผลงานของการวิจัยครั้งนี้
นักวิจัยได้นำเอาภาพของคนดังในอดีต เช่น
Mona Lisa, Albert Einstein, Fyodor Dostoyevsky, Marilyn Monroe และคนอื่น ๆ
ด้วยการนำภาพต้นฉบับเพียง 1 ภาพ มาสร้างภาพย่อย ๆ จำนวนหลายภาพด้วยปัญญาประดิษฐ์
ผลลัพธ์จากภาพ 1 หนึ่งภาพจนถึง 32 ภาพ
ที่สร้างขึ้นดูน่าประทับใจ แต่ความสมจริงยังต้องปรับปรุงให้ดีขึ้นอีก
รวมถึง (การประชุมทางวิดีโอ) และเกมที่มีผู้เล่นหลายคน
และอุตสาหกรรมที่เฉพาะเจาะจงมากขึ้น
ในขณะเสียงของคนพูดดูสมจริงและน่าตื่นเต้นอย่างแรง
หมายเหตุ
ตัวจริงอาจจะไม่อยู่ในสถานที่ประชุม/สถานที่จริงก็ได้
เพราะกลัวถูกฝ่ายตรงข้ามรู้ตำแหน่งที่อยู่แน่นอน
อาจจะเกิดอันตรายจากการถูกยิงขีปนาวุธใส่ให้ตายได้
เลยให้มีแต่ภาพหน้าตาขึ้นพูดแทนในที่ประชุม
ด้วยระบบเครือข่ายและปัญญาประดิษฐ์
หรือแบบยุทธศาสตร์จีน ที่เชิดคนตาย หลอกคนเป็น
เช่น จิ๋นซีฮ่องเต้ ขงเบ้ง เพื่อหลอกคนทั่วไปว่ายังไม่ตาย
ทำให้อีกฝ่ายงงงวยไม่กล้าทำอะไรเพราะคิดว่ายังไม่ตาย
ยิ่งถ้าทำให้พูดได้ด้วย ยิ่งน่าเชื่อถือมากขึ้น
ยิ่งถ้ามีแต่ภาพคนตายในอดีตมาภาพหนึ่ง
สามารถทำให้พูดได้เคลื่อนไหวส่ายหน้าไปมาได้
จะหลอกคนที่ไม่รู้ ไม่ช่างสงสัย ไม่ช่างสังเกต
ได้ง่าย ๆ ว่ายังไม่ตาย หรือฟื้นคืนชีพขึ้นมาพูดอะไรบางอย่างแล้ว
วิดีโอปลอมจะมีศักยภาพในการทำลายชื่อเสียงใครบางคนและทำร้ายสังคมได้
ด้วยการพูดเท็จหรือปราศรัยเท็จ จากข้อมูลเทปเสียงมาตัดต่อเข้าด้วยกัน
หรือเลียนแบบเสียงปลอมเหมือนเสียงของคนที่ถูกใส่ร้ายว่าได้พูดเรื่องนี้
แม้ว่างานวิจัยครั้งนี้จะไม่ได้มีเป้าหมายที่เลวร้ายในเรื่องนี้
แต่ก็ไม่มีใครรับรองได้ว่าเทคโนโลยีดังกล่าวนี้
จะไม่ได้ถูกใช้เพื่อเป้าหมายแบบหวังดีแต่ประสงค์ร้ายในอนาคต
เรียบเรียง/ที่มา
https://bit.ly/2YT7BmV
https://bit.ly/2MluPAS