วิดีโอปลอมที่สร้างขึ้นจากภาพคนในอดีต

กระทู้สนทนา

เทคโนโลยี หน้าต่างโลก วิทยาศาสตร์คอมพิวเตอร์ สื่อประสม (Multimedia)

Few-Shot Adversarial Learning of Realistic Neural Talking Head Models

ชมภาพเคลื่อนไหวที่ https://bit.ly/2K5P02H

ทีมนักวิจัยพัฒนา Russian IT
ที่ Samsung AI Center ใน Moscow และ
Skolkovo Institute of Science and Technology
ได้เปิดเผยว่าการสร้างวิดีโอปลอมที่เหมือนจริง
สามารถสร้างขึ้นได้ด้วยภาพต้นฉบับเพียงไม่กี่ภาพ
ในขณะที่ความสามารถในการสร้างความเชื่อมั่น
ให้ภาพเคลื่อนไหวเหล่านี้ดูสมจริงสมจังก็ไม่ใช่เรื่องใหม่

ผลการวิจัยนี้ยืนยันว่ามันทำได้ง่ายและรวดเร็วกว่าที่คาดคิดไว้ก่อนหน้านี้
การสร้างภาพเคลื่อนไหวด้วยเทคโนโลยีใหม่
ที่ทำให้ภาพคนสามารถแสดงท่าทางเหมือนกับ
ภาพข่าว/ภาพคนในหนังสือในภาพยนตร์เรื่อง Harry Potter
ภาพหลาย ๆ ภาพที่เคลื่อนไหวจะถูกรวบรวมเข้ามาในฐานข้อมูลขนาดใหญ่
แล้วสร้างขึ้นเป็นภาพหลักที่เคลื่อนไหวได้ ผสมกับภาพที่ต้องการ เช่น
ในที่สุด Mona Lisa ได้บอกเล่าเรื่องราวรอยยิ้มลึกลับของภาพเธอ
จากภาพเคลื่อนไหวที่สร้างจากชุดข้อมูลเพียง 1 ถึง 32 ภาพ

Yegor Zahkarov หัวหน้าทีมวิจัยและพัฒนา ได้อธิบายว่า
algorithm หรือ neural network จะถูกฝึกฝนขึ้นมา
ด้วยการใช้ภาพเคลื่อนไหวของบุคคลต่าง ๆ จำนวนมาก
มาสร้างเป็นฐานข้อมูลภาพการเคลื่อนไหวของมนุษย์
หลังจากที่ได้รวบรวมตัวอย่างภาพเคลื่อนไหวเพียงพอแล้ว
algorithm หรือ neural network ก็จะสามารถเลียนแบบ
ด้วยสร้างภาพจำลองที่เคลื่อนไหวได้ขึ้นมาชุดหนึ่ง
แล้วนำมาประมวลผลด้วยปัญญาประดิษฐ์ AI
เพื่อเป็นข้อมูลหลักในการสร้างภาพเคลื่อนไหว

หลังจากนั้น ภาพถ่ายทุกภาพหรือภาพวาดทุกภาพ
ที่ต้องการจะสร้างเป็นภาพเคลื่อนไหวได้
จะอยู่ภายใต้โปรแกรมหน้ากากพิเศษ
ซึ่งมีขอบเขตของใบหน้าและการแสดงออกของใบหน้าขั้นพื้นฐาน
จากองค์ประกอบเด่น ๆ ของใบหน้าของแต่ละคน
ซึ่งประกอบด้วยโครงหน้า คิ้ว ดวงตา ริมฝีปาก ส่วนสัดของจมูกรวมถึงสันจมูก

เช่น การนำภาพบุคคลตัวอย่างที่ต้องการ เช่น Mona Lisa
เข้าไปใส่ไว้ภายในหน้ากากพิเศษ
แล้วนำไปประมวลผลกับ AI หรือปัญญาประดิษฐ์
เพื่อทำให้เกิดเป็นภาพเคลื่อนไหวได้

เพื่อทดสอบผลงานของการวิจัยครั้งนี้
นักวิจัยได้นำเอาภาพของคนดังในอดีต เช่น
Mona Lisa, Albert Einstein, Fyodor Dostoyevsky, Marilyn Monroe และคนอื่น ๆ
ด้วยการนำภาพต้นฉบับเพียง 1 ภาพ มาสร้างภาพย่อย ๆ จำนวนหลายภาพด้วยปัญญาประดิษฐ์
ผลลัพธ์จากภาพ 1 หนึ่งภาพจนถึง 32 ภาพ
ที่สร้างขึ้นดูน่าประทับใจ แต่ความสมจริงยังต้องปรับปรุงให้ดีขึ้นอีก

ด้วยการฝึกซ้อมอีกหลายครั้งจากภาพการแสดงในวิดีโอด้านล่าง

เพื่อให้ปัญญาประดิษฐ์ประมวลผลกับสร้างภาพเคลื่อนไหวให้สมจริงสมจังยิ่งขึ้น

หมายเหตุ

สิ่งที่น่ากลัวและเลวร้ายที่สุดที่อาจจะมีขึ้น

คือการที่ปัญญาประดิษฐ์สามารถเลียนแบบริมฝีปากของมนุษย์ได้

เช่น การพูดแต่ละคำจะมีการใช้ริมฝีปากแบบไหน

แบบคนที่ชำนาญการดูริมฝีปาก หรือคนพิการทางหูบางคน

จะสามารถคาดเดาได้ว่า คนพูดจะพูดคำไหนออกมา

โดยสังเกตจากริมฝีปากว่าขยับแบบนี้

จะต้องพูดคำว่าอะไรบ้างเป็นการอ่านริมฝีปาก

ถ้าทำได้ขนาดนี้แล้วความสมจริงสมจังจะมีมาก

จนทำให้เรื่องเท็จกลายเป็นเรื่องจริงได้

ข้อมูลเพิ่มเติม Google พัฒนา AI อ่านริมฝีปากคนที่แม่นที่สุดเท่าที่เคยมีมา อ่านปากได้แม่นกว่ามืออาชีพเกือบ 4 เท่า!

โดยเรียนรู้จากบันทึกเทปรายการทีวีต่างๆ ของ BBC

ความยาวรวมกันหลายพันชั่วโมง และจากการทดสอบล่าสุด

AI สามารถอ่านริมฝีปากได้ถูกต้องแม่นยำถึง 46.8%

แม้ดูเผินๆ จะเป็นตัวเลขที่ไม่มาก แต่จากการทดสอบแบบเดียวกัน

นักอ่านริมฝีปากมืออาชีพอ่านได้ถูกต้องเพียง 12.4% เท่านั้น

ทำให้ AI ตัวนี้อ่านริมฝีปากได้แม่นยำกว่าผู้เชี่ยวชาญที่เป็นมนุษย์เกือบ 4 เท่า!

ชมภาพเคลื่อนไหวที่ https://bit.ly/2M9gffx

แอพพลิเคชั่นนี้จะใช้งานได้จริงสำหรับการประชุมทางไกล
รวมถึง (การประชุมทางวิดีโอ) และเกมที่มีผู้เล่นหลายคน
และอุตสาหกรรมที่เฉพาะเจาะจงมากขึ้น
ในขณะเสียงของคนพูดดูสมจริงและน่าตื่นเต้นอย่างแรง

หมายเหตุ

ตัวจริงอาจจะไม่อยู่ในสถานที่ประชุม/สถานที่จริงก็ได้
เพราะกลัวถูกฝ่ายตรงข้ามรู้ตำแหน่งที่อยู่แน่นอน
อาจจะเกิดอันตรายจากการถูกยิงขีปนาวุธใส่ให้ตายได้
เลยให้มีแต่ภาพหน้าตาขึ้นพูดแทนในที่ประชุม
ด้วยระบบเครือข่ายและปัญญาประดิษฐ์
หรือแบบยุทธศาสตร์จีน ที่เชิดคนตาย หลอกคนเป็น
เช่น จิ๋นซีฮ่องเต้ ขงเบ้ง เพื่อหลอกคนทั่วไปว่ายังไม่ตาย
ทำให้อีกฝ่ายงงงวยไม่กล้าทำอะไรเพราะคิดว่ายังไม่ตาย
ยิ่งถ้าทำให้พูดได้ด้วย ยิ่งน่าเชื่อถือมากขึ้น

ยิ่งถ้ามีแต่ภาพคนตายในอดีตมาภาพหนึ่ง
สามารถทำให้พูดได้เคลื่อนไหวส่ายหน้าไปมาได้
จะหลอกคนที่ไม่รู้ ไม่ช่างสงสัย ไม่ช่างสังเกต
ได้ง่าย ๆ ว่ายังไม่ตาย หรือฟื้นคืนชีพขึ้นมาพูดอะไรบางอย่างแล้ว

วิดีโอปลอมจะมีศักยภาพในการทำลายชื่อเสียงใครบางคนและทำร้ายสังคมได้
ด้วยการพูดเท็จหรือปราศรัยเท็จ จากข้อมูลเทปเสียงมาตัดต่อเข้าด้วยกัน
หรือเลียนแบบเสียงปลอมเหมือนเสียงของคนที่ถูกใส่ร้ายว่าได้พูดเรื่องนี้

แม้ว่างานวิจัยครั้งนี้จะไม่ได้มีเป้าหมายที่เลวร้ายในเรื่องนี้
แต่ก็ไม่มีใครรับรองได้ว่าเทคโนโลยีดังกล่าวนี้
จะไม่ได้ถูกใช้เพื่อเป้าหมายแบบหวังดีแต่ประสงค์ร้ายในอนาคต

เรียบเรียง/ที่มา

https://bit.ly/2YT7BmV
https://bit.ly/2MluPAS