Google สร้างโมเดล AI ใหม่สำหรับการพูดคุยกับปลาโลมาDolphinGemma จะมีการทดสอบครั้งแรกในช่วงฤดูร้อนนี้
โลมาถือเป็น สัตว์ ที่ฉลาดที่สุดในโลก จากการวิจัยพบว่าพวกมันสามารถทำงานร่วมกัน สอนทักษะใหม่ๆ ให้กันและกัน และแม้แต่จำตัวเองในกระจกได้ นักวิทยาศาสตร์พยายามทำความเข้าใจเสียงนกหวีดและเสียงคลิกที่โลมาใช้ในการสื่อสารกันมานานหลายทศวรรษ นักวิจัยอาจก้าวหน้าขึ้นเล็กน้อยในเรื่องนี้ในไม่ช้านี้ด้วยความช่วยเหลือของโมเดล AI แบบเปิดของ Google และโทรศัพท์ Pixel บางรุ่น
Google พยายามหาวิธีนำ AI เชิงสร้างสรรค์มาใช้กับทุกอย่างที่ทำได้ แล้วทำไม Google ถึงไม่ร่วมมือกับ Wild Dolphin Project (WDP) ล่ะ กลุ่มนี้ศึกษาเกี่ยวกับโลมาตั้งแต่ปี 1985 โดยใช้แนวทางที่ไม่รุกรานเพื่อติดตามชุมชนโลมาแอตแลนติกเฉพาะกลุ่ม WDP สร้างวิดีโอและเสียงของโลมา พร้อมกับบันทึกข้อมูลที่เกี่ยวข้องกับพฤติกรรมของพวกมัน
เป้าหมายหลักประการหนึ่งของ WDP คือการวิเคราะห์วิธีการเปล่งเสียงของโลมาและผลกระทบที่อาจเกิดขึ้นต่อปฏิสัมพันธ์ทางสังคมของโลมา จากการบันทึกใต้น้ำหลายสิบปี นักวิจัยสามารถเชื่อมโยงกิจกรรมพื้นฐานบางอย่างกับเสียงเฉพาะได้ ตัวอย่างเช่น โลมาลายจุดในมหาสมุทรแอตแลนติกมีเสียงหวีดที่เป็นเอกลักษณ์ซึ่งดูเหมือนจะถูกใช้เป็นชื่อ ทำให้โลมาสองตัวสามารถหาซึ่งกันและกันได้ นอกจากนี้ โลมาลายจุดยังส่งเสียงร้องแบบ "ซ่า" อย่างสม่ำเสมอระหว่างการต่อสู้กัน
นักวิจัยของ WDP เชื่อว่าการทำความเข้าใจโครงสร้างและรูปแบบการเปล่งเสียงของปลาโลมาเป็นสิ่งจำเป็นในการกำหนดว่าการสื่อสารของปลาโลมาสามารถพัฒนาไปถึงระดับภาษาได้หรือไม่ "เราไม่ทราบว่าสัตว์มีคำพูดหรือไม่" เดนิส เฮอร์ซิงจาก WDP กล่าว
เป้าหมายสูงสุดคือการพูดภาษาโลมา ถ้ามีภาษาโลมาจริงๆ การบรรลุเป้าหมายนี้ทำให้ WDP สร้างชุดข้อมูลขนาดใหญ่ที่มีป้ายกำกับอย่างละเอียด ซึ่ง Google บอกว่าชุดข้อมูลนี้เหมาะอย่างยิ่งสำหรับการวิเคราะห์ด้วย AI เชิงสร้างสรรค์
พบกับ DolphinGemma
โมเดลภาษาขนาดใหญ่ (LLM) ที่หลีกเลี่ยงไม่ได้ในเทคโนโลยีสำหรับผู้บริโภคนั้นโดยพื้นฐานแล้วทำหน้าที่ทำนายรูปแบบ คุณให้ข้อมูลอินพุตแก่โมเดล และโมเดลจะทำนายโทเค็นถัดไปซ้ำแล้วซ้ำเล่าจนกว่าจะได้ผลลัพธ์ เมื่อโมเดลได้รับการฝึกอย่างมีประสิทธิภาพ ผลลัพธ์ดังกล่าวจะฟังดูเหมือนสร้างขึ้นโดยคน Google และ WDP หวังว่าจะสามารถทำสิ่งที่คล้ายกันนี้กับ DolphinGemma สำหรับสัตว์เลี้ยงลูกด้วยนมในทะเลได้
DolphinGemma สร้างขึ้นจากโมเดล AI แบบเปิด Gemma ของ Google ซึ่งสร้างขึ้นบนรากฐานเดียวกันกับโมเดล Gemini เชิงพาณิชย์ ของบริษัท โมเดลการสื่อสารของปลาโลมาใช้เทคโนโลยีเสียงที่พัฒนาโดย Google ที่เรียกว่า SoundStream เพื่อแปลงเสียงร้องของปลาโลมาให้เป็นโทเค็น ทำให้สามารถป้อนเสียงเข้าไปในโมเดลได้ขณะที่บันทึก
Google กล่าวว่าได้ฝึกโมเดลโดยใช้ไฟล์เสียงของ Wild Dolphin Project ซึ่งเป็นโมเดลที่รับเสียงเข้าและส่งออก ดังนั้น หลังจากให้เสียงของปลาโลมาแล้ว โมเดลจะทำในสิ่งที่โมเดลภาษาที่เน้นมนุษย์ทำ นั่นคือ ทำนายโทเค็นถัดไป หากโมเดลทำงานคล้ายกับ LLM มาตรฐาน โทเค็นที่ทำนายไว้เหล่านี้อาจเป็นเสียงที่ปลาโลมาเข้าใจได้
ภาพสเปกโตรกราฟแสดงเสียงนกหวีดเหมือนปลาโลมา (ซ้าย) และเสียงคลิกและเสียงหวีด (ขวา) ที่สร้างโดย DolphinGemma ระหว่างการทดสอบ
ทีมงานหวังว่า DolphinGemma จะช่วยแยกแยะรูปแบบที่ซับซ้อนซึ่งจะช่วยให้สร้างคำศัพท์ที่ใช้ร่วมกันได้ Google อ้างว่าการให้มนุษย์ตรวจสอบข้อมูลในลักษณะนี้จะใช้เวลานานมาก
โมเดลเปิดสำหรับโทรศัพท์ Pixel
Google กล่าวว่าได้ออกแบบ DolphinGemma โดยคำนึงถึงแนวทางการวิจัยของ WDP ทีมงานใช้โทรศัพท์ Pixel ในภาคสนาม ดังนั้นโมเดลจึงต้องมีประสิทธิภาพ การรันโมเดล AI บนสมาร์ทโฟนมักเป็นเรื่องท้าทายเนื่องจากทรัพยากรที่จำกัด ยิ่งโมเดลมีขนาดใหญ่และมีความสามารถมากขึ้นเท่าใด ก็ยิ่งต้องใช้ RAM และปริมาณการประมวลผลมากขึ้นเท่านั้นในการทำงาน DolphinGemma ประกอบด้วยพารามิเตอร์ประมาณ 400 ล้านตัว ซึ่งถือว่าน้อยเกินไปสำหรับหลักสูตร LLM ทั่วไป
เนื่องจากทีมวิจัยสังเกตโลมาในธรรมชาติในสภาพแวดล้อมใต้น้ำ จึงต้องใช้ระบบเสียงที่กะทัดรัด ในช่วงหลายปีที่ผ่านมา WDP ได้ใช้เครื่องมือที่สร้างขึ้นที่สถาบันเทคโนโลยีจอร์เจีย เรียกว่า CHAT (Cetacean Hearing Augmentation Telemetry) โดยอิงจาก Pixel 6 ทีมวิจัยใช้ CHAT เพื่อสร้างเสียงร้องของโลมาสังเคราะห์ที่พยายามเชื่อมโยงกับวัตถุ นอกจากนี้ยังสามารถฟังเสียงของโลมาเพื่อ "เลียนแบบ" เสียงตอบกลับที่ตรงกัน
Google สร้างโมเดล AI ใหม่สำหรับการพูดคุยกับปลาโลมา