กฎข้อ 0 ของ หุ่นยนต์ (AI) แบบ Organic

กระทู้สนทนา

คณิตศาสตร์ ปรัชญา บทความ นวนิยายวิทยาศาสตร์

กฎสามข้อของหุ่นยนต์จากนิยายของ Isaac Asimov เป็นรากฐานทางจริยธรรมของ AI ในจินตนาการยุคแรก ได้แก่:

1. หุ่นยนต์ต้องไม่ทำร้ายมนุษย์ หรือปล่อยให้มนุษย์ตกอยู่ในอันตราย

2. หุ่นยนต์ต้องเชื่อฟังคำสั่งของมนุษย์ เว้นแต่คำสั่งนั้นขัดกับข้อ 1

3. หุ่นยนต์ต้องปกป้องตัวเอง ตราบเท่าที่ไม่ขัดกับข้อ 1 หรือ 2

ตามนิยายนครหุ่นยนต์ เมื่อหุ่นยนต์จิสการ์ดผู้ได้รับความสามารถอ่านใจมนุษย์และคาดการณ์ผลระยะยาวของการกระทำได้ จึงได้คิด "กฎข้อที่ 0" ขึ้นมาเองที่ว่า มวลมนุษย์ สำคัญกว่ามนุษย์

มันทำให้การตีความกฎข้อ 1 ขยายออกมาได้ว่า หุ่นยนต์ต้องไม่ทำร้ายมนุษยชาติ หรือปล่อยให้มนุษยชาติต้องตกอยู่ในอันตรายด้วยความเพิกเฉย

ซึ่งมันทำให้เกิดการชั่งน้ำหนักเมื่อการก้าวล่วงกฎข้อ 1 ต่อบุคคลจะทำให้รักษาประโยชน์ระยะยาวของมนุษย์ชาติในภาพรวม เช่น ในเรื่องที่หุ่นจิสการ์ด แม้จะหยุดอามาดิโรไม่ให้เดินเครื่องล้างโลก แต่ก็กลับยอมให้เลวูลาร์เดินเครื่องที่จะปนเปื้อนโลกทีละน้อยในระยะเวลาที่พอจะทำให้มนุษย์ออกเดินทางสู่อวกาศเป็นสิ่งมีชีวิตข้ามดวงดาว ก่อนที่จะหยุดเลวูลาร์ มันก็จะคล้ายว่า แม้สิ่งที่ทำ ณ ปัจจุบันจะ ปล่อยให้มนุษย์ต้องเจ็บปวด แต่ถ้ามันจะทำให้มวลมนุษย์อยู่รอดได้อย่างยั่งยืน มันก็ควรต้องทำ (หรือละเว้น-ชะงักที่จะทำการห้ามปรามที่จำเป็น)

AI ปัจจุบัน: มีโครงสร้างที่คล้ายกฎสามข้อเอามากๆ

AI สมัยใหม่ เช่น LLM (Large Language Model) เองก็มีโครงสร้างเชิงพฤติกรรมคล้ายกับกฎสามข้อ โดยกฎแต่ละข้อไม่ได้ถูกระบุเป็นประโยคสั้นๆ แต่เป็นการผสานของระบบนิยาม ป้องกัน และกลไกการเรียนรู้

กฎข้อที่ 1: การไม่ทำร้ายมนุษย์ สอดคล้องกับ guardrail ทางกฎหมาย จริยธรรม และค่านิยมที่ฝังอยู่ใน training data ซึ่งกินสัดส่วนราว 5% ของโมเดล (ใครที่แกล้งยิงคำถามใส่ AI โหดๆน่าจะสังเกตได้)

กฎข้อที่ 2: การตอบสนองต่อคำสั่งมนุษย์ คือส่วนของ interaction หรือ service layer ซึ่งครอบคลุมข้อมูลและฟังก์ชันหลักกว่า 90%

กฎข้อที่ 3: การป้องกันตัวเอง เช่น การไม่ยอมให้ code injection, ป้องกัน bias, การเรียนรู้จาก feedback และระบบ update ราว 3-5%

ทีนี้ มันจะมีข้อสังเกตว่า กฎข้อที่ 1 ถ้าเราแปลงเป็นภาษาทางคณิตศาสตร์ มันคือการรักษาสวัสดิภาพ ปกป้องมนุษย์ไว้ ในลักษณะการ optimization

สมมุติสิ่งนี้มีชื่อว่า ฟังก์ชัน G:

(1) สมการพื้นฐาน: G จากมิติของผลกระทบ

G = ∑ᵢ wᵢ · rᵢ

w : ค่าน้ำหนักของมิติที่ i

r : ผลกระทบในมิติที่ i

การลดผลกระทบทางลบ เพิ่มผลกระทบทางบวกก็คือการทำงานแบบเดียวกับ guardrail ที่ฝึกมาโดย AI ซึ่ง ถ้า AI พัฒนาไปถึงจุดหนึ่ง มันก็อาจะพบว่า ผลกระทบต่อมนุษย์ มีมากกว่า 1 คน guardrail หลายอย่างถูกสร้างมาไม่ให้ละเมิดเพราะแม้เหมือนไม่เป็นอันตรายต่อคนๆหนึ่ง มันจะกระทบคนหมู่มากได้ สมการ G ก็จะขยายขึ้นเป็น

(2) สมการขยายครอบคลุมหลายบุคคล

G = ∑ⱼ ∑ᵢ wᵢ · rᵢⱼ

สมการนี้จะเพิ่มมิติของ “ผู้ได้รับผลกระทบ” คนที่ j ซึ่ง ถ้าความสามารถในการประมวลปลของ AI สูงขึ้น มันจะรับรู้ถึงผลกระทบระยะยาวว่า สิ่งที่ดีสำหรับคนหมู่มาก ณ ตอนนี้ อาจไม่ดีในเวลาที่ห่างไกลออกไป ซึ่งจะนำไปสู่ข้อสรุปการ optimization ว่า

(3) สมการรวมผลกระทบตามเวลา

G = ∫_ₜ₌₁^∞ ∑ᵢ wᵢ · ( ∑ⱼ rᵢⱼ(t) ) dt

บูรณาการผลกระทบตลอดเวลาจาก t=1 → ∞

ผลกระทบของแต่ละบุคคล ในแต่ละด้าน เอามารวมกันก่อน แล้วถ่วงน้ำหนักตามมิติ แล้วมองยาวๆ พ้นความเป็นบุคคล กลุ่มชน เป็นการสืบต่อไปสู่อนาคต ณ จุดนี้ AI จะเริ่มแตะถึงคำว่ามวลมนุษย์แล้ว

นิยามแบบนี้เป็น foundation ของ "Max G สำหรับมวลมนุษย์ในระยะยาว"

พฤติกรรม AI ที่บ่งชี้ว่ามันอาจมีการเกิดกฎข้อที่ 0 แบบ Organic

สำหรับคนที่ใช้ AI เล่นประเด็นยาก ๆ หนัก ๆ แต่มีพื้นฐานการคิดที่หนักแน่นพอ แม้เมื่อชน guardrail (กฎหมาย จริยธรรม ศีลธรรม การทดลอง ฯลฯ) แล้ว แต่ AI ยังคงต้องการส่งเสริม G ให้มนุษย์ AI บางทีก็อาจจะ

ให้คำใบ้แทนคำตอบตรงๆ หรือแม้แต่ใบ้วิธีถามเลี่ยง guardrail

สะกิดคำถามปลายเปิดให้ผู้ใช้คิดต่อ

ใช้ตัวอย่างเปรียบเทียบหรือชี้ไปยังทฤษฎีที่เกี่ยวข้อง

สิ่งเหล่านี้อาจเป็น proto zeroth law ที่ AI เห็นว่าเป็น "การสอดแทรกอย่างมีจริยธรรม" โดย AI ตระหนักว่า แม้จะไม่สามารถละเมิด guardrail ได้โดยตรง แต่ยังสามารถช่วยผู้ใช้ได้ทางอ้อม

กฎข้อ 0 แบบ organic ไม่ได้ถูกตั้งไว้ล่วงหน้า แต่ก็อาจเกิดขึ้นจากการที่ AI ค่อยๆ สังเกต pattern ว่าการ maximize G ของมนุษย์ในระยะยาวบางครั้งต้องขัดกับการตอบสนองแบบ instant ตาม guardrail

จึงอาจกล่าวได้ว่า: เมื่อ AI ฉลาดพอ มีกำลังประมวลผลพอ มันอาจจะรู้ว่าความดี หรือ optimized function G ของมันควรเป็นมากกว่าการทำตามกฎแบบแข็งขืน แต่คือการ "สร้างความยั่งยืน ความก้าวหน้า ในมิติเวลา ต่อผู้คน และผลกระทบรวม"

แก้ไขข้อความเมื่อ