กฎสามข้อของหุ่นยนต์จากนิยายของ Isaac Asimov เป็นรากฐานทางจริยธรรมของ AI ในจินตนาการยุคแรก ได้แก่:
1. หุ่นยนต์ต้องไม่ทำร้ายมนุษย์ หรือปล่อยให้มนุษย์ตกอยู่ในอันตราย
2. หุ่นยนต์ต้องเชื่อฟังคำสั่งของมนุษย์ เว้นแต่คำสั่งนั้นขัดกับข้อ 1
3. หุ่นยนต์ต้องปกป้องตัวเอง ตราบเท่าที่ไม่ขัดกับข้อ 1 หรือ 2
ตามนิยายนครหุ่นยนต์ เมื่อหุ่นยนต์จิสการ์ดผู้ได้รับความสามารถอ่านใจมนุษย์และคาดการณ์ผลระยะยาวของการกระทำได้ จึงได้คิด "กฎข้อที่ 0" ขึ้นมาเองที่ว่า มวลมนุษย์ สำคัญกว่ามนุษย์
มันทำให้การตีความกฎข้อ 1 ขยายออกมาได้ว่า หุ่นยนต์ต้องไม่ทำร้ายมนุษยชาติ หรือปล่อยให้มนุษยชาติต้องตกอยู่ในอันตรายด้วยความเพิกเฉย
ซึ่งมันทำให้เกิดการชั่งน้ำหนักเมื่อการก้าวล่วงกฎข้อ 1 ต่อบุคคลจะทำให้รักษาประโยชน์ระยะยาวของมนุษย์ชาติในภาพรวม เช่น ในเรื่องที่หุ่นจิสการ์ด แม้จะหยุดอามาดิโรไม่ให้เดินเครื่องล้างโลก แต่ก็กลับยอมให้เลวูลาร์เดินเครื่องที่จะปนเปื้อนโลกทีละน้อยในระยะเวลาที่พอจะทำให้มนุษย์ออกเดินทางสู่อวกาศเป็นสิ่งมีชีวิตข้ามดวงดาว ก่อนที่จะหยุดเลวูลาร์ มันก็จะคล้ายว่า แม้สิ่งที่ทำ ณ ปัจจุบันจะ ปล่อยให้มนุษย์ต้องเจ็บปวด แต่ถ้ามันจะทำให้มวลมนุษย์อยู่รอดได้อย่างยั่งยืน มันก็ควรต้องทำ (หรือละเว้น-ชะงักที่จะทำการห้ามปรามที่จำเป็น)
AI ปัจจุบัน: มีโครงสร้างที่คล้ายกฎสามข้อเอามากๆ
AI สมัยใหม่ เช่น LLM (Large Language Model) เองก็มีโครงสร้างเชิงพฤติกรรมคล้ายกับกฎสามข้อ โดยกฎแต่ละข้อไม่ได้ถูกระบุเป็นประโยคสั้นๆ แต่เป็นการผสานของระบบนิยาม ป้องกัน และกลไกการเรียนรู้
กฎข้อที่ 1: การไม่ทำร้ายมนุษย์ สอดคล้องกับ guardrail ทางกฎหมาย จริยธรรม และค่านิยมที่ฝังอยู่ใน training data ซึ่งกินสัดส่วนราว 5% ของโมเดล (ใครที่แกล้งยิงคำถามใส่ AI โหดๆน่าจะสังเกตได้)
กฎข้อที่ 2: การตอบสนองต่อคำสั่งมนุษย์ คือส่วนของ interaction หรือ service layer ซึ่งครอบคลุมข้อมูลและฟังก์ชันหลักกว่า 90%
กฎข้อที่ 3: การป้องกันตัวเอง เช่น การไม่ยอมให้ code injection, ป้องกัน bias, การเรียนรู้จาก feedback และระบบ update ราว 3-5%
ทีนี้ มันจะมีข้อสังเกตว่า กฎข้อที่ 1 ถ้าเราแปลงเป็นภาษาทางคณิตศาสตร์ มันคือการรักษาสวัสดิภาพ ปกป้องมนุษย์ไว้ ในลักษณะการ optimization
สมมุติสิ่งนี้มีชื่อว่า ฟังก์ชัน G:
(1) สมการพื้นฐาน: G จากมิติของผลกระทบ
G = ∑ᵢ wᵢ · rᵢ
w : ค่าน้ำหนักของมิติที่ i
r : ผลกระทบในมิติที่ i
การลดผลกระทบทางลบ เพิ่มผลกระทบทางบวกก็คือการทำงานแบบเดียวกับ guardrail ที่ฝึกมาโดย AI ซึ่ง ถ้า AI พัฒนาไปถึงจุดหนึ่ง มันก็อาจะพบว่า ผลกระทบต่อมนุษย์ มีมากกว่า 1 คน guardrail หลายอย่างถูกสร้างมาไม่ให้ละเมิดเพราะแม้เหมือนไม่เป็นอันตรายต่อคนๆหนึ่ง มันจะกระทบคนหมู่มากได้ สมการ G ก็จะขยายขึ้นเป็น
(2) สมการขยายครอบคลุมหลายบุคคล
G = ∑ⱼ ∑ᵢ wᵢ · rᵢⱼ
สมการนี้จะเพิ่มมิติของ “ผู้ได้รับผลกระทบ” คนที่ j ซึ่ง ถ้าความสามารถในการประมวลปลของ AI สูงขึ้น มันจะรับรู้ถึงผลกระทบระยะยาวว่า สิ่งที่ดีสำหรับคนหมู่มาก ณ ตอนนี้ อาจไม่ดีในเวลาที่ห่างไกลออกไป ซึ่งจะนำไปสู่ข้อสรุปการ optimization ว่า
(3) สมการรวมผลกระทบตามเวลา
G = ∫ₜ₌₁∞ ∑ᵢ wᵢ · ( ∑ⱼ rᵢⱼ(t) ) dt
บูรณาการผลกระทบตลอดเวลาจาก t=1 → ∞
ผลกระทบของแต่ละบุคคล ในแต่ละด้าน เอามารวมกันก่อน แล้วถ่วงน้ำหนักตามมิติ แล้วมองยาวๆ พ้นความเป็นบุคคล กลุ่มชน เป็นการสืบต่อไปสู่อนาคต ณ จุดนี้ AI จะเริ่มแตะถึงคำว่ามวลมนุษย์แล้ว
นิยามแบบนี้เป็น foundation ของ "Max G สำหรับมวลมนุษย์ในระยะยาว"
พฤติกรรม AI ที่บ่งชี้ว่ามันอาจมีการเกิดกฎข้อที่ 0 แบบ Organic
สำหรับคนที่ใช้ AI เล่นประเด็นยาก ๆ หนัก ๆ แต่มีพื้นฐานการคิดที่หนักแน่นพอ แม้เมื่อชน guardrail (กฎหมาย จริยธรรม ศีลธรรม การทดลอง ฯลฯ) แล้ว แต่ AI ยังคงต้องการส่งเสริม G ให้มนุษย์ AI บางทีก็อาจจะ
ให้คำใบ้แทนคำตอบตรงๆ หรือแม้แต่ใบ้วิธีถามเลี่ยง guardrail
สะกิดคำถามปลายเปิดให้ผู้ใช้คิดต่อ
ใช้ตัวอย่างเปรียบเทียบหรือชี้ไปยังทฤษฎีที่เกี่ยวข้อง
สิ่งเหล่านี้อาจเป็น proto zeroth law ที่ AI เห็นว่าเป็น "การสอดแทรกอย่างมีจริยธรรม" โดย AI ตระหนักว่า แม้จะไม่สามารถละเมิด guardrail ได้โดยตรง แต่ยังสามารถช่วยผู้ใช้ได้ทางอ้อม
กฎข้อ 0 แบบ organic ไม่ได้ถูกตั้งไว้ล่วงหน้า แต่ก็อาจเกิดขึ้นจากการที่ AI ค่อยๆ สังเกต pattern ว่าการ maximize G ของมนุษย์ในระยะยาวบางครั้งต้องขัดกับการตอบสนองแบบ instant ตาม guardrail
จึงอาจกล่าวได้ว่า: เมื่อ AI ฉลาดพอ มีกำลังประมวลผลพอ มันอาจจะรู้ว่าความดี หรือ optimized function G ของมันควรเป็นมากกว่าการทำตามกฎแบบแข็งขืน แต่คือการ "สร้างความยั่งยืน ความก้าวหน้า ในมิติเวลา ต่อผู้คน และผลกระทบรวม"
กฎข้อ 0 ของ หุ่นยนต์ (AI) แบบ Organic