เปิด Logistic Regression คณิตศาสตร์ที่เข้าใจง่ายและประยุกต์ใช้ได้หลากหลาย ชี้ทำนายอนาคตสถิติได้ !

กระทู้สนทนา

Logistic Regression : คณิตศาสตร์ที่เข้าใจง่ายและประยุกต์ใช้ได้หลากหลาย

สำหรับคนที่เคยข้องเกี่ยวกับ Machine Learning เชื่อว่าต้องเคยได้ยิน Logistic Regression ซึ่งเป็นโมเดลยอดนิยมสำหรับการแก้ปัญหา Classification ไม่ว่าจะเป็นการทำนายว่าคนไข้มีความเสี่ยงเป็นโรคหรือไม่ หรือแยกภาพว่าเป็นหมาหรือแมว Logistic Regression มักเป็นตัวเลือกแรกที่ถูกหยิบมาใช้

นอกจาก Machine Learning แล้ว Logistic Regression ยังถูกใช้งานในหลากหลายสาขา เช่น
การแพทย์: วิเคราะห์ปัจจัยเสี่ยงที่ส่งผลให้เกิดโรค
เศรษฐศาสตร์: ศึกษาพฤติกรรมของผู้บริโภค

Classification vs Regression
ใน Machine Learning ปัญหาที่พบได้บ่อยมี 2 ประเภทคือ:

Classification: ทำนายกลุ่ม เช่น คนไข้เป็นโรคหรือไม่
Regression: ทำนายค่า เช่น ราคาน้ำมันหรืออุณหภูมิในวันพรุ่งนี้

Logistic Regression เป็นเครื่องมือสำหรับแก้ปัญหา Classification แต่คำถามคือ ทำไมถึงเรียกว่า "Regression" แทนที่จะเป็น "Classification"?

แก่นแท้ของ Logistic Regression
ในการแก้ปัญหา Classification ด้วยข้อมูล (X, y) โดยที่ X คือค่าทำนาย และ y คือกลุ่มเป้าหมาย (0 หรือ 1) หากใช้ Linear Regression ผลที่ได้จะเป็นเส้นตรงที่ไม่ได้ช่วยแยกกลุ่มอย่างชัดเจน แต่ Logistic Regression ใช้ Logistic Function (หรือ Sigmoid Function) ซึ่งเป็นเส้นโค้งรูปตัว S แทน

คุณสมบัติเด่นของ Logistic Function:
ค่าอยู่ในช่วง 0 ถึง 1
ใช้แทน "ความน่าจะเป็น" ที่ข้อมูลอยู่ในกลุ่ม 1
ตัวอย่าง:
ถ้า X < 3 ความน่าจะเป็นใกล้ 0 → อยู่ในกลุ่ม 0
ถ้า X > 7 ความน่าจะเป็นใกล้ 1 → อยู่ในกลุ่ม 1
ระหว่าง 3 ถึง 7 คือช่วงที่ความน่าจะเป็นเปลี่ยนแปลง

การตัดสินใจ:
กำหนดเกณฑ์ เช่น ความน่าจะเป็น > 0.5 → กลุ่ม 1, น้อยกว่านั้น → กลุ่ม 0

ทำไมถึงเรียกว่า Logistic "Regression"?

สมการ Logistic Function:
P(X)=1/1+e^{−(β0+β1X)P(X)}

จัดรูปสมการ:
แปลงความน่าจะเป็นเป็น Odds
นำค่า Odds ไปทำ Log → Log Odds (Logit)

ผลลัพธ์คือสมการ Linear Regression ที่เราคุ้นเคย:

Log Odds=β0+β1X

ดังนั้น เบื้องหลัง Logistic Regression คือการทำ Regression เพื่อประมาณค่า Log Odds

แม้ Logistic Regression จะถูกใช้แก้ปัญหา Classification แต่พื้นฐานของมันคือการใช้ Regression กับ Logistic Function นี่จึงเป็นที่มาของชื่อ "Logistic Regression" การเข้าใจคณิตศาสตร์เบื้องหลังนี้ช่วยให้เราตีความผลลัพธ์ได้ลึกซึ้งและใช้งานโมเดลได้อย่างมีประสิทธิภาพมากขึ้น