คำตอบที่ได้รับเลือกจากเจ้าของกระทู้
ความคิดเห็นที่ 1
ก็ต้องทำได้ครับ ไม่เอาแค่ทฤษฎี กระบวนการด้าน data science มันเริ่มตั้งแต่เก็บและดึงข้อมูลไปจนถึง deploy ผลงานขึ้นเว็บ แล้วแต่ว่าคุณจะเน้นตรงไหน
1. data gathering เก็บข้อมูลเอง เช่นผ่าน API หรือ scraping จาก web / social media หรือจากพวกเซ็นเซอร์ กล้องวงจรปิด
2. data cleaning / manipulation ปรับเปลี่ยนข้อมูล ทำความสะอาด ลบข้อมูลซ้ำ แก้ข้อมูลที่ผิด ปรับรูปแบบตารางเก็บข้อมูลให้อยู่ในรูปแบบที่เหมาะแก่การวิเคราะห์ต่อไป
3. exploratory analysis ทำความรู้จักข้อมูล ในแต่ละคอลัมน์มีค่าอะไร แบ่งหมวดข้อมูลได้อย่างไร มีค่าไหนสูง/ต่ำ ผิดปกติ มีอะไรน่าสนใจหรือแปลก ๆ ไหมในข้อมูล
4. model building สร้างโมเดลเพื่ออธิบายหรือทำนาย จะใช้ statistical หรือ machine learning ก็แล้วแต่ วัดความเหมาะสมของโมเดลได้ ใช้กระบวนการถูกต้อง (cross validation, stratified ได้ถูกต้อง, ไม่มี leakage กลับมาในชุดเทรน) ตรงนี้ต้องใช้ความรู้เชิงทฤษฎีเยอะหน่อย
5. visualization สร้าง interactive visualization แสดงผลของทั้งข้อมูลและโมเดลได้ ให้ผู้ใช้ปรับเปลี่ยนมุมมองได้ตามความต้องการ
6. deployment นำโมเดลที่สร้างแล้วออกใช้บนเว็บหรือผ่าน API ติดตามความแม่นยำของการทำนาย retrain model เมื่อความแม่นยำตก(อัตโนมัติ) ทำ versioning ของ model/data เก็บข้อมูล data lineage ไว้รองรับกฎหมายด้านข้อมูลที่เกี่ยวข้อง
ลองทำ 2 กับ 3 ก่อนครับ เป็นพื้นฐานที่จะทำให้เราเอาความรู้ไปใช้กับข้อมูลจริงได้ตรงที่สุด (1 ก็เป็นพื้นฐาน แต่ตอนนี้เราข้ามไปก่อน เอาข้อมูลที่คนอื่นเก็บมาแล้วมาลองเล่นก่อนได้) จากนั้นอาจจะต้องเลือกว่าจะชำนาญด้าน 4 หรือ 5 หรือ 6
แนะนำให้เข้าเว็บอย่าง kaggle.com หรือ data.world ไปโหลดชุดข้อมูลที่คุณสนใจ (กีฬา เกม การ์ตูน อะไรก็ได้) แล้วเอามาวิเคราะห์ดูครับ เครื่องมือก็ใช้ python/pandas หรือ R น่าจะเหมาะสุด Power Query/Power BI ก็ได้ (Power Query มากับ Excel, Power BI โหลดใช้ฟรีถึงจำนวนข้อมูลระดับหนึ่ง)
งานด้านนี้ต้องลองทำครับ จะมาเรียนจากทฤษฎีไม่ได้เด็ดขาด
1. data gathering เก็บข้อมูลเอง เช่นผ่าน API หรือ scraping จาก web / social media หรือจากพวกเซ็นเซอร์ กล้องวงจรปิด
2. data cleaning / manipulation ปรับเปลี่ยนข้อมูล ทำความสะอาด ลบข้อมูลซ้ำ แก้ข้อมูลที่ผิด ปรับรูปแบบตารางเก็บข้อมูลให้อยู่ในรูปแบบที่เหมาะแก่การวิเคราะห์ต่อไป
3. exploratory analysis ทำความรู้จักข้อมูล ในแต่ละคอลัมน์มีค่าอะไร แบ่งหมวดข้อมูลได้อย่างไร มีค่าไหนสูง/ต่ำ ผิดปกติ มีอะไรน่าสนใจหรือแปลก ๆ ไหมในข้อมูล
4. model building สร้างโมเดลเพื่ออธิบายหรือทำนาย จะใช้ statistical หรือ machine learning ก็แล้วแต่ วัดความเหมาะสมของโมเดลได้ ใช้กระบวนการถูกต้อง (cross validation, stratified ได้ถูกต้อง, ไม่มี leakage กลับมาในชุดเทรน) ตรงนี้ต้องใช้ความรู้เชิงทฤษฎีเยอะหน่อย
5. visualization สร้าง interactive visualization แสดงผลของทั้งข้อมูลและโมเดลได้ ให้ผู้ใช้ปรับเปลี่ยนมุมมองได้ตามความต้องการ
6. deployment นำโมเดลที่สร้างแล้วออกใช้บนเว็บหรือผ่าน API ติดตามความแม่นยำของการทำนาย retrain model เมื่อความแม่นยำตก(อัตโนมัติ) ทำ versioning ของ model/data เก็บข้อมูล data lineage ไว้รองรับกฎหมายด้านข้อมูลที่เกี่ยวข้อง
ลองทำ 2 กับ 3 ก่อนครับ เป็นพื้นฐานที่จะทำให้เราเอาความรู้ไปใช้กับข้อมูลจริงได้ตรงที่สุด (1 ก็เป็นพื้นฐาน แต่ตอนนี้เราข้ามไปก่อน เอาข้อมูลที่คนอื่นเก็บมาแล้วมาลองเล่นก่อนได้) จากนั้นอาจจะต้องเลือกว่าจะชำนาญด้าน 4 หรือ 5 หรือ 6
แนะนำให้เข้าเว็บอย่าง kaggle.com หรือ data.world ไปโหลดชุดข้อมูลที่คุณสนใจ (กีฬา เกม การ์ตูน อะไรก็ได้) แล้วเอามาวิเคราะห์ดูครับ เครื่องมือก็ใช้ python/pandas หรือ R น่าจะเหมาะสุด Power Query/Power BI ก็ได้ (Power Query มากับ Excel, Power BI โหลดใช้ฟรีถึงจำนวนข้อมูลระดับหนึ่ง)
งานด้านนี้ต้องลองทำครับ จะมาเรียนจากทฤษฎีไม่ได้เด็ดขาด
แสดงความคิดเห็น
เด็กมัธยมปลายต้องการหาที่ฝึกงานด้าน Data Science ครับ