การจำแนกข้อมูลด้วยวิธี K-Nearest Neighbor
ประเภทของการเรียนรู้แบบมีการเรียนการสอน Lazy Learning ซึ่งเป็นการเรียนรู้อย่างง่ายโดยใช้การสำรวจชุดข้อมูลสอนแบบ คร่าว ๆ และจะทำการจำแนกประเภทข้อมูลเมื่อต้องการจำแนกเท่านั้น ซึ่งจะใช้ เวลาในการเรียนรู้น้อยแต่เสียเวลาในการจำแนกข้อมูล Eager Learning ใช้เวลาในการเรียนรู้ และสร้างโมเดล ซึ่งหลังจากการสร้างโมเดล แล้วจะสามารถจำแนกได้ง่ายและรวดเร็ว ตัวอย่างเช่น ต้นไม้ตัดสินใจ ขั้นตอนใน การสร้างโมเดลนั้นจะใช้เวลานาน แต่ในขั้นตอนการจำแนกจะใช้เวลารวดเร็ว
ประเภทของการเรียนรู้แบบมีการเรียนการสอน สร้างโมเดล Eager Learning - มีการสร้างโมเดล
ประเภทของการเรียนรู้แบบมีการเรียนการสอน Lazy Learning – เปรียบเทียบเป็นครั้ง ๆ ไป ใกล้ Training set อันไหน คิดว่าเป็นอันนั้น
Lazy learning or Instance-Based Methods ขั้นตอนวิธีเพื่อนบ้านที่ใกล้ที่สุด (K-nearest neighbor approach - KNN) จะ คำนวณความคล้ายคลึงจากการวัดระยะความห่าง วิธีการสัดค่าน้ำหนักการถดถอย (Locally weighted regression) โดยการพยายาม คาดเดาจากการหาจุดตัดเพื่อวัดค่าจุดข้างเคียง
K-nearest neighbor approach - KNN การจำแนกข้อมูลที่เลือกเฉพาะข้อมูลที่มีระยะห่าง 1 กลุ่ม (ใกล้ที่สุด) จะเรียกว่า “1NN (One Nearest Neighbor) ดังนั้น “k-NN” ค่า k จึงเป็นจำนวนของกลุ่มที่ต้องการเลือกเป็นกลุ่มเพื่อนบ้าน โดยควรกำหนดเป็นเลขคี่ สำหรับการหาค่าระยะทางจะใช้สมการจากทฤษฎีการวัดระยะทางของ Euclidean ดังนี้ เมื่อ p คือค่าของชุดข้อมูลที่ต้องการจำแนก q คือค่าของชุดข้อมูลเพื่อนบ้านที่นำมาพิจารณา
ขั้นตอนวิธี K-NN ข้อมูลใหม่ (Unknown) ซึ่งไม่ทราบ Class เรียกว่า U ข้อมูลชุดสอน (Training set) มีขนาดเท่ากับ Nrow * Marrtibue วนรอบ จำนวน N รอบ คำนวณหาระยะห่างของ U กับ Training[i] จบการทำงาน คำนวณหาระยะทางที่ใกล้ที่สุด จำนวน k ค่า เลือกคำตอบจากชุดข้อมูลสอนที่ใกล้ที่สุด หรือมีคำตอบซ้ำกันมากที่สุด
ยกตัวอย่าง Data transformation
(1NN)
(1NN)
ระยะห่างระหว่างสัตว์ประหลาดกับชุดข้อมูล (3NN) ชื่อ ระยะห่างระหว่างสัตว์ประหลาดกับชุดข้อมูล คลาส มนุษย์ 1.414214 Mammal งูเหลือม 1.732051 Reptile แซลมอน Fish วาฬ ค้างคาว ปลาไหล
แล้วถ้าคำตอบไม่เหมือนกันละ ??? เลือกคำตอบจากเสียงข้างมาก เช่น สัตว์เลี้ยงลูกด้วยนม สัตว์เลี้อยคลาน สัตว์เลี้ยงลูกด้วย นม จะสรุปว่าเป็นสัตว์เลี้ยงลูกด้วยนมจากเสียงข้างมาก เลือกคำตอบจากคำตอบที่มีระยะทางน้อยที่สุด (ในกรณีที่คำตอบไม่เหมือนกันเลย)
D-tree (Eager Learning) เปรียบเทียบลักษณะการทำงาน D-tree (Eager Learning) KNN (Lazy Learning) ระยะเวลาในการสร้างโมเดล ใช้เวลานาน ไม่มีการสร้างโมเดล ระยะเวลาในการจำแนกข้อมูลใหม่ ใช้เวลารวดเร็ว ใช้เวลานานเพราะต้องทำการเปรียบเทียบกับชุดข้อมูล ความยากง่าย ยากในการสร้างโมเดล ง่ายในการคำนวณ
ตัวอย่างคลาส Project ของปีการศึกษา 1/2555 1. การคัดแยกเว็บเพจภาษาไทยอัตโนมัติด้วยวิธี K-Nearest Neighbor (KNN) โดยนาย เกษมศาสตร์ ชมพูวิเศษ และนายสมควร ภูจอมทอง แนวคิด เพื่อจำแนกหมวดหมู่ของเว็บเพจว่าเป็นภาษาไทยหรือภาษาอังกฤษ ข้อมูลนำเข้าคือ เว็บเพจภาษาไทยจำนวน 56 เว็บเพจ และภาษาอังกฤษจำนวน 51 เว็บเพจ แอตตริบิทว์ คือ คำที่ได้จากการตัด html tag ตัวเลข และอักขระพิเศษที่ไม่ต้องการ ออก คลาส คือ ภาษาไทย หรือภาษาอังกฤษ ความถูกต้อง 81%
ตัวอย่างคลาส Project ของปีการศึกษา 1/2555 2. ระบบแยกแยะภาพผลไม้ โดยใช้วิธี KNN โดยนางสาวจุฑารัตน์ สุขรัตน์ และนายอดุลย์ สุดสงคราม แนวคิด เพื่อจำแนกผลไม้จากภาพ ข้อมูลนำเข้าคือ ภาพผลไม้ 50 ชนิด แอตตริบิทว์ คือ สีแดง สีเขียว สีเหลือง สีขาว สีม่วง ขนาดเล็ก ขนาดกลาง ขนาดใหญ่ คลาส คือ ตระกูลแตง ตระกูลเบอรรี่