การทำเหมืองข้อมูล (Data Mining) 322475 การทำเหมืองข้อมูล (Data Mining) การประเมินโมเดล (Model Evaluation) สอนโดย ผศ.ดร.วรารัตน์ สงฆ์แป้น(รุ่งวรวุฒิ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์มหาวิทยาลัยขอนแก่น
การประเมินโมเดล Holdout Method เป็นวิธีเหมาะกับชุดข้อมูลขนาดใหญ่ ตัวอย่างในชุดข้อมูลจะถูกแบ่งออกเป็น 2 ส่วน แบบสุ่ม ด้วยอัตราส่วนขนาดของข้อมูลสอนเท่ากับ 2/3 และขนาดข้อมูลทดสอบ เท่ากับ 1/3 ใช้ชุดข้อมูลสอนในการสร้างแบบจำลองการทำนาย และตรวจสอบ ความถูกต้องในการจำแนกประเภทข้อมูลใหม่หรือที่ไม่เคยเห็นมาก่อนด้วยชุดข้อมูล ทดสอบ ค่าความแม่นยำคำนวณได้จากอัตราส่วนระหว่างจำนวนตัวอย่างในชุด ข้อมูลทดสอบที่ทำนายกลุ่มได้กับจำนวนตัวอย่างทั้งหมดในชุดข้อมูลทดสอบ 1 Correct 0 Incorrect N = No. Test Data Set
การประเมินโมเดล Data Set Training set Test set แบ่งเป็น 2/3 แบ่งเป็น 1/3
การประเมินโมเดล K-fold Cross validation เหมาะสำหรับชุดข้อมูลจำนวนไม่มาก สมมติว่าขนาดของข้อมูลเท่ากับ N ตัวอย่างในชุดข้อมูลจะถูกแบ่งออกเป็น k ส่วน โดยแต่ละชุดข้อมูลจะมีขนาด N/k วิธีนี้จะเรียนรู้ด้วยชุดข้อมูลสอนและตรวจสอบความถูกต้งในการจำแนกประเภทด้วย ชุดข้อมูลทั้งหมด k รอบ โดยที่ รอบที่ i จะใช้ชุดข้อมูลทดสอบชุดที่ i เป็นชุดข้อมูลทดสอบ ชุดที่เหลือเป็นชุดข้อมูลสอน เป็นต้น ดังนั้นค่าความแม่นยำจะคำนวณได้จากอัตราส่วนระหว่างจำนวนตัวอย่างในชุดหารด้วยจำนวนทั้งหมด k รอบ 1 Correct 0 Incorrect N = No. Test Data Set
การประเมินโมเดล Data Set 1 2 3 4 5 #1 1 2 4 5 3 . #2 2 1 3 4 5 #5 5 1 K-Fold Cross Validation Data Set 1 2 3 4 5 #1 1 2 4 5 3 . #2 2 1 3 4 5 #5 5 1 3 4 2
การประเมินโมเดล Confusion Matrix คือการประเมินผลลัพธ์การทำนาย (หรือผลลัพธ์จากโปรแกรม) เปรียบเทียบกับผลลัพธ์จริงๆ True Positive (TP) คือ ข้อมูลเป็นจริง และผลการทำนายบอกว่าจริง True Negative (TN) คือ ข้อมูลไม่จริง และผลการทำนายบอกว่าไม่จริง False Positive (FP) คือ ข้อมูลจริง แต่ผลการทำนายบอกว่าไม่จริง False Negative (FN) คือ ข้อมูลไม่จริง แต่ผลการทำนายบอกว่าจริง
การประเมินโมเดล Sensitivity or Recall คือ ค่าที่แสดงว่าการทำนายข้อมูลเป็นจริงถูกต้องอัตราส่วนเท่าไรของข้อมูลจริงทั้งหมด Specificity คือ ค่าที่แสดงว่าการทำนายข้อมูลเป็นไม่จริงอัตราส่วนเท่าไรของข้อมูลไม่จริงทั้งหมด Precision คือ ค่าที่แสดงว่าข้อมูลทำนายว่าจริง ถูกต้องเป็นอัตราส่วนเท่าไรเมื่อเทียบกับข้อมูลที่ทำนายว่าจริง
การประเมินโมเดล Accuracy = (TP+TN) (TP+TN+FP+FN)
Example: Sensitivity or Recall : 6,954/7,000 = 0.993 Specificity: 2,588/ 3,000 = 0.863 Precision: 6,954/7,366 = 0.944 Accuracy: (6,954+2,588)/10,000 = 0.954