งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

การทำเหมืองข้อมูล (Data Mining)

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "การทำเหมืองข้อมูล (Data Mining)"— ใบสำเนางานนำเสนอ:

1 การทำเหมืองข้อมูล (Data Mining)
322475 การทำเหมืองข้อมูล (Data Mining) การประเมินโมเดล (Model Evaluation) สอนโดย ผศ.ดร.วรารัตน์ สงฆ์แป้น(รุ่งวรวุฒิ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์มหาวิทยาลัยขอนแก่น

2 การประเมินโมเดล Holdout Method
เป็นวิธีเหมาะกับชุดข้อมูลขนาดใหญ่ ตัวอย่างในชุดข้อมูลจะถูกแบ่งออกเป็น 2 ส่วน แบบสุ่ม ด้วยอัตราส่วนขนาดของข้อมูลสอนเท่ากับ 2/3 และขนาดข้อมูลทดสอบ เท่ากับ 1/3 ใช้ชุดข้อมูลสอนในการสร้างแบบจำลองการทำนาย และตรวจสอบ ความถูกต้องในการจำแนกประเภทข้อมูลใหม่หรือที่ไม่เคยเห็นมาก่อนด้วยชุดข้อมูล ทดสอบ ค่าความแม่นยำคำนวณได้จากอัตราส่วนระหว่างจำนวนตัวอย่างในชุด ข้อมูลทดสอบที่ทำนายกลุ่มได้กับจำนวนตัวอย่างทั้งหมดในชุดข้อมูลทดสอบ 1 Correct 0 Incorrect N = No. Test Data Set

3 การประเมินโมเดล Data Set Training set Test set แบ่งเป็น 2/3
แบ่งเป็น 1/3

4 การประเมินโมเดล K-fold Cross validation
เหมาะสำหรับชุดข้อมูลจำนวนไม่มาก สมมติว่าขนาดของข้อมูลเท่ากับ N ตัวอย่างในชุดข้อมูลจะถูกแบ่งออกเป็น k ส่วน โดยแต่ละชุดข้อมูลจะมีขนาด N/k วิธีนี้จะเรียนรู้ด้วยชุดข้อมูลสอนและตรวจสอบความถูกต้งในการจำแนกประเภทด้วย ชุดข้อมูลทั้งหมด k รอบ โดยที่ รอบที่ i จะใช้ชุดข้อมูลทดสอบชุดที่ i เป็นชุดข้อมูลทดสอบ ชุดที่เหลือเป็นชุดข้อมูลสอน เป็นต้น ดังนั้นค่าความแม่นยำจะคำนวณได้จากอัตราส่วนระหว่างจำนวนตัวอย่างในชุดหารด้วยจำนวนทั้งหมด k รอบ 1 Correct 0 Incorrect N = No. Test Data Set

5 การประเมินโมเดล Data Set 1 2 3 4 5 #1 1 2 4 5 3 . #2 2 1 3 4 5 #5 5 1
K-Fold Cross Validation Data Set 1 2 3 4 5 #1 1 2 4 5 3 . #2 2 1 3 4 5 #5 5 1 3 4 2

6 การประเมินโมเดล Confusion Matrix
คือการประเมินผลลัพธ์การทำนาย (หรือผลลัพธ์จากโปรแกรม) เปรียบเทียบกับผลลัพธ์จริงๆ True Positive (TP) คือ ข้อมูลเป็นจริง และผลการทำนายบอกว่าจริง True Negative (TN) คือ ข้อมูลไม่จริง และผลการทำนายบอกว่าไม่จริง False Positive (FP) คือ ข้อมูลจริง แต่ผลการทำนายบอกว่าไม่จริง False Negative (FN) คือ ข้อมูลไม่จริง แต่ผลการทำนายบอกว่าจริง

7 การประเมินโมเดล Sensitivity or Recall คือ ค่าที่แสดงว่าการทำนายข้อมูลเป็นจริงถูกต้องอัตราส่วนเท่าไรของข้อมูลจริงทั้งหมด Specificity คือ ค่าที่แสดงว่าการทำนายข้อมูลเป็นไม่จริงอัตราส่วนเท่าไรของข้อมูลไม่จริงทั้งหมด Precision คือ ค่าที่แสดงว่าข้อมูลทำนายว่าจริง ถูกต้องเป็นอัตราส่วนเท่าไรเมื่อเทียบกับข้อมูลที่ทำนายว่าจริง

8 การประเมินโมเดล Accuracy = (TP+TN) (TP+TN+FP+FN)

9 Example: Sensitivity or Recall : 6,954/7,000 = 0.993
Specificity: 2,588/ 3,000 = 0.863 Precision: 6,954/7,366 = 0.944 Accuracy: (6,954+2,588)/10,000 = 0.954


ดาวน์โหลด ppt การทำเหมืองข้อมูล (Data Mining)

งานนำเสนอที่คล้ายกัน


Ads by Google