การทำเหมืองข้อมูล (Data Mining)

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
เรื่อง การแก้ไขปัญหาด้วยกระบวนการเทคโนโลยีสารสนเทศ
Advertisements

Assessment and evaluation in e-learning
อัตราส่วนของจำนวนหลายๆ จำนวน
การศึกษาและประยุกต์ใช้ขั้นตอนวิธีเชิง วิวัฒน์แบบหลายจุดประสงค์บนคลังข้อมูล เจเมทัล Study of Evolutionary Algorithm in Multi- objective on Library jMetal.

การแบ่งปันความลับเหนืออาร์เอสเอ (Secret Sharing over RSA)
BC320 Introduction to Computer Programming
ความน่าจะเป็น (Probability)
Engineering Problem Solving Program by Using Finite Element Method
ขั้นตอนการพัฒนาโปรแกรม
Chapter 9: Hypothesis Testing : Theory
ชนิดของข้อมูลและตัวดำเนินการ
สเฟียโรมิเตอร์(Spherometer)
CE 112 บทที่ 5 การทำซ้ำในภาษา C
ผศ.(พิเศษ)นพ.นภดล สุชาติ พ.บ. M.P.H.
ตัวดำเนินการ (Operator) คือสัญลักษณ์หรือเครื่องหมายแทนการกระทำกับข้อมูล เพื่อบอกให้เครื่องคอมพิวเตอร์ทราบว่าจะต้องดำเนินการใดกับข้อมูลใดบ้าง แบ่งออกเป็น.
Lab 2: การใช้ MATLAB สำหรับการสร้างแบบจำลองเพื่อวิเคราะห์
Number Representations
Image Processing & Computer Vision
น.ส.กฤติกา วงศาวณิช นายศุภชัย ตั้งบุญญะศิริ
Homework #6 การบ้านมี 2 ส่วน
การควบคุมทิศทางการทำงานของโปรแกรม
ระบบบัญชีเดี่ยว.
การวัดประสิทธิภาพ.
การจำแนกบรรทัดข้อความ
การเขียนโปรแกรมคอมพิวเตอร์และอัลกอริธึม
การใช้ซอฟต์แวร์ WEKA.
Decision Limit & Detection Capability.
การสุ่มตัวอย่าง (Sampling)
Minitab for Product Quality
ตัวดำเนินการ(Operator)
การทดสอบสมมติฐาน
การเปลี่ยนแปลงเกี่ยวกับตัวแปร
ง30212 การเขียนโปรแกรมภาษาคอมพิวเตอร์ โรงเรียนปลวกแดงพิทยาคม
คำสั่ง while และ do…while
การวิเคราะห์ข้อมูล.
เครื่องหมายและการดำเนินการ ในภาษา C
ตัวอย่างที่ 2.4 วิธีทำ. สมมติให้พนักงานดังกล่าวดำเนินการแต่งตัวเพื่อไปทำงานเป็นดังนี้ ตัวอย่างที่ 2.4 วิธีทำ.
บทที่ 9 สถิติที่ใช้ในการประเมินผล
ผศ. ดร. ศุภวัจน์ รุ่งสุริยะวิบูลย์ คณะเศรษฐศาสตร์ มหาวิทยาลัยเชียงใหม่
CHAPTER 4 Control Statements
หน่วยที่ 5 การสร้างเครื่องมือวัดคุณลักษณะอันพึงประสงค์
Software Testing  - ช่วยกำจัด และลดข้อบกพร่องที่จะก่อให้เกิดปัญหาลงให้มากที่สุดที่จำทำได้ (ตามเวลาที่มี) - ช่วยลดความเสี่ยง เพิ่มความมั่นใจ และน่าเชื่อถือ.
การประเมินค่างาน ดร. สุจิตรา ธนานันท์.
Classification Data mining การทำเหมืองข้อมูลแบบจำแนก
การทำเหมืองข้อมูล (Data Mining)
กลวิธีการสอนคณิตศาสตร์ระดับประถมศึกษา
การทำเหมืองข้อมูล (Data Mining)
เข้าร่วมประกวดผลงานวิจัยประเภทการเรียนการสอน
การประเมินโรคซึมเศร้า และการฆ่าตัวตาย
วิทยาลัยเทคโนโลยีภูเก็ต อำเภอเมือง จังหวัด ภูเก็ต
CHAPTER 7 String Functions and Regular Expression
การทำเหมืองข้อมูล (Data Mining)
หลักการเขียนโปรแกรม ( )
การตรวจสอบคุณภาพ ของเครื่องมือการวิจัย
การทำเหมืองข้อมูล (Data Mining)
การใช้โปรแกรม GSP พัฒนาผลสัมฤทธิ์ทางการเรียน
เครื่องมือที่ใช้ JUnit4.8.1 on Eclipse SDK3.5.2 ขึ้นไป
Data Mining การทำเหมืองข้อมูล
ปัญหาที่พบ คือ การขาดความรับผิดชอบ ของนักศึกษา สาเหตุของปัญหา 1. ลักษณะนิสัยส่วนตัวของนักศึกษา ซึ่งอยู่ในช่วงวัยรุ่น 2. การมีสัมพันธภาพระหว่างเพื่อน ร่วมงาน.
ผู้วิจัย นายไพรัตน์ ศิลปสาตร์ สังกัด วิทยาลัยเทคโนโลยีภูเก็ต
Lab 8: การจำแนกประเภทข้อมูล ใช้ทฤษฎีของเบย์
คณิตศาสตร์พื้นฐาน ค ชั้นมัธยมศึกษาปีที่ 3 โดย ครูชำนาญ ยันต์ทอง
การออกแบบสื่อเพื่อการศึกษา ADDIE Model
การพัฒนาผลสัมฤทธิ์โดยใช้ชุดการสอน ในรายวิชาสุนทรียศาสตร์เบื้องต้น ระดับประกาศนียบัตรวิชาชีพ ชั้นปีที่ 2 สาขาคอมพิวเตอร์กราฟิก ผู้วิจัย อาจารย์ปนัดดา วรกานต์ทิ
Week 5 While and Do-While loop (Control Structure 2)
CHAPTER 2 Operators.
Data Mining Dr. Wararat Rungworawut การทำเหมืองข้อมูล (Data Mining) สอนโดย ผศ. ดร. วรารัตน์ สงฆ์แป้น ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์
ประวัติการศึกษาไทย หลักสูตรประกาศนียบัตรบัณฑิตวิชาชีพครู
ใบสำเนางานนำเสนอ:

การทำเหมืองข้อมูล (Data Mining) 322475 การทำเหมืองข้อมูล (Data Mining) การประเมินโมเดล (Model Evaluation) สอนโดย ผศ.ดร.วรารัตน์ สงฆ์แป้น(รุ่งวรวุฒิ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์มหาวิทยาลัยขอนแก่น

การประเมินโมเดล Holdout Method เป็นวิธีเหมาะกับชุดข้อมูลขนาดใหญ่ ตัวอย่างในชุดข้อมูลจะถูกแบ่งออกเป็น 2 ส่วน แบบสุ่ม ด้วยอัตราส่วนขนาดของข้อมูลสอนเท่ากับ 2/3 และขนาดข้อมูลทดสอบ เท่ากับ 1/3 ใช้ชุดข้อมูลสอนในการสร้างแบบจำลองการทำนาย และตรวจสอบ ความถูกต้องในการจำแนกประเภทข้อมูลใหม่หรือที่ไม่เคยเห็นมาก่อนด้วยชุดข้อมูล ทดสอบ ค่าความแม่นยำคำนวณได้จากอัตราส่วนระหว่างจำนวนตัวอย่างในชุด ข้อมูลทดสอบที่ทำนายกลุ่มได้กับจำนวนตัวอย่างทั้งหมดในชุดข้อมูลทดสอบ 1 Correct 0 Incorrect N = No. Test Data Set

การประเมินโมเดล Data Set Training set Test set แบ่งเป็น 2/3 แบ่งเป็น 1/3

การประเมินโมเดล K-fold Cross validation เหมาะสำหรับชุดข้อมูลจำนวนไม่มาก สมมติว่าขนาดของข้อมูลเท่ากับ N ตัวอย่างในชุดข้อมูลจะถูกแบ่งออกเป็น k ส่วน โดยแต่ละชุดข้อมูลจะมีขนาด N/k วิธีนี้จะเรียนรู้ด้วยชุดข้อมูลสอนและตรวจสอบความถูกต้งในการจำแนกประเภทด้วย ชุดข้อมูลทั้งหมด k รอบ โดยที่ รอบที่ i จะใช้ชุดข้อมูลทดสอบชุดที่ i เป็นชุดข้อมูลทดสอบ ชุดที่เหลือเป็นชุดข้อมูลสอน เป็นต้น ดังนั้นค่าความแม่นยำจะคำนวณได้จากอัตราส่วนระหว่างจำนวนตัวอย่างในชุดหารด้วยจำนวนทั้งหมด k รอบ 1 Correct 0 Incorrect N = No. Test Data Set

การประเมินโมเดล Data Set 1 2 3 4 5 #1 1 2 4 5 3 . #2 2 1 3 4 5 #5 5 1 K-Fold Cross Validation Data Set 1 2 3 4 5 #1 1 2 4 5 3 . #2 2 1 3 4 5 #5 5 1 3 4 2

การประเมินโมเดล Confusion Matrix คือการประเมินผลลัพธ์การทำนาย (หรือผลลัพธ์จากโปรแกรม) เปรียบเทียบกับผลลัพธ์จริงๆ True Positive (TP) คือ ข้อมูลเป็นจริง และผลการทำนายบอกว่าจริง True Negative (TN) คือ ข้อมูลไม่จริง และผลการทำนายบอกว่าไม่จริง False Positive (FP) คือ ข้อมูลจริง แต่ผลการทำนายบอกว่าไม่จริง False Negative (FN) คือ ข้อมูลไม่จริง แต่ผลการทำนายบอกว่าจริง

การประเมินโมเดล Sensitivity or Recall คือ ค่าที่แสดงว่าการทำนายข้อมูลเป็นจริงถูกต้องอัตราส่วนเท่าไรของข้อมูลจริงทั้งหมด Specificity คือ ค่าที่แสดงว่าการทำนายข้อมูลเป็นไม่จริงอัตราส่วนเท่าไรของข้อมูลไม่จริงทั้งหมด Precision คือ ค่าที่แสดงว่าข้อมูลทำนายว่าจริง ถูกต้องเป็นอัตราส่วนเท่าไรเมื่อเทียบกับข้อมูลที่ทำนายว่าจริง

การประเมินโมเดล Accuracy = (TP+TN) (TP+TN+FP+FN)

Example: Sensitivity or Recall : 6,954/7,000 = 0.993 Specificity: 2,588/ 3,000 = 0.863 Precision: 6,954/7,366 = 0.944 Accuracy: (6,954+2,588)/10,000 = 0.954