งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

Classification Data mining การทำเหมืองข้อมูลแบบ จำแนก อ. วิวัฒน์ ชินนาทศิริกุล.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "Classification Data mining การทำเหมืองข้อมูลแบบ จำแนก อ. วิวัฒน์ ชินนาทศิริกุล."— ใบสำเนางานนำเสนอ:

1 Classification Data mining การทำเหมืองข้อมูลแบบ จำแนก อ. วิวัฒน์ ชินนาทศิริกุล

2 อัลกอริทึมที่ใช้ในการเหมืองข้อมูลแบบจำแนกได้แก่ Simple value Algorithm Naïve Bayes method Decision Tree induction Covering Algorithm

3 Classification : Definition

4

5 Decision Tree Example

6 Decision Tree Construction Process 1. แบ่งข้อมูลตัวอย่าง (Samples Data) ออกเป็น 3 ส่วนได้แก่ - Training Datasets - Validation Datasets - Test Datasets 2. นำ Training Datasets มาสร้าง Decision Tree 3. ใช้ Validation Datasets วัดความถูกต้องในการจำแนกของ Tree ที่สร้าง 4. ทำซ้ำข้อ 2,3 เพื่อให้ได้ความถูกต้องสูงสุด 5. ใช้ Testing Datasets มาสอบทดกับ Tree ที่ได้เพื่อวัดความถูกต้อง

7 Decision Tree Learning Algorithm อัลกอริทึมที่ใช้ในการสร้าง Decision Tree ได้แก่ - ID3 Algorithm - C4.5 Algorithm - C5.0 Algorithm - CART Algorithm

8 Decision Tree Induction ขั้นตอนในการสร้าง Decision Tree จาก Training Datasets เพื่อใช้จำแนกข้อมูล มีดังนี้ 1. เลือก Attribute ที่ทำหน้าที่เป็น Root Node 2. จาก Root Node สร้างเส้นเชื่อมโยงไปยังโหนดลูก จำนวนเส้นเชื่อมโยง จะเท่ากับจำนวนค่าที่เป็นไปได้ทั้งหมดของ Attribute ที่เป็น root node 3. ถ้าโหนดลูก เป็นกลุ่มของข้อมูลที่อยู่ในคลาสเดียวกันทั้งหมด ให้หยุด สร้างต้นไม้ แต่ถ้าโหนดลูกมีข้อมูลของหลายคลาสปะปนกันอยู่ ต้อง สร้าง subtree เพื่อจำแนกข้อมูลต่อไป โดยเลือก subtree มาทำหน้าที่ เป็น root node ของ subtree มาทำซ้ำในขั้นตอนที่ 2,3

9 ID3 Algorithm use information theory to select the best attribute for a decision at a node The idea is to select an attribute that yields the highest information gain

10 Classification Sample Data

11 ข้อมูลที่กำหนดในตาราง เป็นข้อมูลสภาพ อากาศ ที่ใช้ประกอบการ ตัดสินใจในการเล่นกีฬาชนิดหนึ่ง ว่า มีสภาพอากาศอย่างไรจึงจะเล่น (play = yes) มีสภาพอากาศอย่างไรจึงไม่เล่น (play = no) ในงาน จำแนกข้อมูล (Classification) ข้อมูลที่เป็นจุดมุ่งหมายใน การจำแนก คือ แอททริบิวต์ play ขณะที่ แอททริบิวต์ outlook, temperature, humidity, windy ทำ หน้าที่เป็น predicting attributes

12 ปัญหาที่ต้องพิจารณาคือ จะเลือก Attributes ใด ทำหน้าที่เป็น root node ในแต่ขั้นตอนของการสร้าง tree และ subtree เกณฑ์ที่ช่วยตัดสินใจ ในการเลือก root node คือ ทดลองเลือก Attribute แต่ละตัวมาทำหน้าที่เป็น root node แล้วหาค่า Gain ซึ่งเป็นค่าที่ใช้บอกว่า attribute ที่ทำหน้าที่เป็น root node สามารถจำแนกข้อมูลได้ดีมากน้อยเพียงใด จะเลือก attribute ที่ให้ค่า Gain สูงสุด

13 Gain เป็นค่าที่บอกระดับความสามารถของ การจำแนกคลาสของ attribute หน่วยของการวัดเป็น bits ถ้าให้ T แทน เซตของ Training Set X แทน แอททริบิวต์ ที่ถูกเลือกให้เป็น ตัวจำแนกข้อมูล Gain(x) = info(T) – info x (T)

14 Info(T) เป็นฟังก์ชัน ที่ระบุปริมาณข้อมูลที่ ต้องการเพื่อให้สามารถจำแนก คลาสที่ต้องการได้ เมื่อ |T| คือ จำนวนข้อมูลทั้งหมดใน Training Datasets Freq(C j,T) คือ ความถี่ที่ข้อมูลใน T ปรากฏเป็นคลาส C j info(T) =

15 Info x (T) คือ ฟังก์ชันที่ระบุปริมาณข้อมูลที่ต้องการ เพื่อการจำแนกคลาส ของข้อมูลโดยใช้ attribute X เป็น ตัวตรวจสอบเพื่อแยกข้อมูล Info x (T) = เมื่อ i คือ จำนวนค่าที่เป็นไปได้ของแอททริบิวต์ x |T i | คือ จำนวนข้อมูลที่มีค่า x=i

16 จากตัวอย่างข้อมูลจะหาค่า gain ของแต่ละ attribute ที่จะเลือกเป็น Root node 1. จะต้องหาค่า info(T)

17 2. หาค่า info x (T) ของแต่ละแอททริบิวต์ ค่า info outlook (T) หาได้ดังนี้

18

19

20

21

22

23

24

25

26

27

28 แบบฝึกหัด จากข้อมูล ความคิดเห็นของคน 7 คน ที่ต้องการเลือกผู้สมัคร หมายเลข 1 หรือ หมายเลข 2 โดยพิจารณาจากอายุ รายได้ และการศึกษา ของผู้แสดงความคิดเห็น ปรากฎดังตาราง ให้สร้าง Decision Tree โดยใช้ ID3 Algorithm NoAgeInco me Educati on Candi date 1>=3 5 HighHigh School 1 2<35LowUniversi ty 1 3>=3 5 HighCollege2 4>=3 5 LowHigh School 2 5>=3 5 HighUniversi ty 1 6<35HighCollege1 7<35LowHigh School 2

29


ดาวน์โหลด ppt Classification Data mining การทำเหมืองข้อมูลแบบ จำแนก อ. วิวัฒน์ ชินนาทศิริกุล.

งานนำเสนอที่คล้ายกัน


Ads by Google