งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

1 Chapter 5: Instance-Based Learning Dr.Noppamas Pukkhem.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "1 Chapter 5: Instance-Based Learning Dr.Noppamas Pukkhem."— ใบสำเนางานนำเสนอ:

1 1 Chapter 5: Instance-Based Learning Dr.Noppamas Pukkhem

2 Classification: predicts categorical class labels classifies data (constructs a model) based on the training set and the values (class labels) in a classifying attribute and uses it in classifying new data Prediction: models continuous-valued functions, i.e., predicts unknown or missing values Typical Applications credit approval target marketing medical diagnosis treatment effectiveness analysis Classification vs. Prediction 2

3 Classification—A Two-Step Process Step 1 - Model construction describe a set of predetermined classes Each tuple/sample is assumed to belong to a predefined class, as determined by the class label attribute The set of tuples used for model construction is the training set The model is represented as classification rules, decision trees, or mathematical formulae Step 2 - Model usage Estimate accuracy of the model The known label of test sample is compared with the classified result from the model Accuracy rate is the percentage of test set samples that are correctly classified by the model Test set is independent of training set Use model to classify future or unknown objects 3

4 4

5 Classification Process (1): Model Construction Training Data Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Classifier (Model) 5

6 Classification Process (2): Use the Model in Prediction Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured? Accuracy != 100 6

7 Lazy vs. Eager Learning Lazy vs. eager learning Lazy learning (e.g., instance-based learning): Simply stores training data (or only minor processing) and waits until it is given a test tuple Eager learning (eg. Decision trees, SVM, NN): Given a set of training set, constructs a classification model before receiving new (e.g., test) data to classify Lazy: less time in training but more time in predicting Accuracy Lazy method effectively uses a richer hypothesis space since it uses many local linear functions to form its implicit global approximation to the target function Eager: must commit to a single hypothesis that covers the entire instance space 7

8 Its very similar to a Desktop!! Lazy Desktop Eager Survey before Lazy vs. Eager Learning 8

9 Lazy Learner: Instance-Based Methods Instance-based learning: Store training examples and delay the processing (“lazy evaluation”) until a new instance must be classified Typical approaches k-nearest neighbor approach Instances represented as points in a Euclidean space. Locally weighted regression Constructs local approximation 9

10 Instance-Based Methods 10

11 11

12 The k-Nearest Neighbor Algorithm All instances correspond to points in the n-D space. The nearest neighbor are defined in terms of Euclidean distance. The target function could be discrete- or real- valued. For discrete-valued, the k-NN returns the most common value among the k training examples nearest to x q. Vonoroi diagram: the decision surface induced by 1- NN for a typical set of training examples.. _ + _ xqxq + _ _ + _ _

13 13

14 14

15 Euclidean Distance 15

16 16

17 การกำหนดตัวแปร K – ไม่ควรเลือก K เล็กเกินไป เพราะจะทำให้ เบี่ยงเบนสูง – ไม่ควรเลือก K ใหญ่เกินไป เพราะจะทำให้ข้อมูล เกิดความลำเอียง – เพราะฉะนั้นการเลือกค่า K ขึ้นอยู่กับข้อมูล ต้อง มีการปรับค่าการประเมิน เช่น Cross-validation ระยะทางที่ใช้วัด คือ – ถ้า x ประกอบไปด้วย Attribute ดังนั้น a r (x) ดังกล่าวจึงแทนด้วยค่าในด้วย x ค่าระยะทางที่ใช้ เรียกว่า Euclidean Distance

18 อัลกอริทึมเพื่อนบ้านใกล้สุด k ตัว (k-Nearest Neighbor :k- NN)  จะตัดสินใจ ว่าคลาสใดที่จะแทนเงื่อนไข หรือกรณีใหม่ๆ ได้  ตรวจสอบจำนวนบางจำนวน (“k” ใน k- Nearest Neighbor) ของกรณีหรือเงื่อนไข ที่เหมือนกันหรือใกล้เคียงกันมากที่สุด โดย จะหาผลรวมของจำนวนเงื่อนไข หรือกรณี ต่างๆ สำหรับแต่ละคลาส  กำหนดเงื่อนไขใหม่ๆ ให้คลาสที่ เหมือนกันกับคลาสที่ใกล้เคียงกันมากที่สุด 18

19 การเรียนรู้ของอัลกอริทึม k-NN เมื่อมีการกำหนดตัวอย่างค้นถาม X q แล้ว การเรียนรู้ประกอบด้วย 2 ขั้นตอน 1. ใช้มาตรวัดระยะห่างคำนวณหา ตัวอย่าง k ตัวที่อยู่ใกล้ X q มากที่สุดจาก เซตตัวอย่างสอน 2. ประมาณค่าฟังก์ชั่นเป้าหมายของ ตัวอย่างค้นถาม X q ด้วยค่าฟังก์ชั่น เป้าหมายของตัวอย่าง X i จำนวน k ตัวที่อยู่ ใกล้ X q มากที่สุด 19

20 การเรียนรู้ของอัลกอริทึม k-NN  ประมาณค่าฟังก์ชั่นเป้าหมายของ ตัวอย่างค้นถาม X q  ค่าฟังก์ชั่นเป้าหมายเป็นค่าไม่ต่อเนื่อง  เลือกค่าส่วนมากของค่าฟังก์ชั่นเป้าหมาย ของตัวอย่าง X i จำนวน k ตัวที่อยู่ใกล้ X q มากที่สุด 20

21 การเรียนรู้ของอัลกอริทึม k-NN  ค่าฟังก์ชั่นเป้าหมายเป็นค่าจำนวนจริง  ค่าเฉลี่ยของค่าฟังก์ชั่นเป้าหมายของ ตัวอย่าง X i จำนวน k ตัวที่อยู่ใกล้ X q มาก ที่สุด 21

22 k-NN แบบถ่วงน้ำหนักด้วย ระยะทาง (Distance- Weighted k-NN)  เราสามารถปรับปรุงการเรียนรู้ด้วยวิธี k- NN ให้ละเอียดขึ้น โดยการให้น้ำหนักที่ มากกว่ากับตัวอย่างที่ใกล้ตัวอย่างค้นถาม มากกว่า  ผลเสียคือการทำงานของจำแนกประเภท จะช้าลง  ในการปรับ kNN ให้ละเอียดขึ้น โดยการ ให้น้ำหนักที่มากกว่ากับตัวอย่างที่ใกล้กับ ตัวอย่างค้นถามมากกว่า การคำนวณค่า น้ำหนัก ใช้สมการ 22

23 k-NN แบบถ่วงน้ำหนักด้วย ระยะทาง (Distance- Weighted k-NN)  โดยใช้สมการสำหรับฟังก์ชั่นเป้าหมายที่ เป็นค่าไม่ต่อเนื่อง (Discrete-Valued Target Functions)  และใช้สมการสำหรับฟังก์ชั่นเป้าหมายที่ เป็นค่าต่อเนื่อง (Real-Valued Target Functions) 23

24 ทางเลือกค่าความผิดพลาด  ทางเลือกนิยามค่าความผิดพลาดที่เป็นไป ได้ 3 แบบคือ  Squared error over k Nearest Neighbors  Distance-weighted squared error over the entire set D of training data  Combine 1 and 2  หมายเหตุ K คือ เคอร์เนลฟังก์ชั่น หรือ ฟังก์ชั่นผกผัน (inverse function) กับระยะห่าง ใช้เพื่อกำหนดน้ำหนักสำหรับ ตัวอย่างสอนแต่ละตัว 24

25 ข้อดีและข้อเสียของ k-NN ข้อดี  สามารถจำลองฟังก์ชั่นเป้าหมายที่ ซับซ้อนด้วยชุดของค่าประมาณแบบท้องถิ่น ที่ซับซ้อนได้  สารสนเทศที่ปรากฎอยู่ในชุดข้อมูลสอน ไม่สูญหาย เนื่องจากถูกจัดเก็บแยกไว้ ต่างหาก  เวลาที่ใช้สอนจะรวดเร็ว เนื่องจากการ เป็นการเรียนรู้แบบเกียจคร้าน 25

26 ข้อดีและข้อเสียของ k-NN ข้อเสีย  ค่าใช้จ่ายตอนจำแนกประเภทสูง เนื่องจากการ คำนวณเกิดขึ้นขณะค้นถามมากกว่าตอนสอน  ความยากในการกำหนดมาตรวัดระยะห่างที่ เหมาะสม  วิธีจำแนกประเภทแบบเพื่อนบ้านใกล้สุด k ตัว เหมาะกับชุดข้อมูลสอนที่มีปริมาณมาก และตัวอย่างมี คุณลักษณะไม่เกิน 20 คุณลักษณะ  ต้องการวิธีการจัดทำดัชนีหน่วยความจำ (Memory Indexing) ที่มีประสิทธิภาพ ( มีการจัดเก็บ ตัวอย่างสอนไว้ต่างหาก )  ผลกระทบเชิงลบจากคุณลักษณะที่ไม่เกี่ยวข้อง ต่อมาตรวัดระยะห่าง หรือการเกิด Curse of Dimensionality 26

27 สรุป  การเรียนรู้เชิงอินสแตนซ์ เป็นการสร้าง แบบจำลองการจำแนกประเภทรูปแบบหนึ่ง ที่มีการเรียนรู้แบบเกียจคร้าน  อัลกอริทึมหลักที่ใช้คือ อัลกอริทึม เพื่อนบ้านใกล้สุด k ตัว ซึ่งมีการปรับให้มี ความเหมาะสมมากขึ้นด้วยวิธีการ กำหนดค่าน้ำหนักของคลาสเป้าหมายตาม ระยะทางกับตัวค้นถาม  อย่างไรก็นอกเหนือจากข้อดีในการ ทำงานได้อย่างรวดเร็วแล้ว อัลกอริทึม แบบ k-NN ก็มีข้อจำกัดในเรื่องของการ นำไปใช้กับข้อมูลที่มีคุณสมบัติจำนวนมาก 27

28 Example 28

29 Euclidean Distance HumiditytemperatureRun x = New instance x q = We can run inside(+) or outside (-) 1-NN (x1) Answer run inside(+) 2-NN (x1,x4) Answer run inside(+) 3-NN (x1,x2,x4) Answer run inside (+) 4-NN (x1,x2,x4,x5) Answer run inside (+) 5-NN Answer run inside(-) Discrete values

30 Euclidean Distance HumiditytemperatureRainfall x = New instance x q = 1-NN (x1) Rainfall = NN (x1,x4) Rainfall = ( )/2 = NN (x1,x2,x4) Rainfall = ( )/3 = NN (x1,x2,x4,x5) Rainfall = ( )/4 = NN (x1,x2,x3, x4,x5) Rainfall = ( )/5 = 11.2 Real values

31 31


ดาวน์โหลด ppt 1 Chapter 5: Instance-Based Learning Dr.Noppamas Pukkhem.

งานนำเสนอที่คล้ายกัน


Ads by Google