งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

1 Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย ผศ. ดร. วรารัตน์ สงฆ์แป้น ( รุ่งวรวุฒิ ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "1 Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย ผศ. ดร. วรารัตน์ สงฆ์แป้น ( รุ่งวรวุฒิ ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์"— ใบสำเนางานนำเสนอ:

1 1 Dr. Wararat Rungworawut การทำเหมืองข้อมูล (Data Mining) สอนโดย ผศ. ดร. วรารัตน์ สงฆ์แป้น ( รุ่งวรวุฒิ ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยขอนแก่น บทที่ 5: การเรียนรู้เชิงอินแสตนท์ (Instance-Based Learning)

2 2 Lazy & Eager Learning  Lazy learning (e.g., Instance-based learning): เป็นการ เรียนรู้อย่างง่ายโดยใช้การสำรวจชุดข้อมูลสอน คร่าวๆ และรอจนกระทั่งถึงเวลาทดสอบจึงจำแนก ประเภทข้อมูล  Eager learning (e.g. Decision trees): ใช้เวลาในการ เรียนรู้จากชุดข้อมูลสอนก่อนเป็นเวลานาน แต่ หลังจากที่ทำการเรียนรู้เรียบร้อยแล้ว สามารถนำชุด ทดสอบจำแนกประเภทได้เวลาอันรวดเร็ว Its very similar to a Desktop!! Lazy Desktop Eager Survey before

3 3 Lazy Learner: Instance-Based Methods  เทคนิคที่ใช้สำหรับ Instance-Based Methods มีชื่อว่า  k-nearest neighbor  การหาประเภทของข้อมูลโดยให้การวัด การระยะห่างที่เรียกว่า Euclidean Distance  Locally weighted regression  หาสมการเชิงเส้นตัดเพื่อวัดจุดใกล้เคียง

4 4 ขั้นตอนวิธีสำหรับ k-Nearest Neighbor (k- NN)  Key idea: มีข้อมูลชุดการสอน (Training data) ให้เขียนอยู่ในรูป เช่น HumiditytemperatureRun x1x1 x2x2 f(x) ตัวอย่างเช่น

5 5 ขั้นตอนวิธีสำหรับ k-Nearest Neighbor (k- NN)  Discrete-valued หมายถึง ค่าป้ายบอกฉลากเป็นที่แบ่ง ประเภทชัดเจน เช่น วิ่ง หรือ ไม่วิ่ง ใช่ หรือ ไม่ใช่ เป็นต้น  ดังนั้นหาชุด x q, ที่ใกล้เคียงที่สุดสำหรับชุดข้อมูลสอนมา เป็นตัวประมาณค่าสำหรับ x n  Real-valued หมายถึง ค่าป้ายบอกฉลากเป็นตัวเลขทศนิยม เช่น การพยากรณ์ปริมาณน้ำฝน อุณหภูมิ เป็นต้น

6 6 ตัวอย่าง ในการตัดสินผลไม้ที่ไม่เคยเห็นนั่นคือ แอปเปิ้ล นั่นคือเลือกพิจารณา ภาพผลไม้จำนวน K ที่ใกล้เคียงมากที่สุด ดังนั้น การจำแนกประเภท ผลไม้ที่ไม่ทราบจะใช้จำนวนผลโวตของผลไม้แต่ละประเภทว่าคือ แอป เปิ้ล

7 7 ตัวอย่าง ถ้า k=5, นั่นหมายถึงเลือกภาพผลไม้ 5 ภาพที่ใกล้เคียงมากที่สุด เพื่อ บ่งบอกประเภทของต้นไม้ที่ต้องการแบ่งกลุ่ม ดังนั้นจากภาพจะเห็นได้ว่า ผลไม้ทั้ง 5 ภาพส่วนใหญ่เป็นภาพของ แอป เปิ้ล ดังนั้นจึงตอบผลไม้นี้ว่า เป็นแอบเปิ้ล

8 8 Nearest Neighbor Example: Run Outside (+) or Inside (-) Humidity Temperature Noisy data Not linearly separable Decision tree boundary (not very good...) ? ? ? ? - - ? ? ?

9 9 Voronoi diagram. _ + _ xqxq + _ _ + _ _

10 10 ตัวอย่าง : K-Nearest Neighbor กับ Voronoi (Discrete-valued) k=1 1-NN classifies x q as + k=5 5-NN classifies x q as − (real-valued target function)

11 11 เมื่อไหร่ถึงจะใช้ k-Nearest Neighbor  เมื่อชุดข้อมูลสามารถแปลงให้อยู่ระนาบของมิติได้ ℜ n  มี Attribute น้อยว่า 20 ตัว  มีข้อมูลชุดการสอน (Training data) เป็นจำนวนมาก  ข้อดี  สอน (training) เร็วมาก  สามารถเรียนรู้กับฟังก์ชันที่ซับซ้อนได้  ไม่สูญเสียข้อมูลอื่น  ข้อเสีย  ช้าเวลาจำแนกประเภทข้อมูล  จะโง่เมื่อมีการคิด attribute ที่ไม่เกี่ยวข้อง

12 12 การกำหนดตัวแปร K  ไม่ควรเลือก K เล็กเกินไป เพราะจะทำให้เบี่ยงเบนสูง  ไม่ควรเลือก K ใหญ่เกินไป เพราะจะทำให้ข้อมูลเกินความ ลำเอียง  เพราะฉะนั้นการเลือกค่า K ขึ้นอยู่กับข้อมูล ต้องมีการปรับ ค่าการประเมิน เช่น Cross-validation  ระยะทางที่ใช้วัด คือ  ถ้า x ประกอบไปด้วย Attribute ดังนั้น a r (x) ดังกล่าวจึงแทนด้วยค่าในด้วย x ค่าระยะทางที่ใช้ เรียกว่า Euclidean Distance

13 13 Euclidean Distance HumiditytemperatureRun x = New instance x q = We can run inside(+) or outside (-) 1-NN (x1) Answer run inside(+) 2-NN (x1,x4) Answer run inside(+) 3-NN (x1,x2,x4) Answer run inside (+) 4-NN (x1,x2,x4,x5) Answer run inside (+) 5-NN Answer run inside(-) Discrete values

14 14 Euclidean Distance HumiditytemperatureRainfall x = New instance x q = 1-NN (x1) Rainfall = NN (x1,x4) Rainfall = ( )/2 = NN (x1,x2,x4) Rainfall = ( )/3 = NN (x1,x2,x4,x5) Rainfall = ( )/4 = NN (x1,x2,x3, x4,x5) Rainfall = ( )/5 = 11.2 Real values

15 15 Distance-Weighted kNN ( แบบละเอียด )  ถ้าต้องการให้มีการประมาณค่าได้รายละเอียดมาก ขึ้น ดังนั้นจึงต้องคำนวณค่าน้ำหนักสำหรับการแบ่ง ประเภท ดังต่อไปนี้

16 16 ตัวอย่าง : HumiditytemperatureRun x = New instance x q = We can run inside(+) or outside (-), by k=3

17 17 Locally Weighted Regression  แนวความคิด :  มาจาก k-NN ที่ค้นหาการประมาณค่าโดยใช้พื้นที่ ใกล้เคียงในการประมาณ  ทำไมต้องอยู่ในรูปการใช้สมการเชิงเส้น เพราะ  ลดค่า error ในการกำหนดค่า K  ลดค่า error สำหรับการให้ค่าน้ำหนักสำหรับการ หา distance

18 18 Locally Weighted Regression  Local linear function: f^(x)=β 0 + β 1 a 1 (x)+…+ β n a n (x)  Error criterions:

19 19 Locally Weighted Regression f1 (simple regression) ข้อมูลสอน (Training data) ใช้ทำนายโดยใช้สมการเชิงเส้นแบบแบ่งส่วน ( Predicted value using locally weighted (piece-wise) regression) ใช้ทำนายโดยใช้สมการเชิงเส้นอย่างง่าย (Predicted value using simple regression) Locally-weighted regression (f2) Locally-weighted regression (f4)


ดาวน์โหลด ppt 1 Dr. Wararat Rungworawut 322475 การทำเหมืองข้อมูล (Data Mining) สอนโดย ผศ. ดร. วรารัตน์ สงฆ์แป้น ( รุ่งวรวุฒิ ) ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์

งานนำเสนอที่คล้ายกัน


Ads by Google