Chapter 5: Instance-Based Learning

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
การทำเหมืองข้อมูล (Data Mining)
Advertisements

Mathematical Model of Physical Systems. Mechanical, electrical, thermal, hydraulic, economic, biological, etc, systems, may be characterized by differential.
การผลิตบ่อพัก ทำเอง ใช้เอง หจก. มภัสกาญ คอนสตรัคชั่น
Array ธนวัฒน์ แซ่ เอียบ. The concept of array อาเรย์ : กลุ่มของข้อมูลที่มีชนิดเดียวกันและถูก จัดเก็บเรียงลำดับต่อเนื่องกัน ตัวแปร x สามารถจัดเก็บค่ามากกว่า.
เฉลยใบงานที่ 1 องค์ประกอบและหลักการทำงานของคอมพิวเตอร์
การประเมินผลโครงการ บทที่ 9 ผศ.ญาลดา พรประเสริฐ yalada.
บทที่ 6 บทที่ 6 คำสั่งแก้ไขปัญหาแบบ เลือก (CONDITION)
แบบจำลองฐานข้อมูล คือ เครื่องมือในเชิงแนวคิดที่ใช้ในการอธิบาย ข้อมูล
ความรู้เบื้องต้นเกี่ยวกับระบบฐานข้อมูล
จัดทำโดย น. ส. ดวงกมล งามอยู่เจริญ เลขที่ 8 น. ส. ณัชชา เชื้อตา เลขที่ 6 เตรียมบริหารธุรกิจปี 1.
คำถามตามเกณฑ์ PMQA:105คำถาม หมวด1 12คำถาม.
คอมพิวเตอร์ช่วยสอน (CAI)
System Database Semester 1, 2009 Worrakit Sanpote 1.
การใช้งานโปรแกรม SPSS
เครื่องชี้วัดคุณภาพ วัตถุประสงค์: เพื่อให้ผู้เรียน
เทคนิคการตรวจสอบภายใน
หน่วยการเรียนรู้ที่ 2 หลักการแก้ปัญหาด้วยคอมพิวเตอร์
หน่วยที่ 5 การเวียนเกิด
 The nonconformities chart controls the count of nonconformities ( ข้อบกพร่อง หรือตำหนิ ) within the product or service.  An item is classified as a.
การพัฒนา Ontology 101 : คู่มือการสร้าง Ontology ชิ้นแรก Natalya F. Noy and Deborah L. McGuinness Stanford University, Stanford, CA,
การจัดเก็บข้อมูลในแฟ้มข้อมูลธรรมดา นั้น อาจจำเป็นที่ใช้แต่ละคน จะต้องมีแฟ้มข้อมูลของตนไว้เป็นส่วนตัว จึง อาจเป็นเหตุให้มีการเก็บข้อมูล ชนิดเดียวกันไว้หลาย.
การเลือกข้อมูลจาก List การกำหนดเงื่อนไขการป้อนข้อมูลด้วย Data Validation การใส่ Comment / แสดง / แก้ไข / ลบ.
ซอร์ฟแวร์ ( Software ). Microsoft excel Microsoft excel Microsoft power point.. Link Link.
Project Management by Gantt Chart & PERT Diagram
สาธิตการใช้โปรแกรมฐานข้อมูล
การตรวจสอบคุณภาพเครื่องมือ
สถิติเบื้องต้นสำหรับการวิเคราะห์ข้อมูล
หน่วยที่ 1 ข้อมูลทางการตลาด. สาระการเรียนรู้ 1. ความหมายของข้อมูลทางการตลาด 2. ความสำคัญของข้อมูลทางการตลาด 3. ประโยชน์ของข้อมูลทางการตลาด 4. ข้อจำกัดในการหาข้อมูลทาง.
stack #2 ผู้สอน อาจารย์ ยืนยง กันทะเนตร
กระบวนการพัฒนาซอฟต์แวร์
บทที่ 3 การวิเคราะห์ Analysis.
Chapter 8 Classification อาจารย์อนุพงศ์ สุขประเสริฐ
Important probability distribution of variable
ACCOUNTING FOR INVENTORY
บทที่ 7 การหาปริพันธ์ (Integration)
แนวทางการออกแบบโปสเตอร์
อาจารย์อภิพงศ์ ปิงยศ บทที่ 4 : สื่อกลางส่งข้อมูลและการมัลติเพล็กซ์ (Transmission Media and Multiplexing) Part3 สธ313 การสื่อสารข้อมูลและเครือข่ายคอมพิวเตอร์ทางธุรกิจ.
การบัญชีต้นทุนช่วง (Process Costing).
บทที่ 4 การอินทิเกรต (Integration)
เซต (SET) ประวัติย่อของวิชาเซต ความหมายของเซต การเขียนแทนเซต
การวิเคราะห์ ต้นทุน ปริมาณ กำไร
บทที่ 8 การควบคุมโครงการ
One Point Lesson (OPL).....บทเรียนประเด็นเดียว
ชุดที่ 1 ไป เมนูรอง.
การรายงานความคืบหน้าหรือสถานะ
      วิจัย เรื่อง การประเมินผลการดำเนินงานประกันคุณภาพภายใน ของสำนักงานประกันคุณภาพและงานวิจัย วิทยาลัยเทคโนโลยีพณิชยการอยุธยา ปีการศึกษา 2556.
กำหนดกรอบระยะเวลาการขึ้นทะเบียนปี2556/57 1. ข้าว
ประกาศกระทรวงทรัพยากรธรรมชาติและสิ่งแวดล้อม
Data storage II Introduction to Computer Science ( )
การประชุมเชิงปฏิบัติการพัฒนาศักยภาพบุคลากรทางการศึกษาด้านการสอบด้วยคอมพิวเตอร์ (Computer-based Assessment) การรู้เรื่องการอ่าน ด้านคณิตศาสตร์และด้านวิทยาศาสตร์
Data storage II Introduction to Computer Science ( )
BASIC STATISTICS MEAN / MODE / MEDIAN / SD / CV.
บทที่ 8 การแก้ไขข้อผิดพลาดโปรแกรม(Debugging)
บทที่ 6 เงินลงทุนในตราสารหนี้และตราสารทุน
Chapter 7 การพยากรณ์ (Forecasting) Asst.Prof. Juthawut Chantharamalee
การเปลี่ยนแปลงประมาณการทางบัญชี และข้อผิดพลาด
Control Charts for Count of Non-conformities
การวางแผนกำลังการผลิต
การจัดทำแผนการสอบบัญชีโดยรวม
รายงานการประเมินตนเองของสถานศึกษา Self – Assessment Report
Array: One Dimension Programming I 9.
การเติบโตของฟังก์ชัน (Growth of Functions)
การประเมินผลโครงการ บทที่ 9 ผศ.ญาลดา พรประเสริฐ yalada.
Decision: Single and Double Selection (if and if-else statement)
กำหนดการเชิงเส้น : การแก้ปัญหาด้วยวิธีกราฟ
บทที่ 7 การบัญชีภาษีมูลค่าเพิ่ม
Color Standards A pixel color is represented as a point in 3-D space. Axis may be labeled as independent colors such as R, G, B or may use other independent.
Class Diagram.
เครื่องขุดหลุมปลูกยาสูบ
ใบสำเนางานนำเสนอ:

Chapter 5: Instance-Based Learning Dr.Noppamas Pukkhem

Classification vs. Prediction predicts categorical class labels classifies data (constructs a model) based on the training set and the values (class labels) in a classifying attribute and uses it in classifying new data Prediction: models continuous-valued functions, i.e., predicts unknown or missing values Typical Applications credit approval target marketing medical diagnosis treatment effectiveness analysis

Classification—A Two-Step Process Step 1 - Model construction describe a set of predetermined classes Each tuple/sample is assumed to belong to a predefined class, as determined by the class label attribute The set of tuples used for model construction is the training set The model is represented as classification rules, decision trees, or mathematical formulae Step 2 - Model usage Estimate accuracy of the model The known label of test sample is compared with the classified result from the model Accuracy rate is the percentage of test set samples that are correctly classified by the model Test set is independent of training set Use model to classify future or unknown objects

Classification Process (1): Model Construction Algorithms Training Data Classifier (Model) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

Classification Process (2): Use the Model in Prediction Classifier Accuracy != 100 Testing Data Unseen Data (Jeff, Professor, 4) Tenured?

Lazy vs. Eager Learning Lazy vs. eager learning Lazy learning (e.g., instance-based learning): Simply stores training data (or only minor processing) and waits until it is given a test tuple Eager learning (eg. Decision trees, SVM, NN): Given a set of training set, constructs a classification model before receiving new (e.g., test) data to classify Lazy: less time in training but more time in predicting Accuracy Lazy method effectively uses a richer hypothesis space since it uses many local linear functions to form its implicit global approximation to the target function Eager: must commit to a single hypothesis that covers the entire instance space

Lazy vs. Eager Learning Its very similar to a Desktop!! Eager Survey before Lazy Desktop Its very similar to a Desktop!!

Lazy Learner: Instance-Based Methods Instance-based learning: Store training examples and delay the processing (“lazy evaluation”) until a new instance must be classified Typical approaches k-nearest neighbor approach Instances represented as points in a Euclidean space. Locally weighted regression Constructs local approximation

Instance-Based Methods

The k-Nearest Neighbor Algorithm All instances correspond to points in the n-D space. The nearest neighbor are defined in terms of Euclidean distance. The target function could be discrete- or real- valued. For discrete-valued, the k-NN returns the most common value among the k training examples nearest to xq. Vonoroi diagram: the decision surface induced by 1-NN for a typical set of training examples. . _ _ . _ _ + . . + . _ xq + . _ +

Euclidean Distance

การกำหนดตัวแปร K ไม่ควรเลือก K เล็กเกินไป เพราะจะทำให้เบี่ยงเบนสูง เพราะฉะนั้นการเลือกค่า K ขึ้นอยู่กับข้อมูล ต้องมีการปรับค่าการประเมิน เช่น Cross-validation ระยะทางที่ใช้วัด คือ ถ้า x ประกอบไปด้วย Attribute <a1(x), a2(x), …, an(x)> ดังนั้น ar(x) ดังกล่าวจึงแทนด้วยค่าในด้วย x ค่าระยะทางที่ใช้ เรียกว่า Euclidean Distance

อัลกอริทึมเพื่อนบ้านใกล้สุด k ตัว (k-Nearest Neighbor :k-NN) จะตัดสินใจ ว่าคลาสใดที่จะแทนเงื่อนไขหรือกรณีใหม่ๆ ได้ ตรวจสอบจำนวนบางจำนวน (“k” ใน k-Nearest Neighbor) ของกรณีหรือเงื่อนไขที่เหมือนกันหรือใกล้เคียงกันมากที่สุด โดย จะหาผลรวมของจำนวนเงื่อนไข หรือกรณีต่างๆ สำหรับแต่ละ คลาส กำหนดเงื่อนไขใหม่ๆ ให้คลาสที่เหมือนกันกับคลาสที่ ใกล้เคียงกันมากที่สุด

การเรียนรู้ของอัลกอริทึม k-NN เมื่อมีการกำหนดตัวอย่างค้นถาม Xq แล้ว การเรียนรู้ ประกอบด้วย 2 ขั้นตอน 1. ใช้มาตรวัดระยะห่างคำนวณหาตัวอย่าง k ตัวที่อยู่ใกล้ Xq มากที่สุดจากเซตตัวอย่างสอน 2. ประมาณค่าฟังก์ชั่นเป้าหมายของตัวอย่างค้นถาม Xq ด้วย ค่าฟังก์ชั่นเป้าหมายของตัวอย่าง Xi จำนวน k ตัวที่อยู่ใกล้ Xq มากที่สุด

การเรียนรู้ของอัลกอริทึม k-NN ประมาณค่าฟังก์ชั่นเป้าหมายของตัวอย่างค้นถาม Xq ค่าฟังก์ชั่นเป้าหมายเป็นค่าไม่ต่อเนื่อง  เลือกค่าส่วนมาก ของค่าฟังก์ชั่นเป้าหมายของตัวอย่าง Xi จำนวน k ตัวที่อยู่ ใกล้ Xq มากที่สุด

การเรียนรู้ของอัลกอริทึม k-NN ค่าฟังก์ชั่นเป้าหมายเป็นค่าจำนวนจริง  ค่าเฉลี่ยของค่า ฟังก์ชั่นเป้าหมายของตัวอย่าง Xi จำนวน k ตัวที่อยู่ใกล้ Xq มาก ที่สุด

k-NN แบบถ่วงน้ำหนักด้วยระยะทาง (Distance-Weighted k-NN) ผลเสียคือการทำงานของจำแนกประเภทจะช้าลง ในการปรับ kNN ให้ละเอียดขึ้น โดยการให้น้ำหนักที่ มากกว่ากับตัวอย่างที่ใกล้กับตัวอย่างค้นถามมากกว่า การ คำนวณค่าน้ำหนัก ใช้สมการ

k-NN แบบถ่วงน้ำหนักด้วยระยะทาง (Distance-Weighted k-NN) โดยใช้สมการสำหรับฟังก์ชั่นเป้าหมายที่เป็นค่าไม่ต่อเนื่อง (Discrete-Valued Target Functions) และใช้สมการสำหรับฟังก์ชั่นเป้าหมายที่เป็นค่าต่อเนื่อง (Real-Valued Target Functions)

ทางเลือกค่าความผิดพลาด ทางเลือกนิยามค่าความผิดพลาดที่เป็นไปได้ 3 แบบคือ Squared error over k Nearest Neighbors Distance-weighted squared error over the entire set D of training data Combine 1 and 2 หมายเหตุ K คือ เคอร์เนลฟังก์ชั่น หรือ ฟังก์ชั่นผกผัน (inverse function) กับระยะห่าง ใช้เพื่อ กำหนดน้ำหนักสำหรับตัวอย่างสอนแต่ละตัว

ข้อดีและข้อเสียของ k-NN สามารถจำลองฟังก์ชั่นเป้าหมายที่ซับซ้อนด้วยชุดของ ค่าประมาณแบบท้องถิ่นที่ซับซ้อนได้ สารสนเทศที่ปรากฎอยู่ในชุดข้อมูลสอนไม่สูญหาย เนื่องจากถูกจัดเก็บแยกไว้ต่างหาก เวลาที่ใช้สอนจะรวดเร็ว เนื่องจากการเป็นการเรียนรู้แบบ เกียจคร้าน

ข้อดีและข้อเสียของ k-NN ค่าใช้จ่ายตอนจำแนกประเภทสูง เนื่องจากการคำนวณเกิดขึ้นขณะค้น ถามมากกว่าตอนสอน ความยากในการกำหนดมาตรวัดระยะห่างที่เหมาะสม วิธีจำแนกประเภทแบบเพื่อนบ้านใกล้สุด k ตัว เหมาะกับชุดข้อมูลสอนที่มี ปริมาณมาก และตัวอย่างมีคุณลักษณะไม่เกิน 20 คุณลักษณะ ต้องการวิธีการจัดทำดัชนีหน่วยความจำ (Memory Indexing) ที่มี ประสิทธิภาพ (มีการจัดเก็บตัวอย่างสอนไว้ต่างหาก) ผลกระทบเชิงลบจากคุณลักษณะที่ไม่เกี่ยวข้อง ต่อมาตรวัดระยะห่าง หรือ การเกิด Curse of Dimensionality

สรุป การเรียนรู้เชิงอินสแตนซ์ เป็นการสร้างแบบจำลองการ จำแนกประเภทรูปแบบหนึ่ง ที่มีการเรียนรู้แบบเกียจคร้าน อัลกอริทึมหลักที่ใช้คือ อัลกอริทึมเพื่อนบ้านใกล้สุด k ตัว ซึ่งมีการปรับให้มีความเหมาะสมมากขึ้นด้วยวิธีการกำหนดค่า น้ำหนักของคลาสเป้าหมายตามระยะทางกับตัวค้นถาม อย่างไรก็นอกเหนือจากข้อดีในการทำงานได้อย่าง รวดเร็วแล้ว อัลกอริทึมแบบ k-NN ก็มีข้อจำกัดในเรื่องของการ นำไปใช้กับข้อมูลที่มีคุณสมบัติจำนวนมาก

Example

x = <humidity, temperature> Euclidean Distance Discrete values Humidity temperature Run 30 25 + 48 40 - 80 64 28 50 60 x = <humidity, temperature> New instance xq = <40, 30, run=?? > We can run inside(+) or outside (-) 1-NN (x1) Answer run inside(+) 2-NN (x1,x4) 3-NN (x1,x2,x4) Answer run inside (+) 4-NN (x1,x2,x4,x5) 5-NN Answer run inside(-)

Euclidean Distance Real values Humidity temperature Rainfall 30 25 5.1 48 40 15.5 80 64 20.2 28 3.2 50 60 12.0 1-NN (x1) Rainfall = 5.1 2-NN (x1,x4) Rainfall = (5.1+3.2)/2 = 4.15 3-NN (x1,x2,x4) Rainfall = (5.1+15.5+3.2)/3 = 7.9 4-NN (x1,x2,x4,x5) Rainfall = (5.1+15.5+3.2+12.0)/4 = 8.95 5-NN (x1,x2,x3, x4,x5) Rainfall = (5.1+15.5+3.2+20.2+12.0)/5 = 11.2 x = <humidity, temperature> New instance xq = <40, 30, Rainfall =?? >