การจำแนกข้อมูลด้วยวิธี K-Nearest Neighbor

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
การผลิตบ่อพัก ทำเอง ใช้เอง หจก. มภัสกาญ คอนสตรัคชั่น
Advertisements

แฟ้มสะสม ผลงาน ด. ช. สุรศักดิ์ เถาสุรรณ ชั้มมัธยมศึกษาปี่ที่ 2 เลขที่ 12.
เทคนิคการเรียนการสอนโดยใช้เกม และ เทคนิคการสอนโดยใช้การแสดงละคร
เป็นหลักสำคัญในการนำเสนอเนื้อหา ของบทเรียนคอมพิวเตอร์ช่วยสอนก็คือ ควร นำเสนอภาพที่เกี่ยวข้องกับเนื้อหา ประกอบ กับคำอธิบายสั้นๆ ง่ายๆ แต่ได้ใจความ การใช้ภาพประกอบจะทำให้ผู้เรียน.
การใช้งานโปรแกรม SPSS
Entity-Relationship Model E-R Model
การพัฒนาทักษะการคำนวณเรื่องระบบเลขฐาน โดยใช้แบบฝึกทักษะของนักศึกษา ระดับประกาศนียบัตรวิชาชีพ ชั้นสูง ชั้นปีที่ 1 วิทยาลัยเทคโนโลยีพาณิชยการลานนา.
สื่อการสอนด้วยโปรมแกรม “Microsoft Multipoint”
ผู้วิจัย : นางธนิตา ขาวทอง วิทยาลัยอาชีวศึกษาบริหารธุรกิจวิทยา สงขลา
นำเสนอโดย นางสาวพัชรี นาคทอง
หน่วยการเรียนรู้ที่ 7 ความรู้เบื้องต้นเกี่ยวกับจำนวนจริง
(กล้องจับที่วิทยากร)
การประเมินผลโครงการ คปสอ.คลองใหญ่.
ระดับชั้น มัธยมศึกษาปีที่ ๑ ใช้เพื่อคลิ๊กไปสู่ หน้าถัดไป ใช้เพื่อคลิ๊กกลับ หน้าเดิม ใช้เพื่อคลิ๊กกลับสู่ หน้าหลัก ใช้คลิ๊กเมื่อต้องการ ออกจากระบบ.
พระเครื่องเมืองกำแพงเพชร
วิทยาลัยเทคโนโลยีสาร สาสน์ Sarasas Technological College นางสาวธัชชา สิงควะ นิช 2558.
นาย สรวิศ เตธัญญวรากูล ปวช.3/2 นาย ศิวกร มาลี ปวช.3/2.
Adaptive Software Development. วงจรชีวิตของการพัฒนาซอฟแวร์ หรือ Software Development Life Cycle (SDLC) เป็นโครง ร่างหรือแนวทางวิธีการ เพื่อใช้ทำความเข้าใจและเพื่อ.
เทคนิคการใช้ Microsoft Excel. 1. การตีตารางในรูปแบบต่าง ๆ 2. การแทรกภาพในตาราง 3. การตกแต่งข้อมูลด้วย Format Cells 4. การคำนวณ บวก ลบ คูณ หาร 5. การย่อ.
โครงงานจิตอาสา เรื่อง … เล่านิทานให้น้องฟัง จัดทำโดย กลุ่มจิตอาสา ชั้นมัธยมศึกษาปีที่ ๖ / ๓.
คำสั่งควบคุมการทำงาน
ง21101 การงานอาชีพและเทคโนโลยี ม. 1 เจตคติต่อการประกอบอาชีพ
ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts.
ผังงาน..(Flow Chart) หมายถึง...
การตรวจสอบคุณภาพเครื่องมือ
การให้เหตุผล การให้เหตุผลแบ่งได้ 2 แบบ ดังนี้ 1. การให้เหตุผลแบบ อุปนัย การให้เหตุผลแบบอุปนัย เป็นวิธีการสรุปผล จากการสังเกตหรือการทดลองเพื่อค้นหาความ.
stack #2 ผู้สอน อาจารย์ ยืนยง กันทะเนตร
(Polymorphic Viruses)
แนวทางการออกแบบโปสเตอร์
ดิจิตอล + เลขฐาน บทที่ 2.
กลุ่มคำและประโยค ภาษาไทย ม. ๓
ทฤษฎีการวางเงื่อนไข แบบการกระทำ (Operant Conditioning Theory)
ประเภทที่ ๑ วิจัยในชั้นเรียน.
บทที่ ๒ เรื่องที่ ๑๐ การค้นคว้าหาความรู้ทาง อินเทอร์เน็ต
กรณีศึกษา : นักเรียน ระดับ ปวช.2 สาขาวิชาการบัญชี
ใน Word 5 วิธีใหม่ๆ ในการทำงาน ทำงานร่วมกับผู้อื่นได้จากทุกที่
กิจกรรมการแลกเปลี่ยนเรียนรู้ งานบริหารและธุรการ คณะบริหารธุรกิจ
ภาคเรียนที่ ๒ ปีการศึกษา ๒๕๖๐ ผู้สอน : คุณครูภาคภูมิ คล้ายทอง
เปิดบ้าน ชื่อโรงเรียน วันที่.
แนวทาง/เกณฑ์การประเมินโครงการฯ
การติดตามผลงาน OKRs ปีงบประมาณ 2562 (ไตรมาส 1)
ทรัพยากรสัตว์ป่า.
Data storage II Introduction to Computer Science ( )
การหาคุณภาพของแบบทดสอบ
SMS News Distribute Service
วัฏจักรหิน วัฏจักรหิน : วัดวาอาราม หินงามบ้านเรา
การสร้างแบบสอบถาม และ การกำหนดเงื่อนไข.
Data storage II Introduction to Computer Science ( )
จุดมุ่งหมายทางการศึกษา และ จุดประสงค์การเรียนรู้
BASIC STATISTICS MEAN / MODE / MEDIAN / SD / CV.
บทที่ 7 การประมวลผลอาร์เรย์
การวิจัยทางการท่องเที่ยว
บทสรุป ความหมายของ Query ความหมายของ Query
การเปลี่ยนแปลงประมาณการทางบัญชี และข้อผิดพลาด
๑.๑ (๔) การติดป้ายรหัสประจำต้น
ค่ารูรับแสง - F/Stop ค่ารูรับแสงที่มีค่าตัวเลขต่ำใกล้เคียง 1 มากเท่าไหร่ ค่าของรูรับแสงนั้นก็ยิ่งมีความกว้างมาก เพราะเราเปรียบเทียบค่าความสว่างที่ 1:1.
กิจกรรมที่ 7 นายปรีชา ขอวางกลาง
บทที่ 2 โครงสร้างข้อมูลแบบแถวลำดับหรืออาร์เรย์ (Array)
“ทิศทางการขับเคลื่อน คุณภาพการศึกษาขั้นพื้นฐาน” ของสำนักงานคณะกรรมการ
กรณีศึกษา : เทคโนโลยีชีวภาพกับสิ่งแวดล้อม
โครงการถ่ายทอดเทคโนโลยีถนนรีไซเคิลเพื่อลดขยะพลาสติกใน 4 ภูมิภาค
ทายสิอะไรเอ่ย ? กลม เขียวเปรี้ยว เฉลย ทายสิอะไรเอ่ย ? ขาว มันจืด เฉลย.
Decision: Single and Double Selection (if and if-else statement)
ระบบการส่งต่อข้อมูลอาการไม่พึงประสงค์จากการแพ้ยา
มนุษย์กับสิ่งแวดล้อม Man and Environment ภาคปลาย ปีการศึกษา 2561
Class Diagram.
นวัตกรรม หน่วยไตเทียม.
กระดาษทำการ (หลักการและภาคปฏิบัติ)
สื่อการเรียนรู้เรื่อง ความงามของศิลปะด้าน จิตรกรรม โดย นายกิตติพงษ์ คงโต โรงเรียนหนองกรดพิทยาคม.
ใบสำเนางานนำเสนอ:

การจำแนกข้อมูลด้วยวิธี K-Nearest Neighbor

ประเภทของการเรียนรู้แบบมีการเรียนการสอน Lazy Learning ซึ่งเป็นการเรียนรู้อย่างง่ายโดยใช้การสำรวจชุดข้อมูลสอนแบบ คร่าว ๆ และจะทำการจำแนกประเภทข้อมูลเมื่อต้องการจำแนกเท่านั้น ซึ่งจะใช้ เวลาในการเรียนรู้น้อยแต่เสียเวลาในการจำแนกข้อมูล Eager Learning ใช้เวลาในการเรียนรู้ และสร้างโมเดล ซึ่งหลังจากการสร้างโมเดล แล้วจะสามารถจำแนกได้ง่ายและรวดเร็ว ตัวอย่างเช่น ต้นไม้ตัดสินใจ ขั้นตอนใน การสร้างโมเดลนั้นจะใช้เวลานาน แต่ในขั้นตอนการจำแนกจะใช้เวลารวดเร็ว

ประเภทของการเรียนรู้แบบมีการเรียนการสอน สร้างโมเดล Eager Learning - มีการสร้างโมเดล

ประเภทของการเรียนรู้แบบมีการเรียนการสอน Lazy Learning – เปรียบเทียบเป็นครั้ง ๆ ไป ใกล้ Training set อันไหน คิดว่าเป็นอันนั้น

Lazy learning or Instance-Based Methods ขั้นตอนวิธีเพื่อนบ้านที่ใกล้ที่สุด (K-nearest neighbor approach - KNN) จะ คำนวณความคล้ายคลึงจากการวัดระยะความห่าง วิธีการสัดค่าน้ำหนักการถดถอย (Locally weighted regression) โดยการพยายาม คาดเดาจากการหาจุดตัดเพื่อวัดค่าจุดข้างเคียง

K-nearest neighbor approach - KNN การจำแนกข้อมูลที่เลือกเฉพาะข้อมูลที่มีระยะห่าง 1 กลุ่ม (ใกล้ที่สุด) จะเรียกว่า “1NN (One Nearest Neighbor) ดังนั้น “k-NN” ค่า k จึงเป็นจำนวนของกลุ่มที่ต้องการเลือกเป็นกลุ่มเพื่อนบ้าน โดยควรกำหนดเป็นเลขคี่ สำหรับการหาค่าระยะทางจะใช้สมการจากทฤษฎีการวัดระยะทางของ Euclidean ดังนี้ เมื่อ p คือค่าของชุดข้อมูลที่ต้องการจำแนก q คือค่าของชุดข้อมูลเพื่อนบ้านที่นำมาพิจารณา

ขั้นตอนวิธี K-NN ข้อมูลใหม่ (Unknown) ซึ่งไม่ทราบ Class เรียกว่า U ข้อมูลชุดสอน (Training set) มีขนาดเท่ากับ Nrow * Marrtibue วนรอบ จำนวน N รอบ คำนวณหาระยะห่างของ U กับ Training[i] จบการทำงาน คำนวณหาระยะทางที่ใกล้ที่สุด จำนวน k ค่า เลือกคำตอบจากชุดข้อมูลสอนที่ใกล้ที่สุด หรือมีคำตอบซ้ำกันมากที่สุด

ยกตัวอย่าง Data transformation

(1NN)

(1NN)

ระยะห่างระหว่างสัตว์ประหลาดกับชุดข้อมูล (3NN) ชื่อ ระยะห่างระหว่างสัตว์ประหลาดกับชุดข้อมูล คลาส มนุษย์ 1.414214 Mammal งูเหลือม 1.732051 Reptile แซลมอน Fish วาฬ ค้างคาว ปลาไหล

แล้วถ้าคำตอบไม่เหมือนกันละ ??? เลือกคำตอบจากเสียงข้างมาก เช่น สัตว์เลี้ยงลูกด้วยนม สัตว์เลี้อยคลาน สัตว์เลี้ยงลูกด้วย นม จะสรุปว่าเป็นสัตว์เลี้ยงลูกด้วยนมจากเสียงข้างมาก เลือกคำตอบจากคำตอบที่มีระยะทางน้อยที่สุด (ในกรณีที่คำตอบไม่เหมือนกันเลย)

D-tree (Eager Learning) เปรียบเทียบลักษณะการทำงาน   D-tree (Eager Learning) KNN (Lazy Learning) ระยะเวลาในการสร้างโมเดล ใช้เวลานาน ไม่มีการสร้างโมเดล ระยะเวลาในการจำแนกข้อมูลใหม่ ใช้เวลารวดเร็ว ใช้เวลานานเพราะต้องทำการเปรียบเทียบกับชุดข้อมูล ความยากง่าย ยากในการสร้างโมเดล ง่ายในการคำนวณ

ตัวอย่างคลาส Project ของปีการศึกษา 1/2555 1. การคัดแยกเว็บเพจภาษาไทยอัตโนมัติด้วยวิธี K-Nearest Neighbor (KNN) โดยนาย เกษมศาสตร์ ชมพูวิเศษ และนายสมควร ภูจอมทอง แนวคิด เพื่อจำแนกหมวดหมู่ของเว็บเพจว่าเป็นภาษาไทยหรือภาษาอังกฤษ ข้อมูลนำเข้าคือ เว็บเพจภาษาไทยจำนวน 56 เว็บเพจ และภาษาอังกฤษจำนวน 51 เว็บเพจ แอตตริบิทว์ คือ คำที่ได้จากการตัด html tag ตัวเลข และอักขระพิเศษที่ไม่ต้องการ ออก คลาส คือ ภาษาไทย หรือภาษาอังกฤษ ความถูกต้อง 81%

ตัวอย่างคลาส Project ของปีการศึกษา 1/2555 2. ระบบแยกแยะภาพผลไม้ โดยใช้วิธี KNN โดยนางสาวจุฑารัตน์ สุขรัตน์ และนายอดุลย์ สุดสงคราม แนวคิด เพื่อจำแนกผลไม้จากภาพ ข้อมูลนำเข้าคือ ภาพผลไม้ 50 ชนิด แอตตริบิทว์ คือ สีแดง สีเขียว สีเหลือง สีขาว สีม่วง ขนาดเล็ก ขนาดกลาง ขนาดใหญ่ คลาส คือ ตระกูลแตง ตระกูลเบอรรี่