การจำแนกข้อมูล(Classification) CART-Classification and regression Tree

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
K-Nearest Neighbour Algorithm
Advertisements

การศึกษาและประยุกต์ใช้ขั้นตอนวิธีเชิง วิวัฒน์แบบหลายจุดประสงค์บนคลังข้อมูล เจเมทัล Study of Evolutionary Algorithm in Multi- objective on Library jMetal.
สาขาวิชาคอมพิวเตอร์และเทคโนโลยี อ.เลาขวัญ งามประสิทธิ์
E-R Model บรรยายโดย สุรางคนา ธรรมลิขิต.
รายวิชา ง40206 โครงสร้างข้อมูลและขั้นตอนวิธี
โครงสร้างของโหนด Successor = Node ที่อยู่ถัดไปจาก Node ที่ใช้งานอยู่
ต้นไม้และนิยามที่เกี่ยวข้อง
เว็บไซต์ สาขา สารสนเทศศาสตร์
การเรียงลำดับและการค้นหาแบบง่าย
Decision Tree.
บทที่ 2 รูปแบบของฐานข้อมูล.
AVL Tree.
การแก้ปัญหาด้วยคอมพิวเตอร์
ลิมิตและความต่อเนื่อง
บทที่ 3 ระบบฐานข้อมูล Database system
ฐานข้อมูลเชิงสัมพันธ์
Image Processing & Computer Vision
Image Processing & Computer Vision
การตัดสินใจ โดยกระบวนการวิเคราะห์ตามลำดับชั้นกับงานชลประทาน
น.ส.กฤติกา วงศาวณิช นายศุภชัย ตั้งบุญญะศิริ
การคิดและการตัดสินใจ
ขั้นตอนวิธี (Algorithm)
Asst.Prof. Dr.Surasak Mungsing
Asst.Prof. Dr.Surasak Mungsing
MAT 231: คณิตศาสตร์ไม่ต่อเนื่อง (6) ทรี-ต้นไม้(Trees)
การวัดประสิทธิภาพ.
ให้ประหยัดการใช้หน่วยความจำ (space) ด้วยความรวดเร็ว (time)
การใช้ซอฟต์แวร์ WEKA.
เฉลยแบบฝึกหัด 1.3 # จงหา ก) ข) ค) (ถ้ามี)
วิทยาการคอมพิวเตอร์ 1 เรื่องคัดเฉพาะทาง
สถิติเชิงสรุปอ้างอิง(Inferential or Inductive Statistics)
Systems Analysis and Design
ฐานข้อมูลเชิงสัมพันธ์
การเปลี่ยนแปลงเกี่ยวกับตัวแปร
ตัวแปรกับชนิดของข้อมูล
การแทนข้อมูล คอมพิวเตอร์เป็นอุปกรณ์อิเล็กทรอนิกส์ซึ่งใช้สัญญาณอิเล็กทรอนิกส์ในการทำงานเพื่อเก็บข้อมูล ประมวลผลและแสดงผลลัพธ์ การมองเห็นข้อมูลของคอมพิวเตอร์กับการมองเห็นข้อมูลของผู้ใช้จะไม่เหมือนกัน.
Artificial Intelligence (AI)
การวิเคราะห์และออกแบบระบบฐานข้อมูล
ฐานข้อมูลเชิงสัมพันธ์ (Relational Database)
เรื่องการออกแบบฐานข้อมูล
โครงสร้างข้อมูลทรีและไบนารีทรี (Tree and Binary Tree)
วิชา COSC2202 โครงสร้างข้อมูล (Data Structure)
การใช้งาน ฐานข้อมูล การเขียนเว็บเพจด้วยภาษา php ศูนย์คอมพิวเตอร์ โรงเรียนปลวกแดงพิทยาคม.
Classification Data mining การทำเหมืองข้อมูลแบบจำแนก
วิวัฒน์ ชินนาทศิริกุล
การเรียงข้อมูล 1. Bubble Sort 2. Insertion Sort 3. Heap Sort
School of Information Communication Technology,
ต้นไม้ Tree (2) ผู้สอน อาจารย์ ยืนยง กันทะเนตร
บทที่ 9 ไทร์ (Tries).
School of Information Communication Technology,
Lecture9 Tree อ. วรวิทย์ วีระพันธุ์ เรียบเรียงโดย อ
อ.วิวัฒน์ ชินนาทศิริกุล
adversarial Search Techniques
โมเดลเชิงสัมพันธ์ The relational model.
งานกลุ่ม กลุ่มที่ 3 เรื่อง ฐานข้อมูลเชิงสัมพันธ์
การทำเหมืองข้อมูล (Data Mining)
บทที่ 12 ฐานข้อมูล.
หลักการเขียนโปรแกรมเบื้องต้น
Data Mining การทำเหมืองข้อมูล
การจัดเรียงข้อมูล (sorting)
ค32213 คณิตศาสตร์สำหรับคอมพิวเตอร์ โรงเรียนปลวกแดงพิทยาคม
ต้นไม้ Tree [3] ผู้สอน อาจารย์ ยืนยง กันทะเนตร
การใช้งาน High Level API : Forms อ. วิวัฒน์ ชินนาทศิริกุล.
การใช้งาน High Level API : Forms อ. วิวัฒน์ ชินนาทศิริกุล.
ต้นไม้ Tree [1] ผู้สอน อาจารย์ ยืนยง กันทะเนตร
ค32213 คณิตศาสตร์สำหรับคอมพิวเตอร์ โรงเรียนปลวกแดงพิทยาคม
Data Structure & Algorithm Concept
บทที่ 9 การอธิบายกระบวนการแบบต้นไม้.
Dr.Surasak Mungsing CSE 221/ICT221 การวิเคราะห์และออกแบบขั้นตอนวิธี Lecture 05: การวิเคราะห์ความซับซ้อนของ ขั้นตอนวิธีการเรียงลำดับข้อมูล.
4.7. B-Trees โครงสร้าง tree ที่กล่าวถึงมาแล้วนั้น อยู่บนสมมติฐานที่ว่าโครงสร้างทั้งหมดสามารถจัดเก็บอยู่ในหน่วยความจำของเครื่องคอมพิวเตอร์ได้ ถ้า จำนวนข้อมูลมีปริมาณมากเกินกว่าที่จะเก็บไว้ใน.
ใบสำเนางานนำเสนอ:

การจำแนกข้อมูล(Classification) CART-Classification and regression Tree อ.วิวัฒน์ ชินนาทศิริกุล

เทคนิค Classification and regression trees (CART) คิดค้น โดย Breiman ในปืค.ศ.1984 ต้นไม้ตัดสินใจ ที่สร้างจากอัลกอริทึม CART จะเป็นต้นไม้ แบบ binary ซึ่งประกอบด้วย กิ่งหรือแขนง 2 กิ่ง สำหรับแต่ละ โหนด เทคนิคแบบ CART จะทำการแบ่ง เรคคอร์ดใน Training Data Set ออกเป็น เรคคอร์ดย่อย ที่ให้ค่าเป้าหมาย (target) ที่เหมือนกัน

CART Algorithm กำหนด เป็นหน่วยวัดค่าที่ดีที่สุดของ การแตกโหนด คู่แข่ง s ที่โหนด t โดยที่

- โหนดลูกทางซ้ายของโหนด t จำนวนเรคคอร์ดที่โหนด tL จำนวนเรคคอร์ดใน Training Set จำนวนเรคคอร์ดที่โหนด tR จำนวนเรคคอร์ดใน Training Set จำนวนเรคคอร์ของคลาส j ที่ tL จำนวนเรคคอร์ที่ t จำนวนเรคคอร์ของคลาส j ที่ tR จำนวนเรคคอร์ที่ t

ตัวอย่าง จาก Training Data Set ที่กำหนดให้ดังตาราง จะสร้าง Decision Tree ด้วย CART

ขั้นตอนการทำงาน นำแอททริบิวต์ Saving , Assets และ income มาสร้าง Candidate Split ดังตาราง

For each candidate split, let us examine the values of the various components of the optimality measure (s|t )

ใน Candidate Split รายการที่ 4 มีค่า มากที่สุดคือ 0.6248 The maximum observed value for (s|t ) among the candidate splits is therefore attained by split 4, with (s|t ) = 0.6248. CART therefore chooses to make the initial partition of the data set using candidate split 4, assets=low versus assets {medium , high} ใน Candidate Split รายการที่ 4 มีค่า มากที่สุดคือ 0.6248 ดังนั้นจะใช้ Candidate Split รายการที่ 4 คือ Assets=low และ Assets {medium , high} เป็น Root Node

ตารางแสดง Values of the Components of the Optimality Measure Φ(s |t )for Each Candidate Split, for Decision Node A

Here two candidate splits (3 and 7) share the highest value for Φ (s|t ), 0.4444. We arbitrarily select the first split encountered, split 3, savings = high versus savings {low, medium}, for decision node A

ภาพแสดง CART decision tree after decision node A split.

แบบฝึกหัด จากข้อมูลที่กำหนดให้ ให้นักศึกษาใช้เทคนิค CART เพื่อจำแนกเงินเดือน (Salary) ข้อแนะนำ เนื่องจากตัวเลขอายุ และรายได้มีหลากลายเกินไป ควรจัดกลุ่มอายุ และรายได้ เช่น อายุ <30 ปี รายได้ < 35000 อายุ 30-40 ปี 35000 <= รายได้ < 45000 อายุ >40 ปี 45000 <= รายได้ < 55000 รายได้ >55000