ดาวน์โหลดงานนำเสนอ
งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ
ได้พิมพ์โดยWolfgang Diefenbach ได้เปลี่ยน 5 ปีที่แล้ว
1
การทำเหมืองข้อมูลด้วยโปรแกรม RapidMiner Studio
อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม
2
ประวัติ ชื่อ อนุพงศ์ สุขประเสริฐ การศึกษา
ชื่อ อนุพงศ์ สุขประเสริฐ การศึกษา กำลังศึกษาต่อปริญญาเอก Ph.D.(Computer Science), Universiti Teknologi Malaysia, Malaysia ปริญญาโท วท.ม.(เทคโนโลยีสารสนเทศทางธุรกิจ: ระบบ สารสนเทศสถิติ) จุฬาลงกรณ์มหาวิทยาลัย ปริญญาตรี วท.บ.(สถิติ) มหาวิทยาลัยนเรศวร ประสบการณ์ อาจารย์ประจำภาควิชาคอมพิวเตอร์ธุรกิจ คณะการบัญชีและ การจัดการ มหาวิทยาลัยมหาสารคาม นักพัฒนาโปรแกรมอาวุโส ฝ่าย Data Warehouse บริษัท R I S Co., LTD, Central Retail Corporation Company Limited
5
Course Outline Introduction to Data Mining Introduction to CRISP-DM
Introduction to RapidMiner Studio Data Pre-processing Association Rules Clustering Classification Classification Performance
6
ความรู้เบื้องต้นเกี่ยวกับ การทำเหมืองข้อมูล
Introduction to Data mining อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม
7
Content ความหมายของการทำเหมืองข้อมูล วิวัฒนาการของการทำเหมืองข้อมูล
ขั้นตอนการทำเหมืองข้อมูล ประเภทของข้อมูลที่สามารถทำเหมือง ข้อมูล ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมือง ข้อมูล ตัวอย่างการนำเหมืองข้อมูลมาใช้ ประโยชน์ของการทำเหมืองข้อมูล
8
Data Mining คืออะไร Data Mining หรือ การทำเหมืองข้อมูล อาจจะ เรียกว่า การค้นหาความรู้ในฐานข้อมูล เป็นเทคนิค เพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวน มหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชา สถิติ (statistics), การเรียนรู้ของเครื่อง (machine learning) และ การรู้จำแบบ (pattern recognition) หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล (โดยส่วนใหญ่จะมี จำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และ ความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัย หลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลัก คณิตศาสตร์
9
วิวัฒนาการของการทำเหมืองข้อมูล
ปี 1960 Data Collection คือ การนำข้อมูลมา จัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือและ ป้องกันการสูญหายได้เป็นอย่างดี ปี 1980 Data Access คือ การนำข้อมูลที่จัดเก็บมา สร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อประโยชน์ใน การนำไปวิเคราะห์ และการตัดสินใจอย่างมีคุณภาพ ปี 1990 Data Warehouse & Decision Support คือ การรวบรวมข้อมูลมาจัดเก็บลงไปในฐานข้อมูล ขนาดใหญ่โดยครอบคลุมทุกด้านขององค์กร เพื่อ ช่วยสนับสนุนการตัดสินใจ ปี 2000 Data Mining คือ การนำข้อมูลจาก ฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง แบบจําลองและความสัมพันธ์ทางสถิติ
10
ทำไมจึงต้องมี Data Mining
ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็ จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศ หรือการคัดเลือกข้อมูลออกมาใช้งานส่วนที่เราต้องการ ในอดีตเราได้ใช้คนเป็นผู้สืบค้นข้อมูลต่างๆ ใน ฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตาม ภูมิปัญญาของผู้สืบค้น ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจ ไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงาน ภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่ รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse) ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด
11
ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมืองข้อมูล
ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System (DBMS) ในการ จัดการฐานข้อมูล ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจาก หลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , Microsoft SQL , Microsoft Access เป็นต้น ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง
12
ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมืองข้อมูล (ต่อ)
ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลง ตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึก ฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึง ต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสม
13
ข้อมูลที่ใช้ทำ Data mining มาจากไหน?
ข้อมูลแบ่งตามที่มา ภายในบริษัท/องค์กร ข้อมูลการซื้อขาย ข้อมูลประวัติลูกค้า ข้อมูลประวัติพนักงาน ภายนอกบริษัท/องค์กร ข้อมูลจาก social media ต่างๆ ข้อมูลข่าวต่างๆ ข้อมูลรูปภาพและเสียง ที่มา:
14
ประเภทของข้อมูลที่สามารถทำ Data Mining
Relational databases เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยใน แต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย Entity Relationship Model 6
15
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ)
Relational databases ID Sex 001 002 … Minor GPA. 1 Male High Audit 3.78 2 Female Medium Low FA 2.51 3 AIS 2.67 ตารางที่ 1 ตัวอย่างตารางข้อมูลนิสิตขั้นต้น ID Subject Term Year Grade 1 001 2558 C 002 A 003 2 2559 B+ B ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนของนิสิต
16
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ)
Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ใน รูปแบบเดียวกันและรวบรวมไว้ในที่ๆ เดียวกัน
17
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ)
Data Warehouses ที่มา :
18
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ)
Transactional databases ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วย เหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่ลูกค้าราย ซื้อ
19
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ)
Transactional databases ใบเสร็จรับเงิน
20
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ)
Advanced database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ Object oriented ข้อมูลที่เป็น Text file ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web Site
21
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม
จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและ ขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมี ความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัว อย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่าน บาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการ ตัดสินใจ ( Decision Support System) เพื่อเป็นการ ง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการ ตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจาก ระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้น ความรู้
22
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม (ต่อ)
ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึง จำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดย เครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
23
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม (ต่อ)
การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้าน อุตสาหกรรมและการค้า มีการผลิตข้อมูลไว้อย่าง มากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็น การจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูก ซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไป วิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีก ชิ้นหนึ่งเลยทีเดียว
24
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน
ธุรกิจการขายและการตลาด (Retail & Marketing) ใช้วิเคราะห์รูปแบบพฤติกรรมการซื้อสินค้าของลูกค้า ใช้หาความสัมพันธ์ของ Customer Demographic Characteristic ว่าส่งผลต่อยอดซื้อไหม หาความสัมพันธ์ของสินค้าที่ลูกค้าซื้อ เช่น ซื้ออะไร ก่อนหลังบ้าง ใช้ในการทำนายความเป็นไปได้ที่ลูกค้าประเภทไหน จะตอบกลับ Mail โฆษณาสินค้าเพื่อที่จะได้วางแผน ส่งข้อมูลโปรโมชั่นในการขายได้ตรงจุดมากขึ้น การวิเคราะห์ Market Trend
25
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน
ธุรกิจธนาคาร (Banking) ใช้วิเคราะห์รูปแบบการโกงของลูกค้าในการใช้บัตร เครดิต เพื่อที่ว่าจะได้ป้องกันก่อนแต่เนิ่นๆ วิเคราะห์เพื่อแบ่งแยกหาลูกค้าที่มีเครดิตดี หรือ ไม่ดี และ พฤติกรรมการใช้จ่ายเงินผ่านบัตรของแต่ละกลุ่ม ว่าเป็นอย่างไร วิเคราะห์กลุ่มของการใช้บัตรเครดิต ช่วยวิเคราะห์หา Correlation ระหว่าง Financial Indicators ต่างๆ
26
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน
ธุรกิจประกันภัย ใช้วิเคราะห์พฤติกรรมการร้องเรียน (Claim Analysis) ของลูกค้า ใช้หารูปแบบโมเดลของลูกค้าที่น่าจะนโยบายหรือ กรมธรรม์ใหม่ของธุรกิจ ใช้หารูปแบบพฤติกรรมของลูกค้าที่จัดอยู่ในกลุ่มเสี่ยง ต่อธุรกิจ
27
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน
ธุรกิจด้านยา โรงพยาบาล คลินิก ใช้วิเคราะห์หาพฤติกรรมของคนไข้ที่น่าจะมีโอกาสมา หาหมอ หรือมาโรงพยาบาล ใช้วิเคราะห์หาวิธีการหรือยาบำบัดรักษาโรคที่ดีที่สุด สำหรับอาการและความเจ็บป่วยแต่ละประเภท ใช้วิเคราะห์หาความสัมพันธ์ระหว่างอาการของผู้ป่วย กับการทำนายโรคที่น่าจะเกิดขึ้น
28
ประโยชน์ของเหมืองข้อมูล
การทำเหมืองข้อมูล จำเป็นต้องอาศัยบุคลากรจาก หลายฝ่าย และต้องอาศัยความรู้จำนวนมาก ถึงจะ ได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จาก ขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะ นำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลย ก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้ รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจ ถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำ เหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง
29
กระบวนการมาตรฐานในการทำเหมืองข้อมูล
Introduction to CRISP-DM อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม
30
Content กระบวนการมาตรฐานในการทำเหมืองข้อมูล กรณีศึกษา
การทำความเข้าใจเกี่ยวกับธุรกิจ (Business Understanding) การทำความเข้าใจเกี่ยวกับข้อมูล (Data Understanding) การเตรียมข้อมูล (Data Preparation) การสร้างแบบจำลอง (Modeling) การประเมินผล (Evaluation) การนำไปใช้งาน (Deployment) กรณีศึกษา
31
CRISP-DM Cross-Industry Standard Process for Data Mining
พัฒนามาจาก 3 บริษัท บริษัท SPSS บริษัท DaimlerChrysler บริษัท NCR เป็น workflow มาตรฐานสำหรับการทำ Data Mining
32
กระบวนการมาตรฐานในการทำเหมืองข้อมูล
3 ขั้นตอนแรกจะใช้เวลา 80% ของทั้งหมด 3 ขั้นตอนหลังจะใช้เวลา 20% ของทั้งหมด
33
กระบวนการมาตรฐานในการทำเหมืองข้อมูล
กระบวนการมาตรฐานในการทำเหมืองข้อมูล ประกอบด้วยขั้นตอน 6 ขั้นตอน 1. การทำความเข้าใจเกี่ยวกับธุรกิจ (Business Understanding) 2. การทำความเข้าใจเกี่ยวกับข้อมูล (Data Understanding) 3. การเตรียมข้อมูล (Data Preparation) 4. การสร้างแบบจำลอง (Modeling) 5. การประเมินผล (Evaluation) 6. การนำไปใช้งาน (Deployment)
34
image source: https://en. wikipedia
35
Business Understanding
การทำความเข้าใจเกี่ยวกับธุรกิจ เป็น ขั้นตอนแรกที่สำคัญมาก เพราะต้องทำความเข้าใจว่า ปัญหาคืออะไร ต้องการคำตอบของปัญหาในทิศทาง หรือลักษณะใด หากไม่เข้าใจปัญหาอย่างถ่องแท้จะทำ ให้ขั้นตอนต่อไปดำเนินไปในทิศทางที่ไม่ถูกต้อง ซึ่ง นอกจากจะไม่ได้คำตอบที่ต้องการแล้ว ยังสูญเสียเวลา และทรัพยากรไปโดยไร้ประโยชน์ด้วย ระบุวัตถุประสงค์ เป้าหมาย และ ข้อจำกัด
36
Business Understanding (ต่อ)
ตัวอย่าง: ทำอย่างไรถึงเพิ่มยอดขายให้กับสินค้าชนิดต่างๆได้ ต้องการแบ่งกลุ่มนิสิตออกตามความสนใจ ทำอย่างไรให้ลูกค้ากลับมาซื้อสินค้าได้อีก อยากทำนายปริมาณน้ำฝนที่ตกใน 2 วันถัดไป อยากรู้ว่าลูกค้าคนใดบ้างมีโอกาสป่วยเป็นโรคมะเร็ง ต้องการเพิ่มยอดขายให้กับสินค้า ต้องการทราบว่าลูกค้าคนใดบ้างที่จะสนใจผลิตภัณฑ์ ตัวใหม่
37
Data Understanding การทำความเข้าใจเกี่ยวกับข้อมูล เป็น การทำความเข้าใจว่าข้อมูลที่จะนำมาใช้ควรมีลักษณะ อย่างไร แหล่งข้อมูลอยู่ที่ใดและที่สำคัญที่สุดคือ ค่าใช้จ่ายหรือต้นทุน (Costs of Data) ที่จะได้มาซึ่ง ข้อมูลเหล่านั้นมีค่าใช้จ่ายเท่าไร รวมทั้งควรต้อง ประเมินมูลค่าของประโยชน์ที่จะได้รับจากการนำเอา ข้อมูลดังกล่าวมาใช้ รวบรวมข้อมูลที่เกี่ยวข้องจากแหล่งข้อมูล ที่ถูกต้องเหมาะสมเชื่อถือได้ มีปริมาณ มากพอ มีความเหมาะสม มีรายละเอียด เพียงพอต่อการนำไปใช้ในการวิเคราะห์
38
Data Understanding (ต่อ)
ตัวอย่าง: ข้อมูลการซื้อสินค้าของแต่ละบุคคล ข้อมูลการลงทะเบียนและผลการศึกษาของนิสิต ข้อมูลปัจจัยการขับเคลื่อนราคาน้ำมัน
39
Data Preparation การเตรียมข้อมูล โดยปกติระบบประมวลผล ข้อมูล นำเข้าข้อมูล จะอยู่ในรูปแบบที่จำกัด (Fixed Known Format) แต่ในความเป็นจริงข้อมูลส่วนใหญ่ ไม่ได้จัดเก็บในลักษณะดังกล่าวจึงต้องการกระบวนการ แปลงข้อมูล (Data Transformation) หรือเปลี่ยนชนิด ข้อมูล (Data Conversion) เพื่อให้ข้อมูลอยู่ในลักษณะ หรือรูปแบบที่ง่ายต่อการนำไปประมวลผลหรือวิเคราะห์ ต่อไป ถือว่าเป็นขั้นตอนที่ใช้เวลานานที่สุด
40
Data Preparation (ต่อ)
สามารถแบ่งออกได้เป็น 3 ขั้นตอน 1. ทำการคัดเลือกข้อมูล (Data Selection) เป็นการเลือกฟิลด์หรือข้อมูลที่เกี่ยวข้องกับการทำเหมืองข้อมูล 2. ทำการกลั่นกรองข้อมูล (Data Cleaning) เป็นขั้นตอนการทำความสะอาดข้อมูล เพื่อจัดให้อยู่ใน รูปแบบที่เหมาะสมก่อนทำ DM 3. แปลงรูปแบบของข้อมูล (Data Transformation) เป็นการแปลงข้อมูลให้อยู่ในรูปแบบที่พร้อมนำไปใช้ในการ วิเคราะห์ตามขั้นตอนของ DM
41
ทำการคัดเลือกข้อมูล (Data Selection)
กำหนดเป้าหมายก่อนว่าเราจะทำการวิเคราะห์ เลือกใช้เฉพาะข้อมูลที่เกี่ยวข้องกับสิ่งที่เราจะทำการ วิเคราะห์
42
ทำการกลั่นกรองข้อมูล (Data Cleaning)
ลบข้อมูลที่ซ้ำซ้อน แก้ไขข้อมูลที่ผิดพลาด ข้อมูลผิดรูปแบบ (noise) ข้อมูลสูญหาย/ไม่ครบถ้วน (missing value) ข้อมูลที่แปลกแยกจากข้อมูลอื่น (outliner) ข้อมูลนิสิตชั้นปีที่ 4 ปีการศึกษา 2560 ภาคต้น รหัสนิสิต เพศ อายุ ความสูง น้ำหนัก 57001 ชาย 20 180 70 5702A ญ 80 35 57123 หญิง 21 150 2500 58002 ช 19 175 90 หมายเหตุ: ข้อมูลสมมติ
43
แปลงรูปแบบของข้อมูล (Data Transformation)
เป็นขั้นตอนการเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อม นำไปใช้ในการวิเคราะห์ตาม algorithm ของ data mining ที่เลือกใช้ ID สินค้า จำนวน 1 ปากกา ยางลบ คลิป 10 2 สมุด 3 ID สมุด ปากกา ยางลบ คลิป 1 - TRUE 2 3 ข้อมูลสำหรับการหากฎความสัมพันธ์ (Association Rules) ข้อมูลในฐานข้อมูล POS
44
Modeling การสร้างแบบจำลอง คือ การสร้างรูปแบบ ความสัมพันธ์ (Relational Pattern) อาจจะอยู่ในรูป ของแบบจำลองบนซอฟต์แวร์ (Computer Model) หรือสมการความสัมพันธ์ (Equation) ก็ได้ เป็นการสร้างตัวแบบ โดยการนำเทคนิค เหมืองข้อมูลมาใช้ในการวิเคราะห์ข้อมูลเพื่อให้ได้ ผลลัพธ์ที่ดีที่สุด การหากฏความสัมพันธ์ (Association Rule) การจัดกลุ่ม (Clustering) การจำแนกประเภทของข้อมูล (Classification)
45
Modeling (ต่อ) การหากฏความสัมพันธ์ (Association Rule)
ค้นหารูปแบบความสัมพันธ์ของข้อมูลที่เกิดร่วมกัน เช่น ค้นหาสินค้าที่มีการซื้อร่วมกันบ่อยๆ
46
Modeling (ต่อ) การจัดกลุ่ม (Clustering)
การแบ่งข้อมูลหลายๆกลุ่มตามความคล้ายคลึงกัน ของข้อมูล เช่น แบ่งกลุ่มนิสิตตามคะแนนที่ได้, แบ่งกลุ่ม ลูกค้าตามลักษณะการซื้อสินค้า
47
Modeling (ต่อ) การจำแนกประเภทของข้อมูล (Classification)
สร้างโมเดลจากข้อมูลที่มีอยู่ที่ได้มีการกำหนด คลาสไว้เรียบร้อยแล้ว เพื่อที่จะไว้ใช้ในการ ทำนายอนาคต เช่น ทำนายปริมาณน้ำฝนที่ตกในวันถัดไป, การ ทำนายประเภทของลูกค้าว่ามีเครดิตระดับต่ำ ปาน กลาง สูง
48
Evaluation การประเมินผล หลังจากที่ได้แบบจำลองแล้ว ต้องทำการประเมินผลว่าแบบจำลองนั้นมีความถูกต้อง แม่นยำมากน้อยเพียงใด โดยอาจทดลองในระบบ เสมือน (Simulation) หรือนำไปประมวลผลกับข้อมูล จริงที่มีอยู่เพื่อเปรียบเทียบผล ของการวิเคราะห์ว่า ถูกต้องเป็นร้อยละเท่าใด
49
Deployment การนำไปใช้งาน หลังจากที่ได้แบบจำลองที่มี คุณภาพและความถูกต้องแม่นยำตามที่เราต้องการก็ สามารถนำไปใช้งานจริง โดยอาจต้องมีการปรับแต่ง เพื่อความเหมาะสมในสภาวะจริง อีกทั้งยังต้องติดตั้ง ร่วมกับระบบอื่นๆ เช่น ระบบช่วยการตัดสินใจ (Decision Support System) อย่างไรก็ตามหลังจากการ ติดตั้งแล้วควรมีการปรับปรุงแบบจำลองเป็นระยะๆ (Periodic Update) เพราะแท้จริงแล้วการทำเหมือง ข้อมูลไม่มีที่สิ้นสุด
50
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* 1. การทำความเข้าใจเกี่ยวกับธุรกิจ (Business Understanding) นิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ จะเลือก ภาควิชาเมื่อขึ้นชั้นปีที่ 2 นิสิตเลือกภาควิชาไม่ตรงกับความสามารถของตนเอง เลือกตามเพื่อน เลือกตามผู้ปกครองแนะนำ นิสิตบางคนได้ผลการเรียนตกตำและทำให้ต้องออก จากมหาวิทยาลัยกลางคัน *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
51
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* 2. การทำความเข้าใจเกี่ยวกับข้อมูล (Data Understanding) ข้อมูลนิสิตคณะวิศวกรรมศาสตร์ ม.เกษตรศาสตร์ ช่วงปี พ.ศ นิสิตประมาณ 10,000 คน ข้อมูลมีจำนวน 476,085 แถว ข้อมูลแบ่งเป็น 2 ส่วน ข้อมูลประวัติส่วนตัวของนิสิต เพศ, ที่อยู่, GPA ระดับม.ปลาย GPA ชั้นปีที่ 1 ข้อมูลการลงทะเบียนของนิสิต เกรดวิชาคณิตศาสตร์, เกรดวิชาฟิสิกส์, เกรดวิชาเคมี *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
52
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* รหัสนิสิต เพศ ที่อยู่ GPA ม.ปลาย … ชาย กรุงเทพ 2.5 …. 2.3 สงขลา 3.4 3.3 ข้อมูลประวัติส่วนตัวของนิสิต รหัสนิสิต วิชา ปีการศึกษา เกรด คอมพิวเตอร์ 2537 C+ คณิตศาสตร์ D … ข้อมูลการลงทะเบียนของนิสิต *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
53
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* 3. การเตรียมข้อมูล (Data Preparation) คัดเลือกวิชาที่เกี่ยวข้องกับภาควิชาต่างๆ ในคณะ วิศวกรรมศาสตร์ แปลงข้อมูลให้เหมาะสมกับการวิเคราะห์ *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
54
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* รหัสนิสิต เพศ ที่อยู่ GPA ม.ปลาย … ชาย กรุงเทพ 2.5 …. 2.3 สงขลา 3.4 3.3 รหัสนิสิต วิชา ปีการศึกษา เกรด คอมพิวเตอร์ 2537 C+ คณิตศาสตร์ D … ข้อมูลการลงทะเบียนของนิสิต ข้อมูลประวัติส่วนตัวของนิสิต รหัสนิสิต เพศ คอมพิวเตอร์ คณิตศาสตร์ … GPA ชาย LOW 2.3 HIGH 3.3 ข้อมูลสำหรับการวิเคราะห์ *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
55
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* 4. การสร้างแบบจำลอง (Modeling) แบ่งข้อมูลออกเป็น 2 ส่วนคือ 70% ของข้อมูลทั้งหมดใช้ในการสร้างโมเดล 30% ของข้อมูลทั้งหมดใช้ในการทดสอบประสิทธิภาพของ โมเดล สร้างโมเดลด้วยเทคนิค Decision Tree ซึ่งจะได้ โมเดลที่สามารถเข้าใจได้ง่าย โมเดลแบ่งแยกตามภาควิชาต่างๆ เช่น ภาควิชา วิศวกรรมคอมพิวเตอร์ วิศวกรรมไฟฟ้า *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
56
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* 4. การสร้างแบบจำลอง (Modeling) –ต่อ คำตอบจะแบ่งเป็น 2 ประเภท คือ GOOD หมายถึง นิสิตเรียนภาควิชานี้แล้วจบมาได้ GPA อยู่ ในช่วง 40% แรก (Top 40%) BAD หมายถึง นิสิตเรียนภาควิชานี้แล้วจบมาได้ GPA อยู่ ในช่วง 40% จากท้าย (Bottom 40%) *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
57
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* IF Computer is HIGH THEN Graduate is Good IF Computer is LOW AND Mathematics is HIGH THEN Graduate is Good IF Computer is LOW AND Mathematics is LOW AND Physics is HIGH THEN Graduate is Good IF Computer is LOW AND Mathematics is LOW AND Physics is LOW THEN Graduate is Bad 4. การสร้างแบบจำลอง (Modeling) –ต่อ Computer Mathematics Physics GOOD BAD = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ เงื่อนไขที่สร้างได้จากโมเดล *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
58
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* รหัสนิสิต เพศ Comp. Math … Com Eng ชาย LOW HIGH ?? 5. การประเมินผล (Evaluation) ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ คำนวณค่าความถูกต้อง 6. การนำไปใช้งาน (Deployment) นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลังจะ เลือกภาควิชา พิจารณาจากเกรดตามโมเดลที่สร้างได้ ข้อมูลของนิสิตชั้นปีที่ 1 ที่ต้องการได้รับคำแนะนำ Computer Mathematics Physics GOOD BAD = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
59
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* รหัสนิสิต เพศ Comp. Math … Com Eng ชาย LOW HIGH ?? 5. การประเมินผล (Evaluation) ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ คำนวณค่าความถูกต้อง 6. การนำไปใช้งาน (Deployment) นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลังจะ เลือกภาควิชา พิจารณาจากเกรดตามโมเดลที่สร้างได้ ข้อมูลของนิสิตชั้นปีที่ 1 ที่ต้องการได้รับคำแนะนำ Computer Mathematics Physics GOOD BAD = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
60
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* รหัสนิสิต เพศ Comp. Math … Com Eng ชาย LOW HIGH ?? 5. การประเมินผล (Evaluation) ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ คำนวณค่าความถูกต้อง 6. การนำไปใช้งาน (Deployment) นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลังจะ เลือกภาควิชา พิจารณาจากเกรดตามโมเดลที่สร้างได้ ข้อมูลของนิสิตชั้นปีที่ 1 ที่ต้องการได้รับคำแนะนำ Computer Mathematics Physics GOOD BAD = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
61
กรณีศึกษา:ตัวอย่าง CRISP-DM อ้างอิงจากงานวิจัยเรื่อง “การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์”* รหัสนิสิต เพศ Comp. Math … Com Eng ชาย LOW HIGH GOOD 5. การประเมินผล (Evaluation) ทดสอบด้วยข้อมูล 30% ที่แบ่งไว้ คำนวณค่าความถูกต้อง 6. การนำไปใช้งาน (Deployment) นำไปแนะนำนิสิตชั้นปีที่ 1 ที่กำลังจะ เลือกภาควิชา พิจารณาจากเกรดตามโมเดลที่สร้างได้ ข้อมูลของนิสิตชั้นปีที่ 1 ที่ต้องการได้รับคำแนะนำ Computer Mathematics Physics GOOD BAD = HIGH = LOW โมเดลของภาควิชาวิศวกรรมคอมพิวเตอร์ *กฤษณะ ไวยมัย, ชิดชนก ส่งศิริ และธนาวินท์ รักธรรมานนท์, การใช้เทคนิคดาต้าไมน์นิงเพื่อพัฒนาคุณภาพการศึกษานิสิตคณะวิศวกรรมศาสตร์, NECTEC Technical Journal, 3(11), 2001
62
การใช้งานโปรแกรม RapidMiner Studio
Introduction to RapidMiner Studio อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม
63
Content แนะนำ RapidMiner Studio ขั้นตอนการลงโปรแกรม RapidMiner Studio
64
Data Mining Software Commercial Software Open source Software
SAS Enterprise Miner IBM SPSS Modeler RapidMiner Studio Open source Software RapidMiner Studio Weka R
65
จัดอันดับ Data Science Tools ที่ดีที่สุดในปี 2018
Ref:
66
Ref: https://www. predictiveanalyticstoday
67
RapidMiner • ในตอนแรกใช้ชื่อบริษัทว่า Rapid-I ก่อตั้งขึ้น เมื่อปี ตั้งอยู่ที่ประเทศเยอรมนี • ปี 2013 ได้เปลี่ยนชื่อบริษัทเป็น RapidMiner หลังจากได้รับเงินลงทุนจำนวน 5 ล้านเหรียญสหรัฐ และย้ายบริษัทมาอยู่ที่บอสตัน ประเทศสหรัฐอเมริกา • ผลิตภัณฑ์หลักของบริษัทคือ RapidMiner Studio • บริษัทชั้นนำต่างๆ เช่น PayPal ใช้ซอฟต์แวร์ RapidMiner Studio
68
ความสามารถและการทำงานของ RapidMiner Studio
69
การติดตั้งโปรแกรม RapidMiner Studio 9.2
ขั้นตอนแรก Download โปรแกรม RapidMiner Studio 9.2 ได้จาก คลิ๊กเพื่อดาวน์โหลดโปรแกรม หมายเหตุ: สามารถดูขั้นตอนอย่างละเอียดได้จาก
70
การติดตั้งโปรแกรม RapidMiner Studio 9.2
ใส่ แล้วเลือกอาชีพและประเภทการทำงาน แล้วกด Download
71
การติดตั้งโปรแกรม RapidMiner Studio 9.2
เลือกระบบปฏิบัติการที่เหมาะกับระบบปฎิบัติการใน เครื่อง
72
การติดตั้งโปรแกรม RapidMiner Studio 9.2
73
การใช้งาน RapidMiner Studio 9.2
กรอกข้อมูลเพื่อสร้าง Account สำหรับดาวน์โหลด ซอฟต์แวร์
74
การใช้งาน RapidMiner Studio 9
กรอกข้อมูลเพื่อสร้าง Account ใหม่ เลือกประเภทเป็นแบบ Educational ชื่อ สกุล อีเมล์ พาสเวิร์ด
75
การใช้งาน RapidMiner Studio 9
เมื่อขึ้นหน้าต่างนี้ให้ไปยืนยันในอีเมลที่ได้ทำการกรอก ในขั้นตอนก่อนหน้า
76
การใช้งาน RapidMiner Studio 9.2
เข้ามาทำการยืนยัน account ที่อีเมล โดยการคลิก confirm your address เพื่อ active account
77
การใช้งาน RapidMiner Studio 9.2
ทำการ login เข้าสู่โปรแกรม โดยการกรอก and password ที่ได้ทำการสมัคร account ไว้
78
การใช้งาน RapidMiner Studio 9.2
หลังจาก login เรียบร้อย ก็พร้อมเข้าสู่การใช้งาน RapidMiner Studio 9.2
79
RapidMiner Studio 9.2 หน้าโปรแกรม RapidMiner Studio 9.2
80
การเตรียมข้อมูลสำหรับ การทำเหมือง
Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม
81
Content Data Types of Data Data Pre-processing
Data Pre-processing Technique
82
ข้อมูล (Data) หมายถึง ข่าวสาร เอกสาร ข้อเท็จจริงเกี่ยวกับบุคคล สิ่งของหรือเหตุการณ์ที่มีอยู่ในรูปของตัวเลข ภาษา ภาพ สัญลักษณ์ต่างๆ ที่มีความหมายเฉพาะตัว ซึ่ง ยังไม่มีการประมวลไม่เกี่ยวกับการนำไปใช้ได้อย่างมี ประสิทธิภาพ (ไพโรจน์ คชชา, 2542) พจนานุกรม ฉบับราชบัณฑิตยสถาน (2525) ให้ความหมายของ ข้อมูล(Data) หมายถึง ข้อเท็จจริงหรือสิ่งที่ถือหรือ ยอมรับว่าเป็นข้อเท็จจริง สำหรับใช้เป็นหลักอนุมาน หาความจริงหรือ การคำนวณ
83
การเก็บรวบรวมข้อมูล (Collection of Data)
เป็นกระบวนการที่จะให้ได้มาซึ่งข้อมูลที่จะนำไป วิเคราะห์ต่อไป - ข้อมูลที่ได้มาในขั้นตอนนี้จะเรียกว่า ข้อมูลดิบ (Raw Data) และจากที่ทราบว่า การเก็บรวบรวมข้อมูลเป็นขั้นตอน แรกและขั้นตอนที่สำคัญ ของการวิเคราะห์ข้อมูล ดังนั้นการดำเนินงานใน ขั้นตอนนี้ต้องมีการวางแผน การเก็บรวบรวมข้อมูลอย่างรอบคอบ และต้องทราบด้วย ว่าข้อมูลที่ต้องการนั้น เป็นข้อมูลชนิดใด มาจากแหล่งใด เพื่อให้ได้ข้อมูลที่ ถูกต้องตามจุดประสงค์มากที่สุด ซึ่งจำแนกข้อมูลตามลักษณะต่าง ๆ ได้ดังนี้
84
ลักษณะของข้อมูล (Types of Data)
จำแนกตามแหล่งที่เกิดข้อมูลได้ดังนี้ 1. ข้อมูลจากแหล่งปฐมภูมิ (Primary source) การเก็บ รวบรวมข้อมูล จากแหล่งนี้ ผู้รวบรวมต้องไปเก็บจากต้นตอจริง ๆ ซึ่งอาจได้จากการสัมภาษณ์ วัด นับ สังเกต ทำการทดลอง หรือส่งแบบสอบถาม ทางไปรษณีย์ เป็นต้น ข้อมูลที่รวบรวมได้จากแหล่งนี้ เรียกว่า ข้อมูลปฐมภูมิ (Primary data) 2. ข้อมูลจากแหล่งทุติยภูมิ (Secondary source) การ เก็บรวบรวม ข้อมูลจากแหล่งนี้ ผู้รวบรวมไม่จำเป็นต้องไปแจงนับเอง แต่อาศัยข้อมูลที่ผู้อื่น เก็บรวบรวมไว้แล้ว อาจได้มาจากรายงาน เอกสาร หรือจากทะเบียนต่าง ๆ ที่มี หน่วยงานจัดทำไว้ เป็นต้น ข้อมูลที่รวบรวมได้จาก แหล่งนี้ เรียกว่า ข้อมูลทุติยภูมิ (Secondary data)
85
ลักษณะของข้อมูล (Types of Data)
จำแนกตามลักษณะการเก็บ 1. ได้จากการนับ (Counting data or Enumeration data) ซึ่งข้อมูลจะมีลักษณะไม่ต่อเนื่อง (Discrete data) 2. ได้จากการชั่ง ตวง วัด (Measurement data) ซึ่งข้อมูลจะมีลักษณะต่อเนื่อง (Continuous data)
86
ลักษณะของข้อมูล (Types of Data)
จำแนกตามลักษณะการแสดงข้อเท็จจริง 1. ข้อมูลเชิงคุณภาพ (Qualitative data หรือ Categorical data) 2. ข้อมูลเชิงปริมาณ (Quantitative data หรือ Numerical data) - ข้อมูลไม่ต่อเนื่อง (Discrete data) - ข้อมูลต่อเนื่อง (Continuous data)
87
Data Type Examples Qualitative or Categorical Data
คุณภาพสินค้า ข้อมูลที่วัดได้คือ ดี หรือ เสีย การมีพันธบัตรครอบครอง ข้อมูลที่วัดได้คือ มีหรือ ไม่มี กลุ่มเลือด ข้อมูลที่วัดได้คือ A, B, O, AB Quantitative or Numerical Data - Discrete data จำนวนนิสิตที่เข้ามาใช้บริการห้องสมุดในแต่ละวัน จำนวนนิตยสารในห้องสมุด - Continuous data ความสูง ค่าใช้จ่าย น้ำหนัก อายุ
88
Data Preparation หมายถึงอะไร
การเตรียมข้อมูล หรือ data preparation หมายถึง กระบวนการใดๆ ที่เราจำเป็นต้องทำกับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ใน รูปแบบที่เหมาะสม ที่จะนำไปโหลดเข้าฐานข้อมูล หรือนำไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของ การทำ data preparation อาจจะแตกต่างกันไป สำหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบ หนึ่ง อาจกลายมาเป็นข้อมูลดิบของระบบต่อไป
89
Data Preparation หมายถึงอะไร
เราอาจพิจารณาการทำเตรียมข้อมูลเป็นระบบอย่าง หนึ่ง ที่มี input เป็นข้อมูลดิบ และมี output เป็น ข้อมูลที่อยู่ในรูปแบบที่พร้อมนำไปใช้งานต่อไปได้ ทันที (tidy data: ความหมาย) โดยมากแล้ว การนำ ข้อมูลไปใช้งานต่อมักจะเป็นการนำไปโหลดเข้า ฐานข้อมูลหรือนำไปวิเคราะห์หาคำตอบอย่างใดอย่าง หนึ่ง บางคนอาจเรียกกระบวนการนี้ว่า data cleaning ซึ่งก็ให้ความหมายคล้ายคลึงกัน
90
Data Preparation หมายถึงอะไร
ถือเป็นกระบวนการที่สำคัญมากอย่างหนึ่งในการทำ เหมืองข้อมูล หากการเตรียมข้อมูลทำได้ไม่ดี มีโอกาสสูงที่จะ ก่อให้เกิดความเสียหายในขั้นตอนอื่นๆ อาจส่งผลให้ผลการวิเคราะห์ หรือการตีความจาก การนำข้อมูลไปใช้ ผิดเพี้ยนไป บทนี้จะช่วยให้นิสิตสามารถทำการเตรียมข้อมูลได้ อย่างมีประสิทธิภาพมากขึ้น ลดงานในอนาคต และ ได้ประโยชน์สูงสุดจากการเตรียมข้อมูล
91
การเตรียมข้อมูลสำหรับ Data Mining
เป็นขั้นตอนก่อนทำเหมืองข้อมูล เนื่องจาก ข้อมูลในความเป็นจริงอาจยังต้องการตรวจสอบ ความถูกต้อง ซึ่งอาจมีข้อมูลลักษณะดังนี้ คือ ข้อมูลไม่สมบูรณ์ (incomplete data) เช่น ค่า ของคุณลักษณะขาด หาย(missing value) ขาด คุณลักษณะที่น่าสนใจหรือขาด รายละเอียดของ ข้อมูล ข้อมูลรบกวน (noisy data) เช่น ข้อมูลมีค่า ผิดพลาด (error) หรือมีค่าผิดปกติ (Outliers) ข้อมูลไม่สอดคล้อง (Inconsistent data) เช่น ข้อมูลเดียวกัน แต่ตั้งชื่อต่างกัน หรือใช้ค่าแทน ข้อมูลที่ต่างกัน
92
Data Pre-processing Technique
Data Cleaning เป็นขั้นตอนสำหรับการคัด ข้อมูลที่เป็นส่วนรบกวน หรือข้อมูลที่ไม่ เกี่ยวข้องออกไป Data Integration เป็นขั้นตอนการรวม แหล่งข้อมูล ซึ่งมีข้อมูล หลายแห่งมารวมไว้ที่ เดียวกัน Data Transformation เป็นขั้นตอนการแปลง ข้อมูลในขั้นตอนการ คัดเลือก ให้เหมาะ สำหรับขั้นตอนการทำเหมืองข้อมูล Data Reduction เป็นขั้นตอนการลดมิติข้อมูล เพื่อเป็นตัวแทน จำนวนข้อมูลทั้งหมด
93
Forms of data pre-processing
Source: Han & Kamber (2006)
94
Workshop : Data Preparation with RapidMiner Studio
Download data:
95
Data Preparation with RapidMiner Studio
มีความผิดพลาดในชุดข้อมูล เช่น ข้อมูลมีค่าไม่ตรงกัน ข้อมูลขาดหายไป ข้อมูลแปลกแยก (outlier) แปลงข้อมูล เช่น Discretization แปลงข้อมูล numeric ให้เป็น nominal Normalization แปลงข้อมูล numeric ให้มี scale ที่เท่ากัน
96
Replace Value ข้อมูลจากหลายๆ ฐานข้อมูลมักจะเกิดปัญหา ข้อมูลไม่ตรงกัน
ชื่อจังหวัด กรุงเทพมหานคร, กรุงเทพ, กรุงเทพฯ หรือ กทม. สายการศึกษา สายอาชีพ, อาชีวะ, สามัญ, มัธยม ปลาย หรือ ปวช. ต้องทำการปรับเปลี่ยนข้อมูลให้ตรงกันก่อน นำไปวิเคราะห์
97
Replace missing value ข้อมูลอาจจะขาดหายไป เนื่องจาก
ไม่มีข้อมูล กรอกข้อมูลผิดพลาด การแทนที่ข้อมูลที่ขาดหายไป แทนที่ด้วยค่า เช่น N/A หรือ none หรือ null แทนที่ด้วยค่าน้อยที่สุด ในกรณีที่แอตทริบิวต์เป็นตัวเลข (numeric) แทนที่ด้วยค่ามากที่สุด ในกรณีที่แอตทริบิวต์เป็นตัวเลข (numeric) แทนที่ด้วยค่าเฉลี่ย (mean/average) ในกรณีที่แอตทริบิวต์ เป็นตัวเลข (numeric) แทนที่ด้วยค่าฐานนิยม (mode) ในกรณีที่แอตทริบิวต์เป็น กลุ่ม (nominal) แทนที่ด้วยค่า 0 เช่น จำนวนบุตร แทนที่ด้วยค่าที่ระบุเอง เช่น ไม่ระบุ
98
Outlier ค่าผิดปกติ (Outliers) เป็นข้อมูลที่มีค่าแยกออกจาก กลุ่มหรือผิดแผกแตกต่างไปจากข้อมูลค่าอื่น ๆ ตัวอย่างของค่าผิดปกติก็เช่น IQ ของเด็กได้ 195 น้ำหนักของคน 220 กิโลกรัม ความสูงของคน 210 ซ.ม. ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ 1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน หรือ 2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไป จากกลุ่มจริง ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้น ได้เสมอ
99
Data integration 1 2 3 4 5 1 2 3 4 5 Data1 NEW DATA 1 2 3 4 5 Data2
100
Discretization เป็นการแปลงข้อมูลตัวเลข (numeric) ให้ เป็นข้อมูลกลุ่ม (nominal) โดยแบ่งข้อมูล เป็นช่วงๆ แบ่งตามเงื่อนไขที่กำหนด แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width)
101
แบ่งตามเงื่อนไขที่กำหนด
No GPA 1 2.50 2 2.75 3 3.00 4 5 3.10 6 3.25 7 3.40 8 3.50 9 3.75 เงื่อนไข <= 3.00 เกรดน้อย >3.00 และ <=3.50 เกรดปานกลาง >3.50 และ <=3.75 เกรดดี >3.75 เกรดดีมาก
102
แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width)
No GPA 1 2.50 2 2.75 3 3.00 4 5 3.10 6 3.25 7 3.40 8 3.50 9 3.75 ช่วง GPA 1 <= 2.81 2 ( ) 3 ( ) 4 >3.43 แบ่งเป็น 4 ช่วง คำนวณจาก ช่วงข้อมูล = ค่ามากสุด−ค่าน้อยสุด จำนวนช่วง = ( )/4 = 0.313
103
Normalization เป็นการปรับเปลี่ยนช่วงข้อมูลให้มี scale เดียวกันเพื่อจะเปรียบเทียบกัน Z- transformation = 𝑥 −ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน
104
The end Q & A
งานนำเสนอที่คล้ายกัน
© 2024 SlidePlayer.in.th Inc.
All rights reserved.