Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
Lecture no. 10 Files System
Advertisements

DR. UREERAT SUKSAWATCHON DATA MINING
การเขียนโปรแกรมภาษาซี
การวิเคราะห์ข้อมูลโดยใช้โปรแกรม
Liang, Introduction to Java Programming, Sixth Edition, (c) 2007 Pearson Education, Inc. All rights reserved Java Programming Language.
Linked List List is group of nodes that consists of data and link.
การออกแบบฐานข้อมูลในระดับตรรกะ
Image Processing Course
Image Processing Course
ระเบียบวิธีวิจัยพื้นฐานทางการเงิน
ว่าที่ ร.ต.หญิงวรรณธิดา วรสุทธิพงษ์ ครูแผนกวิชาคอมพิวเตอร์ธุรกิจ
"วิธีวิเคราะห์แบบสอบถาม หรือแบบประเมิน ด้วยโปรแกรม SPSS"
แผนกการพยาบาลอุบัติเหตุและฉุกเฉิน
สถิติและการวัดทางระบาดวิทยาที่ควรรู้
ความรู้เบื้องต้นเกี่ยวกับ คุณภาพของเครื่องมือวัด
Introduction to VB2010 EXPRESS
การวัดและประเมินผลการศึกษา
Introduction to RapidMiner Studio
Chapter 8 Classification อาจารย์อนุพงศ์ สุขประเสริฐ
การวิเคราะห์เชิงปริมาณเบื้องต้น
กฎความสัมพันธ์ Association Rules อาจารย์อนุพงศ์ สุขประเสริฐ
Data mining สุขฤทัย มาสาซ้าย.
บทที่ 3 ตัวแปรและสมมติฐาน.
โดย อ.พัฒนพงษ์ โพธิปัสสา
การจัดการฐานข้อมูลด้วยโปรแกรม MS Access 2013
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับคอมพิวเตอร์
การใช้โปรแกรมเบื้องต้น (Application Overview)
การทดสอบสมมติฐาน.
Chapter 6 Information System Development
Introduction to CRISP-DM
Introduction to Data mining
บทที่ 10 สถิติเชิงบรรยาย
บทที่ 1 ความรู้เบื้องต้น เกี่ยวกับระบบสารสนเทศ
หน่วยการเรียนที่ 2 ข้อมูลสารสนเทศและการวิเคราะห์ข้อมูล
บทที่ 1 สถิติเชิงพรรณนา สถิติเบื้องต้น โปรแกรม R เบื้องต้น
ระเบียบวิธีวิจัยทางการบัญชีบริหาร
Chapter 7 Clustering อาจารย์อนุพงศ์ สุขประเสริฐ
บทที่ 5 หลักการประมาณค่าและการทดสอบสมมติฐาน
ระเบียบวิธีวิจัยพื้นฐานทางการเงิน
ระเบียบวิธีวิจัยพื้นฐานทางการจัดการโลจิสติกส์
JSON API Pentaho User Manual.
การเพิ่มกลุ่มข้อมูลลงในกราฟโดยใช้ Graph Wizard
การรวบรวมและวิเคราะห์ข้อมูลสถิติ
ข้อมูล และ เครื่องมือเก็บข้อมูลเชิงปริมาณ
การใช้คู่มือประเมินความสามารถทางเชาวน์ปัญญา เด็กอายุ 2-15 ปี
Introduction to information System
Introduction to information System
ผู้วิจัย ศิริมา เที่ยงสาย
บรรยายโดย คุณครูกิริยา ทิพมาตย์ สพม. เขต 23
Chapter 3 Basic Input & Output.
สำนักงานเขตพื้นที่การศึกษาประถมศึกษาแพร่ เขต 1
5 แบบจำลองกระบวนการ Process Modeling
ข้อมูลและสารสนเทศ.
การวิเคราะห์แบบสอบถามด้วยโปรแกรม SPSS
ข้อมูลและสารสนเทศ.
การประเมินคุณธรรมและความโปร่งใส ในการดำเนินงานของหน่วยงานของภาครัฐ
ประชุมผู้อำนวยการสำนักงานเขตพื้นที่การศึกษา ณ โรงแรมเอวาน่า บางนา กทม
ตัวชี้วัดกรมตรวจบัญชีสหกรณ์ ปี 2549
อุทธรณ์,ฎีกา.
Training for SPSS BY Assist. Prof. Benchamat Laksaniyanon, Phd
ขั้นตอนการเขียนโปรแกรมคอมพิวเตอร์
Mining Data for International Publication Project
狗隻的訓練 聖士提反女子中學附屬小學 孫晞庭.
ประเด็นการขับเคลื่อนองค์การไปสู่ระบบราชการ 4.0
Chapter 7 Clustering อาจารย์อนุพงศ์ สุขประเสริฐ
การตั้งมาตรฐานคุณภาพ
ระเบียบวิธีวิจัยทางการบัญชีบริหาร
งานวิจัย.
อัลกอริทึม (Algorithm) ???
การทำเหมืองข้อมูลด้วยโปรแกรม RapidMiner Studio
ใบสำเนางานนำเสนอ:

Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม

Content Data Pre-processing Data Pre-processing Technique

Data Preparation หมายถึงอะไร การเตรียมข้อมูล หรือ data preparation หมายถึง กระบวนการใดๆ ที่เราจำเป็นต้องทำกับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ใน รูปแบบที่เหมาะสม ที่จะนำไปโหลดเข้าฐานข้อมูล หรือนำไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของ การทำ data preparation อาจจะแตกต่างกันไป สำหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบ หนึ่ง อาจกลายมาเป็นข้อมูลดิบของระบบต่อไป

Data Preparation หมายถึงอะไร เราอาจพิจารณาการทำเตรียมข้อมูลเป็นระบบอย่าง หนึ่ง ที่มี input เป็นข้อมูลดิบ และมี output เป็น ข้อมูลที่อยู่ในรูปแบบที่พร้อมนำไปใช้งานต่อไปได้ ทันที (tidy data: ความหมาย) โดยมากแล้ว การนำ ข้อมูลไปใช้งานต่อมักจะเป็นการนำไปโหลดเข้า ฐานข้อมูลหรือนำไปวิเคราะห์หาคำตอบอย่างใดอย่าง หนึ่ง บางคนอาจเรียกกระบวนการนี้ว่า data cleaning ซึ่งก็ให้ความหมายคล้ายคลึงกัน

Data Preparation หมายถึงอะไร การเตรียมข้อมูลที่มีประสิทธิภาพ ควรมีลักษณะสำคัญ ดังนี้ ให้ผลลัพธ์ที่ครบถ้วนสมบูรณ์ ให้ความสำคัญกับนิยามข้อมูล จดบันทึกขั้นตอนการเตรียมข้อมูลโดยละเอียด ปรับกระบวนการให้เป็นอัตโนมัติให้มากที่สุด

Data Pre-processing ถือเป็นกระบวนการที่สำคัญมากอย่างหนึ่งในการทำ เหมืองข้อมูล หากการเตรียมข้อมูลทำได้ไม่ดี มีโอกาสสูงที่จะ ก่อให้เกิดความเสียหายในขั้นตอนอื่นๆ อาจส่งผลให้ผลการวิเคราะห์ หรือการตีความจาก การนำข้อมูลไปใช้ ผิดเพี้ยนไป บทนี้จะช่วยให้นิสิตสามารถทำการเตรียมข้อมูลได้ อย่างมีประสิทธิภาพมากขึ้น ลดงานในอนาคต และ ได้ประโยชน์สูงสุดจากการเตรียมข้อมูล

การเตรียมข้อมูลสำหรับ Data Mining เป็นขั้นตอนก่อนทำเหมืองข้อมูล เนื่องจากข้อมูลใน ความเป็นจริงอาจยังต้องการตรวจสอบความถูกต้อง ซึ่งอาจมีข้อมูลลักษณะดังนี้ คือ ข้อมูลไม่สมบูรณ์ (incomplete data) เช่น ค่าของ คุณลักษณะขาด หาย(missing value) ขาดคุณลักษณะที่ น่าสนใจหรือขาด รายละเอียดของข้อมูล ข้อมูลรบกวน (noisy data) เช่น ข้อมูลมีค่าผิดพลาด (error) หรือมีค่าผิดปกติ (Outliers) ข้อมูลไม่สอดคล้อง (Inconsistent data) เช่น ข้อมูล เดียวกัน แต่ตั้งชื่อต่างกัน หรือใช้ค่าแทนข้อมูลที่ต่างกัน

Data Pre-processing Technique Data Cleaning เป็นขั้นตอนสำหรับการคัดข้อมูลที่เป็น ส่วนรบกวน หรือข้อมูลที่ไม่เกี่ยวข้องออกไป Data Integration เป็นขั้นตอนการรวมแหล่งข้อมูล ซึ่งมีข้อมูล หลายแห่งมารวมไว้ที่เดียวกัน Data Transformation เป็นขั้นตอนการแปลงข้อมูลใน ขั้นตอนการ คัดเลือก ให้เหมาะสำหรับขั้นตอนการ ทำเหมืองข้อมูล Data Reduction เป็นขั้นตอนการลดมิติข้อมูล เพื่อ เป็นตัวแทน จำนวนข้อมูลทั้งหมด

Forms of data pre-processing Source: Han & Kamber (2006)

Data Preparation with RapidMiner studio การจัดการข้อมูล (preprocessing) มีความผิดพลาดในชุดข้อมูล เช่น ข้อมูลมีค่าไม่ตรงกัน ข้อมูลขาดหายไป ข้อมูลแปลกแยก (outlier) แปลงข้อมูล เช่น Discretization แปลงข้อมูล numeric ให้เป็น nominal Normalization แปลงข้อมูล numeric ให้มี scale ที่เท่ากัน

Replace Value ข้อมูลจากหลายๆ ฐานข้อมูลมักจะเกิดปัญหาข้อมูลไม่ ตรงกัน ชื่อจังหวัด กรุงเทพมหานคร, กรุงเทพ, กรุงเทพฯ หรือ กทม. สายการศึกษา สายอาชีพ, อาชีวะ, สามัญ, มัธยมปลาย หรือ ปวช. ต้องทำการปรับเปลี่ยนข้อมูลให้ตรงกันก่อนนำไป วิเคราะห์

Replace missing value ข้อมูลอาจจะขาดหายไป เนื่องจาก ไม่มีข้อมูล กรอกข้อมูลผิดพลาด การแทนที่ข้อมูลที่ขาดหายไป แทนที่ด้วยค่า เช่น N/A หรือ none หรือ null แทนที่ด้วยค่าน้อยที่สุด ในกรณีที่แอตทริบิวต์เป็น ตัวเลข (numeric) แทนที่ด้วยค่ามากที่สุด ในกรณีที่แอตทริบิวต์เป็นตัวเลข (numeric) แทนที่ด้วยค่าเฉลี่ย (mean/average) ในกรณีที่แอตทริ บิวต์เป็นตัวเลข (numeric) แทนที่ด้วยค่าฐานนิยม (mode) ในกรณีที่แอตทริบิวต์ เป็นกลุ่ม (nominal) แทนที่ด้วยค่า 0 เช่น จำนวนบุตร แทนที่ด้วยค่าที่ระบุเอง เช่น ไม่ระบุ

Outlier ค่าผิดปกติ (Outliers) เป็นข้อมูลที่มีค่าแยกออกจาก กลุ่มหรือผิดแผกแตกต่างไปจากข้อมูลค่าอื่น ๆ ตัวอย่างของค่าผิดปกติก็เช่น IQ ของเด็กได้ 195 น้ำหนักของคน 220 กิโลกรัม ความสูงของคน 210 ซ.ม. ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ 1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน หรือ 2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไป จากกลุ่มจริง ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้น ได้เสมอ

Discretization เป็นการแปลงข้อมูลตัวเลข (numeric) ให้ เป็นข้อมูลกลุ่ม (nominal) โดยแบ่งข้อมูล เป็นช่วงๆ แบ่งตามเงื่อนไขที่กำหนด แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width)

แบ่งตามเงื่อนไขที่กำหนด No GPA 1 2.50 2 2.75 3 3.00 4 5 3.10 6 3.25 7 3.40 8 3.50 9 3.75 เงื่อนไข <= 3.00 เกรดน้อย >3.00 และ <=3.50 เกรดปานกลาง >3.50 และ <=3.75 เกรดดี >3.75 เกรดดีมาก

แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width) No GPA 1 2.50 2 2.75 3 3.00 4 5 3.10 6 3.25 7 3.40 8 3.50 9 3.75 ช่วง GPA 1 <= 2.81 2 (2.81-3.12) 3 (3.12-3.43) 4 >3.43 แบ่งเป็น 4 ช่วง คำนวณจาก ช่วงข้อมูล = ค่ามากสุด−ค่าน้อยสุด จำนวนช่วง = (3.75-2.50)/4 = 0.313

Normalization เป็นการปรับเปลี่ยนช่วงข้อมูลให้มี scale เดียวกันเพื่อจะเปรียบเทียบกัน Z- transformation = 𝑥 −ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน

The end Q & A