Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ

Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ
คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม

Content Data Pre-processing Data Pre-processing Technique

Data Preparation หมายถึงอะไร
การเตรียมข้อมูล หรือ data preparation หมายถึง กระบวนการใดๆ ที่เราจำเป็นต้องทำกับข้อมูลดิบ (raw data) ที่ได้รับมา เพื่อปรับเปลี่ยนข้อมูลให้อยู่ใน รูปแบบที่เหมาะสม ที่จะนำไปโหลดเข้าฐานข้อมูล หรือนำไปวิเคราะห์ต่อไป ความหมายที่เจาะจงของ การทำ data preparation อาจจะแตกต่างกันไป สำหรับแต่ละระบบ ผลลัพธ์การประมวลผลของระบบ หนึ่ง อาจกลายมาเป็นข้อมูลดิบของระบบต่อไป

เราอาจพิจารณาการทำเตรียมข้อมูลเป็นระบบอย่าง หนึ่ง ที่มี input เป็นข้อมูลดิบ และมี output เป็น ข้อมูลที่อยู่ในรูปแบบที่พร้อมนำไปใช้งานต่อไปได้ ทันที (tidy data: ความหมาย) โดยมากแล้ว การนำ ข้อมูลไปใช้งานต่อมักจะเป็นการนำไปโหลดเข้า ฐานข้อมูลหรือนำไปวิเคราะห์หาคำตอบอย่างใดอย่าง หนึ่ง บางคนอาจเรียกกระบวนการนี้ว่า data cleaning ซึ่งก็ให้ความหมายคล้ายคลึงกัน

การเตรียมข้อมูลที่มีประสิทธิภาพ ควรมีลักษณะสำคัญ ดังนี้ ให้ผลลัพธ์ที่ครบถ้วนสมบูรณ์ ให้ความสำคัญกับนิยามข้อมูล จดบันทึกขั้นตอนการเตรียมข้อมูลโดยละเอียด ปรับกระบวนการให้เป็นอัตโนมัติให้มากที่สุด

Data Pre-processing ถือเป็นกระบวนการที่สำคัญมากอย่างหนึ่งในการทำ เหมืองข้อมูล หากการเตรียมข้อมูลทำได้ไม่ดี มีโอกาสสูงที่จะ ก่อให้เกิดความเสียหายในขั้นตอนอื่นๆ อาจส่งผลให้ผลการวิเคราะห์ หรือการตีความจาก การนำข้อมูลไปใช้ ผิดเพี้ยนไป บทนี้จะช่วยให้นิสิตสามารถทำการเตรียมข้อมูลได้ อย่างมีประสิทธิภาพมากขึ้น ลดงานในอนาคต และ ได้ประโยชน์สูงสุดจากการเตรียมข้อมูล

การเตรียมข้อมูลสำหรับ Data Mining
เป็นขั้นตอนก่อนทำเหมืองข้อมูล เนื่องจากข้อมูลใน ความเป็นจริงอาจยังต้องการตรวจสอบความถูกต้อง ซึ่งอาจมีข้อมูลลักษณะดังนี้ คือ ข้อมูลไม่สมบูรณ์ (incomplete data) เช่น ค่าของ คุณลักษณะขาด หาย(missing value) ขาดคุณลักษณะที่ น่าสนใจหรือขาด รายละเอียดของข้อมูล ข้อมูลรบกวน (noisy data) เช่น ข้อมูลมีค่าผิดพลาด (error) หรือมีค่าผิดปกติ (Outliers) ข้อมูลไม่สอดคล้อง (Inconsistent data) เช่น ข้อมูล เดียวกัน แต่ตั้งชื่อต่างกัน หรือใช้ค่าแทนข้อมูลที่ต่างกัน

Data Pre-processing Technique
Data Cleaning เป็นขั้นตอนสำหรับการคัดข้อมูลที่เป็น ส่วนรบกวน หรือข้อมูลที่ไม่เกี่ยวข้องออกไป Data Integration เป็นขั้นตอนการรวมแหล่งข้อมูล ซึ่งมีข้อมูล หลายแห่งมารวมไว้ที่เดียวกัน Data Transformation เป็นขั้นตอนการแปลงข้อมูลใน ขั้นตอนการ คัดเลือก ให้เหมาะสำหรับขั้นตอนการ ทำเหมืองข้อมูล Data Reduction เป็นขั้นตอนการลดมิติข้อมูล เพื่อ เป็นตัวแทน จำนวนข้อมูลทั้งหมด

Forms of data pre-processing
Source: Han & Kamber (2006)

Data Preparation with RapidMiner studio
การจัดการข้อมูล (preprocessing) มีความผิดพลาดในชุดข้อมูล เช่น ข้อมูลมีค่าไม่ตรงกัน ข้อมูลขาดหายไป ข้อมูลแปลกแยก (outlier) แปลงข้อมูล เช่น Discretization แปลงข้อมูล numeric ให้เป็น nominal Normalization แปลงข้อมูล numeric ให้มี scale ที่เท่ากัน

Replace Value ข้อมูลจากหลายๆ ฐานข้อมูลมักจะเกิดปัญหาข้อมูลไม่ ตรงกัน
ชื่อจังหวัด กรุงเทพมหานคร, กรุงเทพ, กรุงเทพฯ หรือ กทม. สายการศึกษา สายอาชีพ, อาชีวะ, สามัญ, มัธยมปลาย หรือ ปวช. ต้องทำการปรับเปลี่ยนข้อมูลให้ตรงกันก่อนนำไป วิเคราะห์

Replace missing value ข้อมูลอาจจะขาดหายไป เนื่องจาก
ไม่มีข้อมูล กรอกข้อมูลผิดพลาด การแทนที่ข้อมูลที่ขาดหายไป แทนที่ด้วยค่า เช่น N/A หรือ none หรือ null แทนที่ด้วยค่าน้อยที่สุด ในกรณีที่แอตทริบิวต์เป็น ตัวเลข (numeric) แทนที่ด้วยค่ามากที่สุด ในกรณีที่แอตทริบิวต์เป็นตัวเลข (numeric) แทนที่ด้วยค่าเฉลี่ย (mean/average) ในกรณีที่แอตทริ บิวต์เป็นตัวเลข (numeric) แทนที่ด้วยค่าฐานนิยม (mode) ในกรณีที่แอตทริบิวต์ เป็นกลุ่ม (nominal) แทนที่ด้วยค่า 0 เช่น จำนวนบุตร แทนที่ด้วยค่าที่ระบุเอง เช่น ไม่ระบุ

Outlier ค่าผิดปกติ (Outliers) เป็นข้อมูลที่มีค่าแยกออกจาก กลุ่มหรือผิดแผกแตกต่างไปจากข้อมูลค่าอื่น ๆ ตัวอย่างของค่าผิดปกติก็เช่น IQ ของเด็กได้ 195 น้ำหนักของคน 220 กิโลกรัม ความสูงของคน 210 ซ.ม. ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ 1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน หรือ 2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไป จากกลุ่มจริง ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้น ได้เสมอ

Discretization เป็นการแปลงข้อมูลตัวเลข (numeric) ให้ เป็นข้อมูลกลุ่ม (nominal) โดยแบ่งข้อมูล เป็นช่วงๆ แบ่งตามเงื่อนไขที่กำหนด แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width)

แบ่งตามเงื่อนไขที่กำหนด
No GPA 1 2.50 2 2.75 3 3.00 4 5 3.10 6 3.25 7 3.40 8 3.50 9 3.75 เงื่อนไข <= 3.00 เกรดน้อย >3.00 และ <=3.50 เกรดปานกลาง >3.50 และ <=3.75 เกรดดี >3.75 เกรดดีมาก

แบ่งตามช่วงของข้อมูลที่เท่ากัน (equal width)
No GPA 1 2.50 2 2.75 3 3.00 4 5 3.10 6 3.25 7 3.40 8 3.50 9 3.75 ช่วง GPA 1 <= 2.81 2 ( ) 3 ( ) 4 >3.43 แบ่งเป็น 4 ช่วง คำนวณจาก ช่วงข้อมูล = ค่ามากสุด−ค่าน้อยสุด จำนวนช่วง = ( )/4 = 0.313

Normalization เป็นการปรับเปลี่ยนช่วงข้อมูลให้มี scale เดียวกันเพื่อจะเปรียบเทียบกัน Z- transformation = 𝑥 −ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน

The end Q & A

Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ

เข้าสู่ระบบ

ลงทะเบียนผ่านเครือข่ายสังคม:

Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ