Introduction to Data mining Chapter 1 Introduction to Data mining อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม
Content ความหมายของการทำเหมืองข้อมูล วิวัฒนาการของการทำเหมืองข้อมูล ขั้นตอนการทำเหมืองข้อมูล สถาปัตยกรรมของการทำเหมืองข้อมูล ประเภทของข้อมูลที่สามารถทำเหมือง ข้อมูล ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมือง ข้อมูล ตัวอย่างการนำเหมืองข้อมูลมาใช้ ประโยชน์ของการทำเหมืองข้อมูล
Data Mining คืออะไร Data Mining หรือ การทำเหมืองข้อมูล อาจจะ เรียกว่า การค้นหาความรู้ในฐานข้อมูล เป็นเทคนิค เพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวน มหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชา สถิติ (statistics), การเรียนรู้ของเครื่อง (machine learning) และ การรู้จำแบบ (pattern recognition) หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล (โดยส่วนใหญ่จะมี จำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และ ความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัย หลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลัก คณิตศาสตร์
วิวัฒนาการของการทำเหมืองข้อมูล ปี 1960 Data Collection คือ การนําข้อมูลมา จัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือและ ป้องกันการสูญหายได้เป็นอย่างดี ปี 1980 Data Access คือ การนําข้อมูลที่จัดเก็บมา สร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อประโยชน์ใน การนําไปวิเคราะห์ และการตัดสินใจอย่างมีคุณภาพ ปี 1990 Data Warehouse & Decision Support คือ การรวบรวมข้อมูลมาจัดเก็บลงไปในฐานข้อมูล ขนาดใหญ่โดยครอบคลุมทุกด้านขององค์กร เพื่อ ช่วยสนับสนุนการตัดสินใจ ปี 2000 Data Mining คือ การนําข้อมูลจาก ฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง แบบจําลองและความสัมพันธ์ทางสถิติ
ทำไมจึงต้องมี Data Mining ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็ จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศ หรือการคัดเลือกข้อมูลออกมาใช้งานส่วนที่เราต้องการ ในอดีตเราได้ใช้คนเป็นผู้สืบค้นข้อมูลต่างๆ ใน ฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตาม ภูมิปัญญาของผู้สืบค้น ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจ ไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงาน ภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่ รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse) ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด
ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมืองข้อมูล ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการ จัดการฐานข้อมูล ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจาก หลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง
ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมืองข้อมูล (ต่อ) ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลง ตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึก ฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึง ต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสม
ข้อมูลที่ใช้ทำ Data mining มาจากไหน? ข้อมูลแบ่งตามที่มา ภายในบริษัท/องค์กร ข้อมูลการซื้อขาย ข้อมูลประวัติลูกค้า ข้อมูลประวัติพนักงาน ภายนอกบริษัท/องค์กร ข้อมูลจาก social media ต่างๆ ข้อมูลข่าวต่างๆ ข้อมูลรูปภาพและเสียง ที่มา: http://www.ibmbigdatahub.com/infographic/where-does-big-data-come
ประเภทของข้อมูลที่สามารถทำ Data Mining Relational databases เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยใน แต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย Entity Relationship Model 6
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Relational databases ตารางที่ 1 ตัวอย่างตารางข้อมูลนิสิตขั้นต้น ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนของนิสิต
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ใน รูปแบบเดียวกันและรวบรวมไว้ในที่ๆ เดียวกัน
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Data Warehouses ที่มา : http://www.persysinc.com/persys_database_datawarehouse.aspx
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Transactional databases ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วย เหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่ลูกค้าราย ซื้อ
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Transactional databases ใบเสร็จรับเงิน
ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Advanced database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ Object oriented ข้อมูลที่เป็น Text file ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web Site
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและ ขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมี ความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัว อย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่าน บาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการ ตัดสินใจ ( Decision Support System) เพื่อเป็นการ ง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการ ตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจาก ระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้น ความรู้
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม (ต่อ) ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึง จำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดย เครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม (ต่อ) การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกร รมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็น อย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ใน ฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อ การตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็น ได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลย ทีเดียว
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจการขายและการตลาด (Retail & Marketing) ใช้วิเคราะห์รูปแบบพฤติกรรมการซื้อสินค้าของลูกค้า ใช้หาความสัมพันธ์ของ Customer Demographic Characteristic ว่าส่งผลต่อยอดซื้อไหม หาความสัมพันธ์ของสินค้าที่ลูกค้าซื้อ เช่น ซื้ออะไร ก่อนหลังบ้าง ใช้ในการทำนายความเป็นไปได้ที่ลูกค้าประเภทไหน จะตอบกลับ Mail โฆษณาสินค้าเพื่อที่จะได้วางแผน ส่งข้อมูลโปรโมชั่นในการขายได้ตรงจุดมากขึ้น การวิเคราะห์ Market Trend
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจธนาคาร (Banking) ใช้วิเคราะห์รูปแบบการโกงของลูกค้าในการใช้บัตร เครดิต เพื่อที่ว่าจะได้ป้องกันก่อนแต่เนิ่นๆ วิเคราะห์เพื่อแบ่งแยกหาลูกค้าที่มีเครดิตดี หรือ ไม่ดี และ พฤติกรรมการใช้จ่ายเงินผ่านบัตรของแต่ละกลุ่ม ว่าเป็นอย่างไร วิเคราะห์กลุ่มของการใช้บัตรเครดิต ช่วยวิเคราะห์หา Correlation ระหว่าง Financial Indicators ต่างๆ
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจประกันภัย ใช้วิเคราะห์พฤติกรรมการร้องเรียน (Claim Analysis) ของลูกค้า ใช้หารูปแบบโมเดลของลูกค้าที่น่าจะนโยบายหรือ กรมธรรม์ใหม่ของธุรกิจ ใช้หารูปแบบพฤติกรรมของลูกค้าที่จัดอยู่ในกลุ่มเสี่ยง ต่อธุรกิจ
ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจด้านยา โรงพยาบาล คลินิก ใช้วิเคราะห์หาพฤติกรรมของคนไข้ที่น่าจะมีโอกาสมา หาหมอ หรือมาโรงพยาบาล ใช้วิเคราะห์หาวิธีการหรือยาบำบัดรักษาโรคที่ดีที่สุด สำหรับอาการและความเจ็บป่วยแต่ละประเภท ใช้วิเคราะห์หาความสัมพันธ์ระหว่างอาการของผู้ป่วย กับการทำนายโรคที่น่าจะเกิดขึ้น
ประโยชน์ของเหมืองข้อมูล การทำเหมืองข้อมูล จำเป็นต้องอาศัยบุคลากรจาก หลายฝ่าย และต้องอาศัยความรู้จำนวนมาก ถึงจะ ได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จาก ขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะ นำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลย ก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้ รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจ ถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำ เหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง
Exercises: อยากทราบว่าสาขาไหนมียอดขายมากที่สุดและน้อย ที่สุด 10 อันดับแรก อยากทราบพฤติกรรมของลูกค้าที่มีแนวโน้มจะยกเลิก การใช้บัตรเครดิต อยากทราบปริมาณน้ำฝนที่จะตกในปีหน้า อยากทราบคุณลักษณะของนักเรียนที่เหมาะสมที่จะ ศึกษาในมหาวิทยาลัย อยากได้ระบบที่จะช่วยแนะนำแอพพลิเคชั่นที่ผู้ใช้ มักจะดาวน์โหลดร่วมกันบ่อยๆ
The end Q & A