Data Mining นำเสนอโดย อาจารย์นงเยาว์ สอนจะโปะ คณะสารสนเทศศาสตร์ มหาวิทยาลัยศรีปทุม วิทยาเขตชลบุรี 8 สิงหาคม 2551 Present by Nongyao Sornjapo
Topic Data Mining คืออะไร สถาปัตยกรรมของระบบการทำ Data Mining 2
Data Mining คืออะไร Data Mining เป็นกระบวนการ (Process) ที่กระทำกับข้อมูลขนาดใหญ่ เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์ เพื่อให้ได้สารสนเทศที่เราไม่รู้ออกมา โดยสารสนเทศที่ได้จะมีเหตุผล และสามารถนำไปใช้ประโยชน์ได้ 3
Data Mining คืออะไร (ต่อ) Knowledge Discovery in Databases : KDD เป็นการสืบค้น ความรู้ที่เป็นประโยชน์ในฐานข้อมูลขนาดใหญ่ ซึ่งนิยมใช้ Data Mining เป็นขั้นตอนหนึ่งในกระบวนการ KDD 4
สถาปัตยกรรมของระบบการทำ Data Mining 5
ประเภทของข้อมูลที่สามารถทำ Data Mining Relational databases 6
Data Warehouses ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) ที่มา : http://www.persysinc.com/persys_database_datawarehouse.aspx 7
Transactional databases ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Transactional databases ใบเสร็จรับเงิน 8
Advanced database ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ Object oriented ข้อมูลที่เป็น Text file ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web Site เป็นต้น 9
Association rule Discovery Classification & Prediction เทคนิคต่าง ๆ ของ Data Mining Association rule Discovery Classification & Prediction Database Clustering Or Segmentation Deviation Detection Link Analysis 10
1. Association rule Discovery เทคนิคต่าง ๆ ของ Data Mining (ต่อ) 1. Association rule Discovery หลักการทำงาน คือ การค้นหาความสัมพันธ์ของข้อมูลจาก ข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อนำไปวิเคราะห์ หรือทำนาย ปรากฎการณ์ต่าง ๆ เช่น การวิเคราะห์การซื้อสินค้าของลูกค้า เรียกว่า “Market Basket Analysis” 11
2. Classification & Prediction เทคนิคต่าง ๆ ของ Data Mining (ต่อ) 2. Classification & Prediction เป็นการแบ่งประเภทของข้อมูล โดยจะหากฎเพื่อระบุประเภทวัตถุจากคุณสมบัติของวัตถุ เช่น การหาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่างๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่ เก็บไว้เพื่อนำมาช่วยในการวินิจฉัยโรคของผู้ป่วย 12
3. Database Clustering Or Segmentation เทคนิคต่าง ๆ ของ Data Mining (ต่อ) 3. Database Clustering Or Segmentation เป็นเทคนิคการลดขนาดของข้อมูล ด้วยการรวมกลุ่มตัวแปร ที่มีลักษณะเดียวกันไว้ด้วยกัน เพื่อนำข้อมูลที่ได้ไปวิเคราะห์ เช่นตัวอย่าง บริษัทจำหน่วยรถยนต์ได้แยกกลุ่มลูกค้าออกเป็น 3 กลุ่ม 1. กลุ่มผู้มีรายได้สูง (> 80,000) 2. กลุ่มผู้มีรายได้ปานกลาง (25,000 - 80,000) 3. กลุ่มผู้มีรายได้ต่ำ (< 25,000) 13
4. Deviation Detection เทคนิคต่าง ๆ ของ Data Mining (ต่อ) เป็นกรรมวิธีในการหาค่าที่แตกต่างไปจากมาตรฐาน หรือค่า ที่คาดคิดไว้ว่าต่างไปมากน้อยเพียงใด โดยทั่วไปมักใช้วิธีทาง สถิติ หรือการแสดงให้เห็นภาพ (Visualization) ตัวอย่างการนำเทคนิคนี้ใช้ การตรวจสอบลายเซ็นปลอม บัตรเครดิตปลอม การหาจุดบกพร่องของชิ้นงานในโรงงานอุตสาหกรรม 14
5. Link Analysis เทคนิคต่าง ๆ ของ Data Mining (ต่อ) จุดมุ่งหมายของ Ling Analysis คือ การสร้าง Link ที่เรียกว่า “associations” ระหว่าง Recode เดียว หรือ กลุ่มของ Record ในฐานข้อมูล Link Analysis สามารถแบ่งออกเป็น 3 ชนิด - associations discovery - sequential pattern discovery - similar time sequence discovery 15
การวิเคราะห์ผลิตภัณฑ์ การวิเคราะห์บัตรเครดิต การวิเคราะห์การขาย การประยุกต์ใช้งาน Data Mining ธุรกิจค้าปลีก การวิเคราะห์ผลิตภัณฑ์ การวิเคราะห์บัตรเครดิต การวิเคราะห์การขาย E-Commerce ด้านการศึกษา 16
แหล่งอ้างอิง http://www.twocrows.com/intro-dm.pdf http://www.twocrows.com/crm-dm.pdf http://www.persysinc.com/persys_database_datawarehouse.aspx http://en.wikipedia.org/wiki/Data_mining http://www.thearling.com/text/dmwhite/dmwhite.htm 17