Introduction to Data mining

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
ปัญหาของระบบแฟ้มข้อมูล ( File System)
Advertisements

Business Database หน่วยกิต 3(3-0-6) บรรยาย : วันพุธ เวลา 13:00- 16:00 น. ห้อง B1207 ses/204406/ htm.
การขุดค้นข้อมูล (Data Mining)
Management Information System Week 6
เอกสารประกอบการบรรยาย เรื่อง Basic SQL
ฐานข้อมูลและการออกแบบฐานข้อมูล
Data Mining นำเสนอโดย อาจารย์นงเยาว์ สอนจะโปะ คณะสารสนเทศศาสตร์
ศท.1401 ความรู้เบื้องต้นเกี่ยวกับสารนิเทศ ศศ สารนิเทศเบื้องต้น
Seminar in Information Knowledge and Technology Management ดร. ปรัชญนันท์ นิลสุข
Customer Relationship Management (CRM)
บทที่ 6 การวิจัยเชิงสืบเสาะ : ข้อมูลทุติยภูมิ
Database and Application Development Life Cycle 2.
โปรแกรมฐานข้อมูล เป็นโปรแกรมหรือซอฟแวร์ที่ช่วยจัดการ ข้อมูลหรือรายการต่าง ๆ ที่อยู่ในฐานข้อมูล ไม่ว่าจะเป็นการจัดเก็บ การ เรียกใช้ การปรับปรุงข้อมูล โปรแกรมฐานข้อมูลจะช่วยให้ผู้ใช้สามารถ.
ข้อมูล (data) หมายถึง ข้อเท็จจริงหรือ เหตุการณ์ ที่เกี่ยวข้องกับสิ่งต่าง ๆที่ เป็นตัวเลข ข้อความหรือ รายละเอียดซึ่งอาจอยู่ใน รูปแบบต่าง ๆ เช่น ภาพ เสียง.
ศูนย์ข้อมูลกลางเพื่อบริหารจัดเก็บและใช้ประโยชน์
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับระบบและการวิเคราะห์ระบบ
ระบบสารสนเทศในหน่วยธุรกิจ
Information Systems Development
Microsoft Access การใช้งานโปรแกรมระบบจัดการฐานข้อมูล
Chapter 3 : แบบจำลองฐานข้อมูล (Data Model)
SQL (Structured Query Language)
ผู้บริหารกรมชลประทานกับระบบEIS
การบริหารความสัมพันธ์ลูกค้า Customer Relationship Management: CRM
13 October 2007
สถาปัตยกรรมของระบบฐานข้อมูล
Data Management (การจัดการข้อมูล)
Chapter 9 โปรแกรมสำเร็จรูปกับการวิเคราะห์ข้อมูล
11 May 2014
Information System Development
ระบบสารสนเทศเพื่อการจัดการ * Management Information Systems
เทคโนโลยีสารสนเทศเพื่อการศึกษาค้นคว้า Information Technology for Study Skill 01/12/61.
Data mining สุขฤทัย มาสาซ้าย.
ระเบียบวิธีวิจัยพื้นฐานทางการตลาด
การจัดการฐานข้อมูลด้วยโปรแกรม MS Access 2013
การใช้โปรแกรมเบื้องต้น (Application Overview)
การใช้ Big Data และ Artificial Intelligence (AI) ในงานสร้างสุขภาพ
Introduction to CRISP-DM
(On-Line Analytical Processing)
(Smart Strategy Praboromarajchanok Institute: SSPI)
13 October 2007
บทที่ 3 แบบจำลองของฐานข้อมูล (Database Model)
รร.มุกดารา เขาหลัก พังงา
การวิเคราะห์คำค้น ในรูปแบบ Word Cloud เพื่อสนับสนุนงานบริการสารสนเทศของห้องสมุด Keywords Analysis in Word Cloud for supporting library information services.
ระเบียบวิธีวิจัยพื้นฐานทางการจัดการโลจิสติกส์
บทที่ 4 ฐานข้อมูล.
Database ฐานข้อมูล.
การจัดการเทคโนโลยีสารสนเทศ ในสถานศึกษา
บทเรียนที่ 1 ความรู้เบื้องต้นเกี่ยวกับเทคโนโลยีสารสนเทศ
การออกข้อบัญญัติท้องถิ่น ตามพระราชบัญญัติการสาธารณสุข
เทคนิคการใช้เครื่องมือสมัยใหม่ (New Media) เพื่อการสื่อสาร
รายวิชา IFM4301 การจัดการเครือข่ายทางสังคม 3 (ทฤษฎี2-ปฏิบัติ2-ศึกษาด้วยตนเอง5) หน่วยกิต
อาจารย์ณัฐภัทร แก้วรัตนภัทร์ วท.ม.,วท.บ.เกียรตินิยมอันดับ1
เรื่อง การวิเคราะห์และออกแบบฐานข้อมูล MySQL Database
วิชา วิศวกรรมซอฟต์แวร์ (Software Engineering)
ร่างแผนปฏิรูปองค์การ สำนักงานปลัดกระทรวงทรัพยากรธรรมชาติและสิ่งแวดล้อม
13 October 2007
การประสานงาน การแก้ปัญหาในการทำงาน โดยใช้ไลน์กลุ่ม social media
TIM2303 การขายและการตลาดในอุตสาหกรรมท่องเที่ยว
รายวิชา ISC2101 ระบบฐานข้อมูลเบื้องต้น 3 (ทฤษฎี2-ปฏิบัติ2-ศึกษาด้วยตนเอง5) หน่วยกิต
อ.พิณรัตน์ นุชโพธิ์ คณะวิทยาการจัดการ มหาวิทยาลัยราชภัฏพิบูลสงคราม
การพัฒนา IT ให้บูรณาการเข้ากับโครงสร้างและระบบงาน
ฐานข้อมูลเชิงสัมพันธ์ Relational Database
[ บทที่ 1 ] ระบบฐานข้อมูล
หลักการตลาด Principles of Marketing
ระเบียบวิธีวิจัยพื้นฐานทางการตลาด
Introduction to Structured System Analysis and Design
ระเบียบวิธีวิจัยทางการบัญชีบริหาร
Data resource management
การทำเหมืองข้อมูลด้วยโปรแกรม RapidMiner Studio
ใบสำเนางานนำเสนอ:

Introduction to Data mining Chapter 1 Introduction to Data mining อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม

Content ความหมายของการทำเหมืองข้อมูล วิวัฒนาการของการทำเหมืองข้อมูล ขั้นตอนการทำเหมืองข้อมูล สถาปัตยกรรมของการทำเหมืองข้อมูล ประเภทของข้อมูลที่สามารถทำเหมือง ข้อมูล ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมือง ข้อมูล ตัวอย่างการนำเหมืองข้อมูลมาใช้ ประโยชน์ของการทำเหมืองข้อมูล

Data Mining คืออะไร Data Mining หรือ การทำเหมืองข้อมูล อาจจะ เรียกว่า การค้นหาความรู้ในฐานข้อมูล เป็นเทคนิค เพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวน มหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชา สถิติ (statistics), การเรียนรู้ของเครื่อง (machine learning) และ การรู้จำแบบ (pattern recognition) หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล (โดยส่วนใหญ่จะมี จำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และ ความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัย หลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลัก คณิตศาสตร์

วิวัฒนาการของการทำเหมืองข้อมูล ปี 1960 Data Collection คือ การนําข้อมูลมา จัดเก็บอย่างเหมาะสมในอุปกรณ์ที่น่าเชื่อถือและ ป้องกันการสูญหายได้เป็นอย่างดี ปี 1980 Data Access คือ การนําข้อมูลที่จัดเก็บมา สร้างความสัมพันธ์ต่อกันในข้อมูลเพื่อประโยชน์ใน การนําไปวิเคราะห์ และการตัดสินใจอย่างมีคุณภาพ ปี 1990 Data Warehouse & Decision Support คือ การรวบรวมข้อมูลมาจัดเก็บลงไปในฐานข้อมูล ขนาดใหญ่โดยครอบคลุมทุกด้านขององค์กร เพื่อ ช่วยสนับสนุนการตัดสินใจ ปี 2000 Data Mining คือ การนําข้อมูลจาก ฐานข้อมูลมาวิเคราะห์และประมวลผล โดยการสร้าง แบบจําลองและความสัมพันธ์ทางสถิติ

ทำไมจึงต้องมี Data Mining ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็ จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศ หรือการคัดเลือกข้อมูลออกมาใช้งานส่วนที่เราต้องการ ในอดีตเราได้ใช้คนเป็นผู้สืบค้นข้อมูลต่างๆ ใน ฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตาม ภูมิปัญญาของผู้สืบค้น ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจ ไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงาน ภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่ รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse) ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด

ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมืองข้อมูล ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการ จัดการฐานข้อมูล ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจาก หลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง

ลักษณะเฉพาะของข้อมูลที่ใช้ทำเหมืองข้อมูล (ต่อ) ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลง ตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึก ฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึง ต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสม

ข้อมูลที่ใช้ทำ Data mining มาจากไหน? ข้อมูลแบ่งตามที่มา ภายในบริษัท/องค์กร ข้อมูลการซื้อขาย ข้อมูลประวัติลูกค้า ข้อมูลประวัติพนักงาน ภายนอกบริษัท/องค์กร ข้อมูลจาก social media ต่างๆ ข้อมูลข่าวต่างๆ ข้อมูลรูปภาพและเสียง ที่มา: http://www.ibmbigdatahub.com/infographic/where-does-big-data-come

ประเภทของข้อมูลที่สามารถทำ Data Mining Relational databases เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยใน แต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย Entity Relationship Model 6

ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Relational databases ตารางที่ 1 ตัวอย่างตารางข้อมูลนิสิตขั้นต้น ตารางที่ 2 ตัวอย่างข้อมูลการลงทะเบียนของนิสิต

ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ใน รูปแบบเดียวกันและรวบรวมไว้ในที่ๆ เดียวกัน

ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Data Warehouses ที่มา : http://www.persysinc.com/persys_database_datawarehouse.aspx

ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Transactional databases ประกอบด้วยข้อมูลที่แต่ละทรานเเซกชันแทนด้วย เหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูปชื่อลูกค้าและรายการสินค้าที่ลูกค้าราย ซื้อ

ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Transactional databases ใบเสร็จรับเงิน

ประเภทของข้อมูลที่สามารถทำ Data Mining (ต่อ) Advanced database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น ข้อมูลแบบ Object oriented ข้อมูลที่เป็น Text file ข้อมูลมัลติมีเดีย ข้อมูลในรูปของ Web Site

ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและ ขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมี ความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัว อย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่าน บาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการ ตัดสินใจ ( Decision Support System) เพื่อเป็นการ ง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการ ตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจาก ระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้น ความรู้

ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม (ต่อ) ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึง จำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดย เครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ

ปัจจัยที่ทำให้การทำเหมืองข้อมูลเป็นที่ได้รับความนิยม (ต่อ) การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกร รมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็น อย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ใน ฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อ การตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็น ได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลย ทีเดียว

ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจการขายและการตลาด (Retail & Marketing) ใช้วิเคราะห์รูปแบบพฤติกรรมการซื้อสินค้าของลูกค้า ใช้หาความสัมพันธ์ของ Customer Demographic Characteristic ว่าส่งผลต่อยอดซื้อไหม หาความสัมพันธ์ของสินค้าที่ลูกค้าซื้อ เช่น ซื้ออะไร ก่อนหลังบ้าง ใช้ในการทำนายความเป็นไปได้ที่ลูกค้าประเภทไหน จะตอบกลับ Mail โฆษณาสินค้าเพื่อที่จะได้วางแผน ส่งข้อมูลโปรโมชั่นในการขายได้ตรงจุดมากขึ้น การวิเคราะห์ Market Trend

ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจธนาคาร (Banking) ใช้วิเคราะห์รูปแบบการโกงของลูกค้าในการใช้บัตร เครดิต เพื่อที่ว่าจะได้ป้องกันก่อนแต่เนิ่นๆ วิเคราะห์เพื่อแบ่งแยกหาลูกค้าที่มีเครดิตดี หรือ ไม่ดี และ พฤติกรรมการใช้จ่ายเงินผ่านบัตรของแต่ละกลุ่ม ว่าเป็นอย่างไร วิเคราะห์กลุ่มของการใช้บัตรเครดิต ช่วยวิเคราะห์หา Correlation ระหว่าง Financial Indicators ต่างๆ

ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจประกันภัย ใช้วิเคราะห์พฤติกรรมการร้องเรียน (Claim Analysis) ของลูกค้า ใช้หารูปแบบโมเดลของลูกค้าที่น่าจะนโยบายหรือ กรมธรรม์ใหม่ของธุรกิจ ใช้หารูปแบบพฤติกรรมของลูกค้าที่จัดอยู่ในกลุ่มเสี่ยง ต่อธุรกิจ

ตัวอย่างการนำเหมืองข้อมูลมาใช้งาน ธุรกิจด้านยา โรงพยาบาล คลินิก ใช้วิเคราะห์หาพฤติกรรมของคนไข้ที่น่าจะมีโอกาสมา หาหมอ หรือมาโรงพยาบาล ใช้วิเคราะห์หาวิธีการหรือยาบำบัดรักษาโรคที่ดีที่สุด สำหรับอาการและความเจ็บป่วยแต่ละประเภท ใช้วิเคราะห์หาความสัมพันธ์ระหว่างอาการของผู้ป่วย กับการทำนายโรคที่น่าจะเกิดขึ้น

ประโยชน์ของเหมืองข้อมูล การทำเหมืองข้อมูล จำเป็นต้องอาศัยบุคลากรจาก หลายฝ่าย และต้องอาศัยความรู้จำนวนมาก ถึงจะ ได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จาก ขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะ นำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลย ก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้ รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจ ถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำ เหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง

Exercises: อยากทราบว่าสาขาไหนมียอดขายมากที่สุดและน้อย ที่สุด 10 อันดับแรก อยากทราบพฤติกรรมของลูกค้าที่มีแนวโน้มจะยกเลิก การใช้บัตรเครดิต อยากทราบปริมาณน้ำฝนที่จะตกในปีหน้า อยากทราบคุณลักษณะของนักเรียนที่เหมาะสมที่จะ ศึกษาในมหาวิทยาลัย อยากได้ระบบที่จะช่วยแนะนำแอพพลิเคชั่นที่ผู้ใช้ มักจะดาวน์โหลดร่วมกันบ่อยๆ

The end Q & A