Data Mining การทำเหมืองข้อมูล
Data Mining คือ Data Mining คือขบวนการทำงานที่เรียกว่า process ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large Information) เพื่อให้ได้สารสนเทศ (Usefull Information) ที่เรายังไม่รู้ (Unknown data) โดยเป็นสารสนเทศที่มีเหตุผล (Valid) และสามารถนำไปใช้ได้ (Actionable) ซึ่งเป็นสิ่งสำคัญในการที่จะช่วยการตัดสินใจในการทำธุรกิจ Data Mininig เป็นโปรเซสที่สำคัญในการทำ Knowledge Discovery in Database ที่เราเรียกสั้นๆว่า KDD
กระบวนการทำ Data Mining 1. การคัดเลือกข้อมูล (Data Selection) เป็นการระบุถึงแหล่งข้อมูลที่จะนำมาใช้ในการทำ mining รวมถึง การนำข้อมูลที่ต้องการออกมาจากฐานข้อมูลเพื่อทำการพิจารณาในเบื้องต้นต่อไป 2. การกรองข้อมูล (Data Cleaning) เป็นกระบวนการที่ทำให้เกิดความมั่นใจในคุณภาพของข้อมูลที่จะนำมาใช้ วิเคราะห์ ว่าถูกต้อง โดยการนำข้อมูลทีี่ไม่ถูกต้องออก
กระบวนการทำ Data Mining (ต่อ) การแปลงรูปแบบข้อมูล (Data Transformation) เป็นการแปลงข้อมูลที่เลือกมาให้อยู่ในรูปแบบที่เหมาะสม สำหรับการนำไปใช้วิเคราะห์ตามอัลกอริทึม (Algorithm) และแบบจำลองที่ใช้ในการทำ data mining ต่อไป 4. การทำ Mining ข้อมูล (Data Mining) การใช้เทคนิคภายใน Data Mining เพื่อทำการ Mine ข้อมูล โดยทั่วไป ประเภทของงานตามลักษณะของแบบจำลองที่ใช้ในการทำ Data Mining นั้นสามารถแบ่งกลุ่มได้เป็น 2 ประเภทใหญ่ๆ คือ 4.1 Predictive Data Mining คือ เป็นการคาดคะเนลักษณะหรือประมาณค่าที่ชัดเจนของข้อมูลที่จะเกิดขึ้น โดยใช้พื้นฐานจากข้อมูลที่ผ่านมาในอดีต 4.2 Descriptive Data Mining คือ เป็นการหาแบบจำลองเพื่ออธิบายลักษณะบางอย่างของข้อมูลที่มีอยู่ ซึ่งโดยส่วนมากจะเป็นลักษณะการแบ่งกลุ่มให้กับข้อมูล
กระบวนการทำ Data Mining (ต่อ) 5. การวิเคราะห์และประเมินผลลัพธ์ที่ได้ (Result Analysis and Evaluation) เป็นขั้นตอนการแปลความหมาย และการประเมินผลลัพธ์ที่ได้ว่ามีความเหมาะสมหรือตรงกับวัตถุประสงค์ที่ต้องการหรือไม่ โดยทั่วไปควรมีการแสดงผลในรูป แบบ ที่สามารถเข้าใจได้โดยง่าย
กระบวนการทำ Data Mining
Data Mining 1.ในบริษัทขนาดกลางถึงขนาดเล็ก ขบวนการทำ data mining โดยทั่วไปจะเริ่มจาการตั้งสมมุติฐานทางธุรกิจตามความรู้และความเข้าใจของ user ที่มีต่อธุรกิจ 3. หลังจากตรวจสอบแก้ไขสมมติฐานในขั้นสุดท้ายแล้ว user ก็ตัดสินใจ Data Business hypothesis Business modeling (using data mining software) Data mining (analysis) Validation of hypothesis Decision Business knowledge 2. ใช้ระบบ data mining tools โดย user สร้าง model แล้วกลั่นกรองสมมติฐาน ตามด้วยการวิเคราะห์ ซึ่งขบวนการนี้อาจจะต้องมีการทำซ้ำหลาย ๆ ครั้ง
Knowledge Discovery in Databases Knowledge Discovery in Databases คือ การสืบค้นความรู้ที่เป็นประโยชน์และน่าสนใจบนฐานข้อมูลขนาดใหญ่ หรือเรียกว่า Data Minig ซึ่งเป็นสาขาหนึ่งในวิทยาศาสตร์คอมพิวเตอร์ที่กำลังได้รับความสนใจอย่างสูงในปัจจุบัน โดยเป็นเทคนิคที่ใช้จัดการกับข้อมูลขนาดใหญ่ ซึ่งข้อมูลที่มีอยู่จะถูกนำมาวิเคราะห์และสืบค้น แล้วดึงความรู้ หรือสิ่งที่สำคัญออกมา จากนั้นจะรวบรวมความรู้ที่ได้ให้อยู่ในรูปฐานความรู้ (Knowledge Base) เพื่อใช้ในการวิเคราะห์หรือทำนายสิ่งต่างๆที่จะเกิดขึ้น (กฤษณะ ไวยมัยและคณะ,2544)
ตัวอย่างการประยุกต์ใช้งาน Data mining เป็นที่นิยมในผู้ขายปลีกเพราะสามารถช่วยพวกเขาในการจัดการทั้งอินพุตได้อย่างมีประสิทธิภาพมากขึ้น ทำให้ระบบทุกอย่างลงตัวที่สุด ซึ่งโดยปกติแล้วโปรเจ็ก mining ของผู้ขายรายย่อยจะประกอบด้วย large-scale market-basket analysis, store clustering, sequential patterns และ numeric predictions
ตัวอย่างการประยุกต์ใช้ Data Minnig ร้านค้าปลีก: ผลิตภัณฑ์ใดที่ควรมีอยู่ในสต๊อกของเพื่อสร้างความพอใจให้กับผู้ซื้อในท้องถิ่นนั้น? บริษัทขายอุปกรณ์รายใหญ่จำเป็นต้องสต๊อกสินค้านับพันในหลายร้อยกลุ่มเอาไว้ในร้านค้านับพันสาขา แต่ไอเท็มใดควรจะอยู่ในร้านใดบ้างยังไม่ทรายแน่ชัด บริษัทขายอุปกรณ์รายใหญ่นี้จึงหันมาใช้ DB2 data mining ของIBM เพื่อจัดกลุ่มร้านค้าให้อยู่ในกลุ่มเดียวกัน โดยใช้ procedure ที่ชื่อว่า “store profiling” ซึ่งกลุ่มร้านค้าจะสรุปตาม planograms(การวางสินค้า) ที่เหมือนกัน และรูปแบบร้านค้า ผลคือเราได้รับคำตอบที่น่าแปลกใจมาก ผู้ขายปลีกรายหนึ่งได้ใช้สภาพอากาศเพื่อจัดกลุ่มร้านค้า และพบว่าสภาพอากาศนั้นไม่สำคัญเมื่อเทียบรายได้ครัวเรือนที่ประมาณไว้สูง สำหรับลูกค้าที่ซื้อสิ่งของที่ร้านค้าเหล่านั้น ผู้ขายปลีกอื่น ก็มีการจัดประเภทโดยเริ่มแรกตามขนาดของเมืองซึ่งร้านค้านั้นตั้งอยู่ ผู้ขายปลีกพบว่าลูกค้าในเมืองเล็กต้องการรายการสิ่งของที่เป็น high-margin ซึ่งเป้าหมายที่ผู้ซื้อที่มีรายได้สูง เมื่อร้านขายปลีกท้องถิ่นเสนอส่วนใหญ่ที่รายการสิ่งของที่เป็น low-margin การปฏิรูปร้านค้าให้ได้ผลกำไรที่มากขึ้นนั้นเพียงพอที่ใช้จ่ายสำหรับ data warehouse ภายในหนึ่งปี