คลังข้อมูล (Data Warehouse) Chapter 7 คลังข้อมูล (Data Warehouse) วิชา MIS อ. สุรินทร์ทิพ ศักดิ์ภูวดล ปีการศึกษา 2553
คลังข้อมูล (Data Warehouse) หมายถึง ฐานข้อมูลที่จัดเก็บข้อมูลที่ได้มาจากการสกัดข้อมูล(Extract) จากฐานข้อมูลอื่น ซึงอาจมีโครงสร้างแตกต่างกัน หรืออยู่บนระบบปฎิบัติการแตกต่างกันได้ เพื่อประโยชน์ในการวิเคราะห์และตัดสินใจเชิงธุรกิจ คลังข้อมูล หมายถึง ฐานข้อมูลขนาดใหญ่ขององค์กร ซึ่ง Extract ข้อมูลที่มาจากฐานข้อมูลระบบงานประจำวัน หรือเรียกอีกอย่างว่า operational database และฐานข้อมูลอื่นภายนอกองค์กร หรือเรียกว่า external database โดยข้อมูลในคลังข้อมูลจะถูกนำมาใช้เพื่อสนับสนุนการตัดสินใจบริหารงานของผู้บริหาร โดยเฉพาะการเป็นข้อมูลพื้นฐานให้กับระบบงาน เพื่อการบริหารงานอื่น เช่น ระบบ DSS หรือ MIS เป็นต้น
Components of a data warehouse
Data warehouse ESS MIS DSS Decision & Strategy Making Process Integration & Data Warehousing Consolidated Data Admin Student Affairs Library Transaction Processing HR Payroll Finance Students
คุณสมบัติของ Data warehouse Subject-Oriented ข้อมูลจะต้องถูกสร้างขึ้นจากหัวข้อ (subject) ธุรกิจที่สนใจ เช่น ถ้าบริษัทประกันภัยต้องการใช้คลังข้อมูล ฐานข้อมูลที่ได้จะต้องสร้างขึ้นจากประวัติลูกค้า, เบี้ยประกัน และการเรียกร้องแทนที่จะแยกตามชนิดของผลิตภัณฑ์ หรือบริการประกันภัย/ประกันชีวิต ข้อมูลที่สร้างขึ้นจะประกอบด้วยหัวข้อที่เก็บเฉพาะข่าวสารที่จำเป็น สำหรับกระบวนการตัดสินเท่านั้น Integrated คือการรวบรวมข้อมูลจากหลายฐานข้อมูลปฏิบัติการเข้าด้วยกัน และทำให้ข้อมูลมีมาตราฐานเดียวกัน เช่นกำหนดให้มีค่าตัวแปรของข้อมูลในเนื้อหาเดียวกันให้เป็นแบบเดียวกันทั้งหมด Time-variant ข้อมูลซึ่งใช้ตัดสินใจที่เก็บไว้จะต้องมีอายุประมาณ 5 ถึง 10 ปี เพื่อใช้เปรียบเทียบ หาแนวโน้ม และทำนายผลลัพธ์ในอนาคตได้ Non-volatile ข้อมูลจะไม่อัพเดตหรือถูกทำให้เปลี่ยนแปลงง่ายๆ ข้อมูลที่จัดเก็บภายในคลังข้อมูล จะไม่ถูกแก้ไข แต่จะถูกเพิ่มข้อมูลใหม่ต่อท้าย โดยไม่ทำการแทนที่ข้อมูลเดิม
OLTP (Online Transaction Processing) เป็นการจัดการข้อมูลรายวัน มีการ เพิ่ม ลบ แก้ไขข้อมูลได้ตลอดเวลา ในองค์กรมีผู้ใช้เป็นจำนวนมาก มักมีการแก้ไขข้อมูลพร้อมๆกันอยู่ตลอดเวลา
Operational เปรียบเทียบกับ Data warehouse Topic/Function Operational (OLTP) Data Warehouse การเก็บข้อมูล ข้อมูลจะมีการเก็บกระจัดกระจายอยู่หลายที่ ข้อมูลจะถูกเก็บเป็นระเบียบ มีข้อมูลสรุปผล (Summary) ข้อมูลสำหรับการคำนวณต่างๆ และข้อมูลรายละเอียดตามความต้องการ นั่นคือจะเก็บข้อมูลที่ระดับต่ำสุดของ transactional detail หรือหลาย ๆ ระดับของบทสรุปข้อมูล องค์ประกอบข้อมูล Application by Application การรวมข้อมูลทั้งหมดในองค์กร การจัดเก็บและช่วงเวลา เก็บข้อมูลปัจจุบัน และข้อมูลอดีตย้อนหลังไม่นาน เก็บข้อมูล อดีตย้อนหลังเป็นเวลาหลายปี ลักษณะของข้อมูล Dynamic Static และมีการ refreshed เป็นรอบๆ
Operational เปรียบเทียบกับ Data warehouse Topic/Function Operational (OLTP) Data Warehouse การ Normalization จำเป็นต้อง Normalization ไม่ต้องทำ Normalization การแก้ไขข้อมูล เป็นการแก้ไข field ต่อ field ไม่ให้มีการแก้ไขข้อมูลโดยตรง การใช้ประโยชน์ รวดเร็วมีโครงสร้างเพื่อการทำซ้ำหลายๆครั้ง รวดเร็ว มีโครงสร้างเหมาะสำหรับการวิเคราะห์ http://sot.swu.ac.th/cp342/lesson15/ms2t1.htm http://www2.cs.science.cmu.ac.th/useminar/2543/dataware/Design.htm
Data Mart Data Mart คือ คลังข้อมูลขนาดเล็ก เพื่อเก็บไว้ใช้เป็นคลังข้อมูลสำหรับบางส่วนขององค์กร Data Mart จึงเป็นเสมือนส่วนหนึ่งของคลังข้อมูลที่เน้นเฉพาะข้อมูลสำหรับวัตถุประสงค์บางอย่าง และมักจะถูกเก็บแยกไว้ในส่วนขององค์กรที่ต้องการใช้ข้อมูลนี้เท่านั้น เช่น Data mart สำหรับฝ่ายขาย และการตลาด เพื่อใช้เป็นข้อมูลสำหรับบริการลูกค้าแตเพียงผู้เดียว Data Mart ในบางครั้งการใช้งานคลังข้อมูลโดยตรงอาจทำไม่สะดวก และเกินความจำเป็น (สำหรับงานที่ต้องใช้เพียงข้อมูลของตัวเองเท่านั้น) ดังนั้น การแยกข้อมูล Data Warehouse ที่ตรงกับการทำงานของแต่ละแผนกออกมา จึงต้องทำ Data Mart เพื่อจำกัดขอบเขตเฉพาะแต่ละฟังก์ชัน
แสดงความสัมพันธ์ระหว่างคลังข้อมูล, Data Mart และผู้ใช้ การบริหารจัดการ การเงิน การผลิต Data Warehouse การตลาด การขาย การบัญชี การบริหารงานบุคคล แสดงความสัมพันธ์ระหว่างคลังข้อมูล, Data Mart และผู้ใช้
ลักษณะโดยทั่วไปของ Data Mart มีดังนี้ ข้อมูลเจาะจงไปยังฟังก์ชันเฉพาะกลุ่ม หรือหน่วยงานภายในขององค์กร ให้ผลตอบแทนที่รวดเร็ว คุ้มค่ากับการลงทุนในด้านเวลา การบริหาร และจัดการข้อมูลสามารถทำได้ง่าย ช่วยเพิ่มประสิทธิภาพ เนื่องจากการสอบถามข้อมูล(Query) ถูกแบ่งไปยังข้อมูลแต่ละส่วนของฟังก์ชัน
Online Analytical Processing : OLAP การประมวลผลเชิงวิเคราะห์แบบออนไลน์ เป็นการวิเคราะห์ข้อมูลจำนวนมากที่จัดเก็บอยู่ในฐานข้อมูล Data Mart, Data Warehouse คือเทคโนโลยี ที่ใช้ดึงข้อมูลจาก Data Warehouse เพื่อนำไปวิเคราะห์และหาคำตอบที่ต้องการได้อย่างมีประสิทธิภาพ ช่วยในการตัดสินใจทางธุรกิจอย่างมีประสิทธิภาพ ค้นหาข้อมูลรวดเร็ว หาผลรวมได้ง่าย และมีประสิทธิภาพ เรียก ดูข้อมูลได้อย่างรวดเร็ว
Online Analytical Processing : OLAP OLAP เป็นการวิเคราะห์ข้อมูลแบบหลายมิติ (Multidimensional data analysis) องค์กรอาจใช้ Software วิเคราะห์ข้อมูลหลายมิติ หรือเครื่องมือสำหรับการสร้างข้อมูลหลายมิติโดยตรงจากระบบฐานข้อมูลเชิงสัมพันธ์ แต่ละมิติของข้อมูล เช่น สินค้า ราคา ค่าใช้จ่าย เขตการขาย หรือช่วงระยะเวลา สามารถแสดงให้เห็นแนวโน้มของข้อมูลในแต่ละมิติเหล่านั้น ตัวอย่างรูปแบบการแสดงผลการวิเคราะห์แบบหลายมิติที่เปรียบเทียบ สินค้า เขตการขาย ยอดขายจริง และยอดขายที่คาดเดา
Online Analytical Processing : OLAP
Software ที่ใช้ทำ OLAP Oracle OLAP IBM DB2 OLAP Server Microsoft SQL Server Analysis Services OlapCube
เหมืองข้อมูล (Data mining) หมายถึง Software ที่ใช้ในการค้นหารูปแบบที่ซ่อนอยู่ และความสัมพันธ์ระหว่างข้อมูล และกฏเกณฑ์สำหรับการอ้างอิงในฐานข้อมูลขนาดใหญ่มาก สิ่งที่ได้รับคือการคาดเดาที่มีผลต่อข้อมุลที่จะเกิดขึ้นในอนาคตซึ่งสามารถนำไปใช้ในการตัดสินใจของผู้บริหารได้
ผลประโยชน์ที่องค์ธุรกิจได้รับจากการทำเหมืองข้อมูล องค์กร การนำเหมืองข้อมูลไปใช้ ShopKo Stores ใช้เหมืองข้อมูลค้นหาความสัมพันธ์ระหว่าง “เหตุ-และ-ผลกระทบ” ระหว่างสินค้าที่มีขายในร้านและนิสัยการซื้อสินค้าของลูกค้า Northstrom ใช้เทคนิคเหมืองข้อมูลวิเคราะห์ข้อมูลที่ตอบสนองความต้องการของผู้ใช้ในเว็บไซท์เพื่อปรับปรุงวิธีการโฆษณาและการให้บริการแก่ลูกค้า KeyCorp. ใช้เทคนิคเหมืองข้อมูลกับสินค้าในครัวเรือน 3.3 ล้านชิ้นและผู้ใช้ 7 ล้านคนในคลังข้อมูลเพื่อค้นหาระยะเวลาในการตอบสนองของลูกค้าต่อสินค้าที่โฆษณาด้วยการส่งจดหมายไปยังลูกค้าโดยตรง จะได้ทราบว่าสินค้าใดที่ไม่คุ้มค่ากับการตลาดนี้ Verizon Wireless วิเคราะห์ข้อมูลลูกค้าของบริษัทเพื่อค้นหาลูกค้าใหม่และให้บริการหลังการขาย รวมทั้งให้ข้อเสนอแนะแก่ลูกค้าที่ควรเปลี่ยนแผนการโปรโมทไปใช้บริการชนิดอื่น
ซอฟต์แวร์ในระดับ Data Mining SAS Enterprise Miner DBMiner Weka – A suite of machine learning software written in the Java language. Microsoft Analysis Services – data mining software provided by Microsoft. http://lbdwww.epfl.ch/f/teaching/courses/TPsIBD/DBMinerTutorial.pdf
ประจำภาคการศึกษาที่ 1 ปีการศึกษา 2554 เรียนวันที่ 4/1/2554