คลังข้อมูล (Data Warehouse) วิชา DSS อ. สุรินทร์ทิพ ศักดิ์ภูวดล เทอม 2 ปีการศึกษา 2561
Data warehouse A data warehouse is a database that stores current and historical data of potential interest to decision makers throughout the company. The data originate in many core operational transaction systems, such as systems for sales, customer accounts, and manufacturing, and may include data from Web site transactions. The data warehouse consolidates and standardizes information from different operational databases so that the information can be used for management analysis and decision making.
Data warehouse คลังข้อมูล (data warehouse) เป็นฐานข้อมูลที่จัดเก็บข้อมูลปัจจุบันและข้อมูลในอดีต ที่น่าสนใจแก่ผู้มีอำนาจตัดสินใจทั่วทั้งบริษัท ข้อมูลมาจากระบบธุรกรรมหลักในการดำเนินงาน เช่นระบบการขาย ระบบบัญชีลูกค้า และระบบการผลิต และอาจรวมถึงข้อมูลจากการทำธุรกรรมบนเว็บไซต์ (Web site transactions) คลังข้อมูลรวบรวมข้อมูล และสร้างมาตรฐานข้อมูลที่มาจากฐานข้อมูลการปฏิบัติงาน (Operational databases) ที่แตกต่างกัน เพื่อให้ข้อมูลสามารถใช้สำหรับการวิเคราะห์การจัดการและการตัดสินใจ
Data warehouse คลังข้อมูล หมายถึง ฐานข้อมูลที่จัดเก็บข้อมูลที่ได้มาจากการสกัดข้อมูล(Extract) จากฐานข้อมูลอื่น ซึ่งอาจมีโครงสร้างแตกต่างกัน หรืออยู่บนระบบปฎิบัติการแตกต่างกันได้ เพื่อประโยชน์ในการวิเคราะห์และตัดสินใจเชิงธุรกิจ คลังข้อมูล หมายถึง ฐานข้อมูลขนาดใหญ่ขององค์กร ที่ได้มาจากการสกัดข้อมูล (Extract) ที่มาจากฐานข้อมูลระบบงานประจำวัน หรือเรียกอีกอย่างว่า Operational database และฐานข้อมูลอื่นภายนอกองค์กร หรือเรียกว่า External database โดยข้อมูลในคลังข้อมูลจะถูกนำมาใช้เพื่อสนับสนุนการตัดสินใจบริหารงานของผู้บริหาร โดยเฉพาะการเป็นข้อมูลพื้นฐานให้กับระบบงาน เพื่อการบริหารงานอื่น เช่น ระบบ DSS หรือ MIS เป็นต้น
คลังข้อมูล (Data Warehouse) : การวิเคราะห์ข้อมูลในคลังข้อมูล (ช่วงเวลา) ผล แหล่งข้อมูลเพื่อ การปฏิบัติงาน Report Generator รายงาน ข้อมูล ข้อมูล การใช้งาน Data Mining Tools ผล Data Warehouse ข้อมูล การใช้งาน ผู้ใช้งาน แหล่งข้อมูลเพื่อ การวิเคราะห์ OLAP Generator ข้อมูล ผล OLAP คลังข้อมูล ช่วงเวลาที่องค์กรไม่ได้ปฏิบัติงาน ช่วงเวลาที่องค์กรปฏิบัติงาน
คลังข้อมูล (Data Warehouse) : สถาปัตยกรรมของคลังข้อมูล (1/2) Data Provisioning Area หรือ Data Mart Data Data Staging Area Data Data Warehouse Database Data Data Data Acquisition System Metadata Metadata Metadata Terminal Metadata Metadata Repository
คลังข้อมูล (Data Warehouse) : สถาปัตยกรรมของคลังข้อมูล (2/2) Data Acquisition System : ทำหน้าที่รับข้อมูลจากภายใน/นอกองค์กร มีการตรวจสอบความถูกต้อง (Validation) เบื้องต้น Data Staging Area : ทำหน้าที่ Cleansing & Filtering เลือกเฉพาะข้อมูลที่เป็นประโยชน์ ( Filtering), แปลงข้อมูล และ ตรวจสอบความถูกต้อง ก่อนจะโหลดเข้าสู่ Data Warehouse Database Data Warehouse Database : บันทึกข้อมูลต่าง ๆ ที่จำเป็นสำหรับการวิเคราะห์ข้อมูลขององค์กร Data Provisioning Area หรือ Data Mart : เหมือน Data Warehouse Database แต่ขอบเขตเนื้อหาข้อมูลจะแคบกว่า คือ เพื่อกลุ่มงานใดกลุ่มงานหนึ่ง End Users Terminal : นำเสนอผลลัพธ์ออกจากหน้าจอ โดยจะใช้เครื่องมือหรือระบบที่ทำหน้าที่ออกรายงาน เช่น Simple Reporting Tools, Multi-Dimensional Tools หรือ Data Mining Tools ก็ได้ Metadata Repository : เป็นพื้นที่สำหรับเก็บข้อมูลต่าง ๆ ที่จำเป็นสำหรับควบคุมการทำงานและควบคุมข้อมูลในคลังข้อมูล เช่น คำนิยามของข้อมูลใน Data Warehouse Database
Metadata Repository Meta data คือ Data about data ตย. เช่น ข้อมูล Table Customer ใครสามารถแก้ไข บันทึกข้อมูลได้บ้าง ดังนั้นจะต้องระบุการเข้าถึงข้อมูลลงไป เช่น Admin สามารถ (Add, Update, Delete) ข้อมูลได้ นอกจากนี้ ยังเก็บข้อมูลอธิบายลักษณะข้อมูลที่จัดเก็บในแต่ละ Table ว่ามีลักษณะอย่างไร ตย. เช่น Table Sales ใน Database Design ข้อมูล Customer Name (ชื่อลูกค้าที่ซื้อสินค้า) คุณสมบัติเป็น Character (100) ข้อมูล Total Sale (จำนวนเงินจากการขาย) คุณสมบัติเป็น Double รัฐสิทธิ์ 52, 97
Data warehouse ส่วนประกอบของ Data warehouse แบบไม่ละเอียด คร่าวๆ
Data warehouse ส่วนประกอบของ Data warehouse แบบละเอียด (1/2) Data Acquisition Cleansing and Filtering Operational data Internal Data Sources Historical data Staging Databse Data Warehouse Extract Transform Load ETL Operational data Extract Transform Load ETL Historical data External Data Sources External data External data Extract การสกัดข้อมูล เป็นเลือกข้อมูลที่ดี และข้อมูลตามต้องการ Transform การแปลงรูปแบบข้อมูล ให้อยู่รูปแบบที่ต้องการ เช่น แปลงข้อมูลเงินจาก 50 เป็น 50.00 Load การนำข้อมูลที่แปลงรูปแบบ แล้วนำไปเก็บยัง ฐานข้อมูลปลายทาง DW, P10, P56, P156,
Data warehouse ส่วนประกอบของ Data warehouse แบบละเอียด (2/2) (ต่อ) Business Intelligence (BI) Data Mart End User Data Warehouse Extract Transform Load (ETL) Data Mart Data Mart เลือกใช้แบบจำลอง (Model) ต่างๆ DW, P10, P56, P156, MIS P 254
คำอธิบายส่วนประกอบของ Data warehouse แบบละเอียด (1/5) Data Acquisition System : ทำหน้าที่รับข้อมูลจากภายใน/นอกองค์กร มีการตรวจสอบความถูกต้องของข้อมูลเบื้องต้น (Validation) เช่น ขนาดข้อมูลอายุคน ประเภทข้อมูลต้องเป็นตัวเลข ไม่เกิน 180 ปี ข้อมูลจะถูกดึง (Extract) จากฐานข้อมูลปฏิบัติงาน ขั้นตอนต่อมาจะมีการปรับเปลี่ยนรูปแบบข้อมูล (Transform) และหลังจากนั้นข้อมูลจะถูกถ่ายเท (Load) ไปยัง Data Staging Area Data Staging Area หรือ Data Staging Database: เป็นบริเวณที่พักข้อมูลซึ่งข้อมูลที่รับมาจากฐานข้อมูลปฏิบัติงาน ใน Data Staging Area นี้ ข้อมูลจะมีการตรวจสอบความถูกต้องอีกครั้งเช่น ตรวจสอบ ความสอดคล้องกัน ความตรงกันของข้อมูล เนื่องจากข้อมูลถูกนำมาจากหลายฐานข้อมูลปฏิบัติงานอาจไม่สอดคล้องกัน เช่น Name แต่ละฐานข้อมูลปฏิบัติงานอาจจัดเก็บต่างกัน หรือไม่มีข้อมูล ดังนั้นเมื่อมารวมกันใน Data Staging Area จึงจำเป็นต้องตรวจสอบข้อมูลจากทุกแหล่ง เพื่อต้องการจัดเก็บในรูปแบบเดียวกันใน Data Staging Area นอกจากนี้ ในส่วนนี้ข้อมูลบางส่วนจะถูกทำการลบทิ้ง หรือแก้ไขให้ถูกต้อง เรียกว่าการทำความสะอาดข้อมูล (Cleansing) หลังจากนั้นข้อมูลจะถูกเลือกเฉพาะข้อมูลที่เป็นประโยชน์ (Filtering) เท่านั้น จากนั้นข้อมูลที่ได้จะถูกทำการ Extract, Transform, Load (ETL) เข้าสู่ Data Warehouse Database
Data Warehouse Database : บันทึกข้อมูลต่าง ๆ ที่จำเป็นสำหรับการวิเคราะห์ข้อมูลขององค์กร ประกอบด้วยข้อมูล 2 ส่วน 1. ข้อมูลปฏิบัติงานเป็นข้อมูลรายละเอียด 2. ข้อมูลเพื่อการวิเคราะห์ OLAP ซึ่งข้อมูลมีการจัดเก็บรูปแบบเฉพาะ มีมิติของข้อมูล ซึ่งการออกแบบฐานข้อมูลของทั้ง 2 ส่วน จะแตกต่างกัน จากนั้นข้อมูลจาก Data Warehouse Database จะถูกถ่ายโอนข้อมูลไปยัง Data Mart โดยใช้กระบวนการ ETL
คำอธิบายส่วนประกอบของ Data warehouse แบบละเอียด (3/5) Data Provisioning Area หรือ Data Mart : ในการทำงานบางครั้งจำเป็นต้องการประมวลผลเฉพาะหัวข้อที่ต้องการ และต้องการความรวดเร็ว หรือเฉพาะข้อมูลแผนกของตนเอง ระบบจำเป็นต้องสร้าง Data Mart ซึ่ง Data Mart Database จะมีลักษณะการออกแบบฐานข้อมูล คล้ายกับ Data Warehouse Database หรืออาจเพิ่มเติมหรือลดขนาดข้อมูลบางส่วน เพื่อให้เหมาะสมกับการใช้งาน โดยรวม Data Mart จะมีขอบเขตเนื้อหาข้อมูลแคบกว่า Data Warehouse คือเพื่อกลุ่มงานใดกลุ่มงานหนึ่ง เช่น Data Mart เฉพาะของแผนกการขายเท่านั้น หลังจากนั้นข้อมูลจาก Data Mart จะถูกดึงไปประมวลผลโดยกระบวนการของ ธุระกิจอัจฉริยะ (Business Intelligence : BI)
Business Intelligence (ธุรกิจอัจฉริยะ) คำอธิบายส่วนประกอบของ Data warehouse แบบละเอียด (4/5) Business Intelligence (ธุรกิจอัจฉริยะ) กระบวนการประมวลผลข้อมูลเพื่อนำผลลัพธ์มาสนับสนุนการตัดสินใจสำหรับผู้ใช้งาน (End User) ประกอบด้วย เครื่องมือหลักๆ ดังนี้ ซอฟต์แวร์ สำหรับ การสอบถามข้อมูล และประมวลผลรายงาน(database query and reporting) เครื่องมือสำหรับการวิเคราะห์ข้อมูลแบบหลายมิติ (Multidimensional data analysis) โดยใช้การประมวลผลเชิงวิเคราะห์แบบออนไลน์ (Online analytical processing : OLAP) เครื่องมือ สำหรับ Data mining
คำอธิบายส่วนประกอบของ Data warehouse แบบละเอียด (5/5) End Users Terminal : นำเสนอผลลัพธ์ออกจากหน้าจอ โดยจะใช้เครื่องมือหรือระบบที่ทำหน้าที่ออกรายงาน หรือวิเคราะห์ข้อมูล จากระบบธุรกิจอัจฉริยะ (BI) เช่น Simple Reporting Tools, OLAP Tools หรือ Data Mining Tools ก็ได้
Data cleansing Data cleansing หรือ data cleaning หมายถึง การทำความสะอาดข้อมูล เพื่อให้ข้อมูลมีคุณภาพและตรงตามความต้องการของระบบ เป็นกระบวนการตรวจสอบข้อมูล ทำการแก้ไขให้ถูกต้องตามความต้องการของระบบ ลบรายการข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตัวอย่างเช่น ระบบที่ต้องการ Data Warehouse ที่ต้องการเก็บข้อมูลวันที่ขาย ยอดขาย เขตการขาย เท่านั้น แต่ไม่ต้องการข้อมูลหมายเหตุการขาย จึงทำการลบข้อมูล Field หมายเหตุ ที่ดึงมาจากฐานข้อมูลปฏิบัติงานออกไป ตัวอย่างเช่น รายการใบเสร็จที่มีการยกเลิกไปแล้วหากองค์กรมองว่าไม่มีประโยชน์ ก็จะถูกลบออกไปทั้งหมดของรายการ ใบเสร็จนั้นๆ ตัวอย่างเช่น ในฐานข้อมูลปฏิบัติงานบางรายการของ 1 ใบเสร็จมีข้อมูลวันที่ขาดหายไป ถือว่ามีข้อมูลไม่ครบถ้วน ข้อมูลของทั้งใบเสร็จนั้นจะถูกลบออกจากข้อมูลที่เตรียมไว้เพื่อจะนำเข้าสู่ Data Warehouseในขั้นตอนต่อไป
การรวบรวมข้อมูลของ Data Warehouse ESS Decision & Strategy Making MIS DSS Process Integration & Data Warehousing Consolidated Data Admin Student Affairs Library Transaction Processing HR Payroll Finance Students
OLTP (Online Transaction Processing) เป็นการจัดการข้อมูลรายวัน มีการ เพิ่มข้อมูล ลบข้อมูล (ลบข้อมูล หรือ ยกเลิกรายการ) แก้ไขข้อมูลได้ตลอดเวลา ในองค์กรมีผู้ใช้เป็นจำนวนมาก มักมีการแก้ไขข้อมูลพร้อมๆกันอยู่ตลอดเวลา
Operational เปรียบเทียบกับ Data warehouse Topic/Function Operational (OLTP) Data Warehouse การเก็บข้อมูล ข้อมูลจะมีการเก็บกระจัดกระจายอยู่หลายที่ ข้อมูลจะถูกเก็บเป็นระเบียบ มีข้อมูลสรุปผล (Summary) ข้อมูลสำหรับการคำนวณต่างๆ และข้อมูลรายละเอียดตามความต้องการ นั่นคือจะเก็บข้อมูลที่ระดับต่ำสุดของ transactional detail หรือหลาย ๆ ระดับของบทสรุปข้อมูล องค์ประกอบข้อมูล Application by Application การรวมข้อมูลทั้งหมดในองค์กร การจัดเก็บและช่วงเวลา เก็บข้อมูลปัจจุบัน และข้อมูลอดีตย้อนหลังไม่นาน เก็บข้อมูลปัจจุบัน และข้อมูลอดีตย้อนหลังเป็นเวลาหลายปี ลักษณะของข้อมูล Dynamic Static และมีการ refreshed เป็นรอบๆ
Operational เปรียบเทียบกับ Data warehouse Topic/Function Operational (OLTP) Data Warehouse การ Normalization จำเป็นต้อง Normalization ไม่ต้องทำ Normalization การแก้ไขข้อมูล เป็นการแก้ไข field ต่อ field ไม่ให้มีการแก้ไขข้อมูลโดยตรง การใช้ประโยชน์ รวดเร็วมีโครงสร้างเพื่อการทำซ้ำหลายๆครั้ง รวดเร็ว มีโครงสร้างเหมาะสำหรับการวิเคราะห์ http://sot.swu.ac.th/cp342/lesson15/ms2t1.htm http://www2.cs.science.cmu.ac.th/useminar/2543/dataware/Design.htm
Data Mart Data Mart คือ คลังข้อมูลขนาดเล็ก เพื่อเก็บไว้ใช้เป็นคลังข้อมูลสำหรับบางส่วนขององค์กร Data Mart จึงเป็นเสมือนส่วนหนึ่งของคลังข้อมูลที่เน้นเฉพาะข้อมูลสำหรับวัตถุประสงค์บางอย่าง และมักจะถูกเก็บแยกไว้ในส่วนขององค์กรที่ต้องการใช้ข้อมูลนี้เท่านั้น เช่น Data mart สำหรับฝ่ายขาย และการตลาด เพื่อใช้เป็นข้อมูลสำหรับบริการลูกค้าแต่เพียงผู้เดียว เนื่องจาก Data warehouse มีขนาดใหญ่มาก จะต้องใช้เวลาในการประมวลผลนาน ในบางครั้งการใช้งานคลังข้อมูลโดยตรงอาจทำไม่สะดวก และเกินความจำเป็น (สำหรับงานที่ต้องใช้เพียงข้อมูลของตัวเองเท่านั้น) ดังนั้น การแยกข้อมูล Data Warehouse ที่ตรงกับการทำงานของแต่ละแผนกออกมา จึงต้องทำ Data Mart เพื่อจำกัดขอบเขตเฉพาะแต่ละฟังก์ชัน โครงสร้าง การออกแบบ ของ Database ใน Data Mart อาจเหมือน หรือแตกต่างบ้างบางส่วนจากใน Data Warehouse เพื่อให้มีความเหมาะสมกับงาน
การบริหารจัดการ การเงิน การผลิต การตลาด การขาย การบัญชี Data mart การบริหารจัดการ การเงิน การผลิต Data Warehouse การตลาด การขาย การบัญชี การบริหารงานบุคคล แสดงความสัมพันธ์ระหว่างคลังข้อมูล, Data Mart ของ การบริหารจัดการ การเงิน การผลิต การตลาด การขาย การบัญชี การบริหารงานบุคคล และผู้ใช้
ลักษณะโดยทั่วไปของ Data Mart มีดังนี้ ข้อมูลเจาะจงไปยังฟังก์ชันเฉพาะกลุ่ม หรือหน่วยงานภายในขององค์กร ให้ผลตอบแทนที่รวดเร็ว คุ้มค่ากับการลงทุนในด้านเวลา การบริหาร และจัดการข้อมูลสามารถทำได้ง่าย ช่วยเพิ่มประสิทธิภาพ เนื่องจากการสอบถามข้อมูล(Query) ถูกแบ่งไปยังข้อมูลแต่ละส่วนของฟังก์ชัน
Online Analytical Processing : OLAP การประมวลผลเชิงวิเคราะห์แบบออนไลน์ เป็นการวิเคราะห์ข้อมูลจำนวนมากที่จัดเก็บอยู่ในฐานข้อมูล Data Mart, Data Warehouse คือเทคโนโลยี ที่ใช้ดึงข้อมูลจาก Data Warehouse เพื่อนำไปวิเคราะห์และหาคำตอบที่ต้องการได้อย่างมีประสิทธิภาพ ช่วยในการตัดสินใจทางธุรกิจอย่างมีประสิทธิภาพ ค้นหาข้อมูลรวดเร็ว หาผลรวมได้ง่าย และมีประสิทธิภาพ เรียก ดูข้อมูลได้อย่างรวดเร็ว
Online Analytical Processing : OLAP OLAP เป็นการวิเคราะห์ข้อมูลแบบหลายมิติ (Multidimensional data analysis) องค์กรอาจใช้ Software วิเคราะห์ข้อมูลหลายมิติ หรือเครื่องมือสำหรับการสร้างข้อมูลหลายมิติโดยตรงจากระบบฐานข้อมูลเชิงสัมพันธ์ แต่ละมิติของข้อมูล เช่น สินค้า ราคา ค่าใช้จ่าย เขตการขาย หรือช่วงระยะเวลา สามารถแสดงให้เห็นแนวโน้มของข้อมูลในแต่ละมิติเหล่านั้น ตัวอย่างรูปแบบการแสดงผลการวิเคราะห์แบบหลายมิติที่เปรียบเทียบ สินค้า เขตการขาย ยอดขายจริง และยอดขายที่คาดเดา
Online Analytical Processing : OLAP
Software ที่ใช้ทำ OLAP Oracle OLAP IBM DB2 OLAP Server Microsoft SQL Server Analysis Services OlapCube Power BI Penthaho
เหมืองข้อมูล (Data mining) หมายถึง Software หรือ วิธีการ ที่ใช้ในการค้นหารูปแบบที่ซ่อนอยู่ และความสัมพันธ์ระหว่างข้อมูล และกฏเกณฑ์สำหรับการอ้างอิงในฐานข้อมูลขนาดใหญ่มาก สิ่งที่ได้รับคือการคาดเดาที่มีผลต่อข้อมูลที่จะเกิดขึ้นในอนาคตซึ่งสามารถนำไปใช้ในการตัดสินใจของผู้บริหารได้ MIS Laudon, P185
การประมวลผล แบบต่างๆ ของงาน Data Mining Classification [Predictive] สร้าง model ที่เกิดจากการเรียนรู้ โดยมีการกำหนดกลุ่มไว้ เช่น ดี , ไม่ดี และสามารถนำ model นั้นไปใช้ทำนาย เช่น SVM, Naive Bayes, Decision Trees, Artificial Neural Networks (ANN) Clustering [Descriptive] เป็นการจัดกลุ่ม เช่น k-means, DBSCAN Association Rule Discovery [Descriptive] เป็นการค้นหากฏความสัมพันธ์ของข้อมูล เช่น Apriori, FP-growth Regression Analysis [Predictive] การวิเคราะห์การถดถอย Others https://en.wikipedia.org/wiki/Category:Classification_algorithms
ผลประโยชน์ที่องค์ธุรกิจได้รับจากการทำเหมืองข้อมูล องค์กร การนำเหมืองข้อมูลไปใช้ ShopKo Stores ใช้เหมืองข้อมูลค้นหาความสัมพันธ์ระหว่าง “เหตุ-และ-ผลกระทบ” ระหว่างสินค้าที่มีขายในร้านและนิสัยการซื้อสินค้าของลูกค้า Northstrom ใช้เทคนิคเหมืองข้อมูลวิเคราะห์ข้อมูลที่ตอบสนองความต้องการของผู้ใช้ในเว็บไซท์เพื่อปรับปรุงวิธีการโฆษณาและการให้บริการแก่ลูกค้า KeyCorp. ใช้เทคนิคเหมืองข้อมูลกับสินค้าในครัวเรือน 3.3 ล้านชิ้นและผู้ใช้ 7 ล้านคนในคลังข้อมูลเพื่อค้นหาระยะเวลาในการตอบสนองของลูกค้าต่อสินค้าที่โฆษณาด้วยการส่งจดหมายไปยังลูกค้าโดยตรง จะได้ทราบว่าสินค้าใดที่ไม่คุ้มค่ากับการตลาดนี้ Verizon Wireless วิเคราะห์ข้อมูลลูกค้าของบริษัทเพื่อค้นหาลูกค้าใหม่และให้บริการหลังการขาย รวมทั้งให้ข้อเสนอแนะแก่ลูกค้าที่ควรเปลี่ยนแผนการโปรโมทไปใช้บริการชนิดอื่น
ซอฟต์แวร์ในระดับ Data Mining SAS Enterprise Miner DBMiner WEKA RapidMiner http://lbdwww.epfl.ch/f/teaching/courses/TPsIBD/DBMinerTutorial.pdf
Reference ระบบสารสนเทศเพื่อการจัดการ (Laudon) สัลยุทธ์ สว่างวรรณ แปล เรียบเรียง การออกแบบและพัฒนาคลังข้อมูล Data Warehouse (กิตติพงศ์ กลมกล่อม)