Data Mining Association Analysis ## Weka เป็นตัวอย่างที่โยงส่วนจัดการข้อมูลกับแบบจำลอง เพื่อให้เห็นภาพ สุรินทร์ทิพ ศักดิ์ภูวดล
คำสั่ง install program WEKA 3.8.2
4. องค์ประกอบและการทำงานของสถาปัตยกรรมของระบบสนับสนุนการตัดสินใจ (4/5) 4. องค์ประกอบและการทำงานของสถาปัตยกรรมของระบบสนับสนุนการตัดสินใจ (4/5) ระบบสารสนเทศชนิดอื่น ๆ ส่วนการจัดการข้อมูล ส่วนการจัดการแบบจำลอง ส่วนจัดการองค์ความรู้ ฐานข้อมูลภายใน/ ภายนอก ส่วนจัดการสื่อประสานกับผู้ใช้ ผู้บริหาร (ผู้ใช้/ผู้ตัดสินใจ) องค์ประกอบของสถาปัตยกรรมระบบสนับสนุนการตัดสินใจ ที่มีส่วนจัดการองค์ความรู้
5. การจัดการข้อมูล (Data Management) (2/7) แหล่งข้อมูลภายใน องค์กร แหล่งข้อมูลภายนอก องค์กร ฝ่ายการเงิน ฝ่ายการตลาด ฝ่ายการผลิต ฝ่ายบุคคล ฝ่ายอื่นๆ ฐานองค์ความรู้ของ องค์กร แหล่งข้อมูลส่วนบุคคล ส่วนกลั่นกรองข้อมูล ฐานข้อมูลระบบสนับสนุน การตัดสินใจ คลังข้อมูลขององค์กร ส่วนสอบถามข้อมูล สารบัญข้อมูล ระบบจัดการฐานข้อมูล สืบค้นข้อมูล สอบถามข้อมูล ปรับปรุงข้อมูล สร้างรายงาน ลบข้อมูล ส่วนการจัดการสื่อประสานกับผู้ใช้ ส่วนการจัดการแบบจำลอง โครงสร้างของส่วนจัดการข้อมูล (เฉพาะส่วนที่แรเงา) ส่วนการจัดการองค์ความรู้
โครงสร้างการทำงานของส่วนการจัดการแบบจำลอง ฐานแบบจำลอง เชิงกลยุทธ์ กลวิธี เชิงปฏิบัติ สำเร็จรูป เชิงสถิติ การเงิน การตลาด การจัดการ แบบแผนการสร้างแบบจำลอง สารบัญแบบจำลอง ระบบจัดการฐานแบบจำลอง คำสั่งการสร้างแบบจำลอง การปรับปรุงแบบจำลอง ติดต่อประสานงานกับฐานข้อมูล ภาษาที่ใช้จัดการแบบจำลอง การดำเนินการกับแบบจำลอง การทำงานร่วมกัน การประมวลผลคำสั่ง การประสาน ฯลฯ ส่วนการจัดการ ข้อมูล ส่วนการจัดการ สื่อประสานผู้ใช้ ส่วนการจัดการ องค์ความรู้ โครงสร้างการทำงานของส่วนการจัดการแบบจำลอง
ตัวอย่าง ใบเสร็จรับเงินจากการขายหน้าร้าน Sales transactions (TPS) Cust Id. 001 Date 16/01/2019 Receipt No. F16012019G300001 Time 8:00 Order No. Product Id. Product Name Qty Unit Price Total 1 G003 Bread 20.00 2 G001 Beer 60.00 120.00 3 G015 Milk 4 G004 Candy 10.00 5 G005 Coke 12.00 222.00
คำสั่ง #1 : 5นาที สร้าง คนละ 2 ใบเสร็จ สินค้าชื่อภาษาอังกฤษ กลุ่ม 1 Receive No. F16012019G100001 กลุ่ม 2 Receive No. F16012019G200001 กลุ่ม 3 Receive No. F16012019G300001 กลุ่ม 4 Receive No. F16012019G400001 กลุ่ม 5 Receive No. F16012019G500001 กลุ่ม 6 Receive No. F16012019G600001
ตัวอย่างของข้อมูลการขายในฐานข้อมูลรายวัน Operational Database (TPS) ซึ่งจะมีข้อมูลTable 3 Table คือ Table Sales , Table Product และ Table Sales_Detail Table: Product ProductId (Pk) ProductName Price BalancedQty G001 Beer 60 100 G002 Blanket 200 G003 Bread 20 40 G004 Candy 10 G005 Coke 12 G006 Computer 20000 30 G007 Cookie G008 Diaper 150 G009 Egg G010 Green Tea G011 Make up G012 Meat 190 50 G013 Medicine 290 G014 Microwave 3000 G015 milk G016 Printer 2000 G017 Shampoo G018 Telephone 30000 G019 Television G020 Water 120 Table: Sales ReceiptNo (Pk) Date Time CustomerId TotalNo F16012019G300001 16/01/2019 8:00 001 222 F16012019G300002 8:10 280 … Table: SalesDetail ReceiptNo (Pk) ProductId (Pk) Qty F16012019G300001 G003 1 G001 2 G015 G004 G005 F16012019G300002 3 …
คลังข้อมูล (Data Warehouse) : การวิเคราะห์ข้อมูลในคลังข้อมูล (2/2) ผล แหล่งข้อมูลเพื่อ การปฏิบัติงาน Report Generator รายงาน ข้อมูล ข้อมูล การใช้งาน Data Mining Tools ผล Data Warehouse ข้อมูล การใช้งาน ผู้ใช้งาน แหล่งข้อมูลเพื่อ การวิเคราะห์ OLAP Generator ข้อมูล ผล OLAP คลังข้อมูล ช่วงเวลาที่องค์กรไม่ได้ปฏิบัติงาน ช่วงเวลาที่องค์กรปฏิบัติงาน
ในระบบนี้ เราจะประยุกต์โดยเราจะไม่ทำ Data mart ข้อมูลจาก Data warehouse จะถูกนำไปวิเคราะห์เลย
จัดการข้อมูลจากใบเสร็จ ให้อยู่ในรูปแบบเพื่อการวิเคราะห์ แล้วนำไปจัดเก็บใน Data Staging Area โดยการทำ ETL 1. Extract การสกัดข้อมูล เป็นเลือกข้อมูลที่ดี และข้อมูลตามต้องการ 2. Transform การแปลงรูปแบบข้อมูล ให้อยู่รูปแบบที่ต้องการ เช่น ข้อมูลเงินจาก 50 เป็น 50.00 3. Load การนำข้อมูลที่แปลงรูปแบบ แล้วนำไปเก็บยัง ฐานข้อมูลปลายทาง
จากตัวอย่างข้อมูล การทำ Filtering นั้นเราต้องการข้อมูลที่ต้องการจริงๆ ตัวอย่างข้อมูล ใน Staging Area หลังจาก ETL และ ทำการ Filtering and Cleansing จากตัวอย่างข้อมูล การทำ Filtering นั้นเราต้องการข้อมูลที่ต้องการจริงๆ จากตัวอย่างนี้เราไม่ต้องการข้อมูล ยอดสุทธิ วันที่ ลูกค้า รหัสสินค้า การ Cleansing นั้นข้อมูลใบเสร็จที่ขาดๆ หายๆ หรือ ใบเสร็จที่ยกเลิกเราจะลบออก Receive No Product Qty Unit Price Total F16012019G300001 Bread 1 15.00 Beer 2 60.00 120.00 Milk 10.00 Candy 5.00 Coke 12.00 F16012019G300002 Telephone 3000.00 Water 55.00 Egg F16012019G300003 25.00 50.00 99.00 40.00 … และ จากนั้นนำข้อมูลที่ต้องการจริงๆเท่านั้น จะถูกทำการ ETL เข้าสู่ Data Warehouse ต่อไป
ตัวอย่างข้อมูลใน Data Warehouse Receive No Product Qty Unit Price Total F16012019G300001 Bread 1 15.00 Beer 2 60.00 120.00 Milk 10.00 Candy 5.00 Coke 12.00 F16012019G300002 Telephone 3000.00 Water 55.00 Egg F16012019G300003 25.00 50.00 99.00 40.00 …
ข้อมูลเหล่านี้จะถูกทำการปรับปรุง หรือลบทิ้ง Data Warehouse ข้อมูลจาก Data warehouse นั้นจะถูกจัดการอีกครั้งเพราะ ในการประมวลผลในแต่ละ Technique ข้อมูลจะถูกจัดรูปแบบให้เหมาะกับแต่ละ Technique Association ใน WEKA ข้อมูลเหล่านี้จะถูกทำการปรับปรุง หรือลบทิ้ง
ข้อมูลที่พร้อมประมวลผล
Mining Association Rules Example of Rules: {Milk,Diaper} {Beer} (s=0.4, c=0.67) {Milk,Beer} {Diaper} (s=0.4, c=1.0) {Diaper,Beer} {Milk} (s=0.4, c=0.67) {Beer} {Milk,Diaper} (s=0.4, c=0.67) {Diaper} {Milk,Beer} (s=0.4, c=0.5) {Milk} {Diaper,Beer} (s=0.4, c=0.5) จาก itemset {Milk, Diaper, Beer} k=3 เราจะมีกฏที่เป็นไปได้ 6 กรณี ค่า Support Count ทั้ง 6 Case เท่ากัน Case: 1 Case: 2
Mining Association Rules Case: 3 Case: 4 {Beer} Milk, Diaper} Case: 5 Case: 6 {Diaper} {Milk,Beer} {Milk} {Diaper,Beer}
การ SET ค่าใน WEKA
Result from WEKA
ข้อสังเกตุ : การทดลอง