กฎความสัมพันธ์ Association Rules อาจารย์อนุพงศ์ สุขประเสริฐ

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
Algorithm to Find Frequent Itemsets
Advertisements

การขุดค้นข้อมูล (Data Mining)
Data Mining นำเสนอโดย อาจารย์นงเยาว์ สอนจะโปะ คณะสารสนเทศศาสตร์
A Classical Apriori Algorithm for Mining Association Rules
Enterprise Resources Planning (ERP )
บทที่ 6 พจนานุกรมข้อมูล และ คำอธิบายกระบวนการ
Strictly Private and Confidential HOOS Systems ( Supplier EDI) 09 June 2016.
1 9/25/ ชื่อโครงการ 3 9/25/2016 รายละเอียดผู้ลงทุน ชื่อ : บริษัท คิดแล้วรวย จำกัด ผู้เสนอโครงการ : คุณนวัตกร สุดยอด ( กรรมการบริษัท ) ที่อยู่
General Thesis วิทยาลัยเกษตรและเทคโนโลยีพังงา. General Thesis วิทยาลัยเกษตรและเทคโนโลยีพังงา.
การอบรมระบบความรับผิดทางละเมิดและแพ่ง
ความก้าวหน้าการพัฒนากฎหมาย ที่อยู่ในความรับผิดชอบของกรมอนามัย
บทที่ 1 ความรู้เบื้องต้นเกี่ยวกับระบบและการวิเคราะห์ระบบ
การบริหารงานพัสดุภายใต้ พ. ร. บ
การนำเสนอผลการจัดทำแผนและคำของบประมาณ
โครงการเพิ่มประสิทธิภาพ
"วิธีวิเคราะห์แบบสอบถาม หรือแบบประเมิน ด้วยโปรแกรม SPSS"
บทที่ 8 การควบคุมต้นทุนเครื่องดื่มและอาหาร การรวางแผนงานจัดเลี้ยง
Chapter 3 : แบบจำลองฐานข้อมูล (Data Model)
ผู้บริหารกรมชลประทานกับระบบEIS
การบริหารความสัมพันธ์ลูกค้า Customer Relationship Management: CRM
ประกาศ กระทรวงเกษตรและสหกรณ์ ระเบียบ ประกาศ คำสั่งกรมปศุสัตว์
การประชุมชี้แจงเรื่อง การจ่ายเงินผ่านระบบ KTB corporate online
Data Management (การจัดการข้อมูล)
Chapter 8 Classification อาจารย์อนุพงศ์ สุขประเสริฐ
Data mining สุขฤทัย มาสาซ้าย.
Principles of Accounting I
Marketing Concept วิวัฒนาการของแนวความคิดทางการตลาด แบ่งได้ 5 แนว
บทที่ 3 การตัดสินใจ ประเทศไทย - เศรษฐกิจ - การเมือง Google
เภสัชกรหญิงหทัยรัตน์ โคตรสมพงษ์ ภบ., วท.ม. (เภสัชศาสตร์สังคมและบริหาร)
กรมบัญชีกลาง กองการพัสดุภาครัฐ
การส่งเสริมการตลาด 9 กระบวนการติดต่อสื่อสาร
การพัฒนางานผู้ป่วยนอก
บทนำ แผนภาพกระแสข้อมูล (Data Flow Diagram) เป็นการออกแบบที่แสดงตรรกะของกระบวนการทำงาน โดยมีการวาดแผนผังออกมา คล้ายกับการสร้างบ้าน ที่ต้องมีแปลน ภายนอก.
Introduction to CRISP-DM
Introduction to Data mining
สถานการณ์ข้อมูลสารสนเทศด้านสาธารณสุข ปี 2560
บทที่ 10 สถิติเชิงบรรยาย
E-Payment ภาครัฐ หลักเกณฑ์และวิธีปฏิบัติในการจ่ายเงิน การรับเงิน และการนำเงินส่งคลังของส่วนราชการ ผ่านระบบ KTB Corporate Online เริ่มดำเนินการ 1 ตุลาคม.
Chapter 4 Data Pre-Processing อาจารย์อนุพงศ์ สุขประเสริฐ
แนวทางการเฝ้าระวังคุณภาพน้ำดื่ม และน้ำแข็งบริโภค ในสถานประกอบการ
ระบบการรับ-จ่ายเงินภาครัฐ สุทธิรัตน์ รัตนโชติ 16 สิงหาคม 2559
การดำเนินงาน OSCC ศูนย์ช่วยเหลือสังคม
Data Management (การจัดการข้อมูล)
ระดับความเข้มแข็งและขีดความสามารถขององค์การ
การควบคุมและตรวจสอบภายใน รองผู้ว่าการตรวจเงินแผ่นดิน
สิทธิประโยชน์การเป็นสมาชิกกองทุน สำรองเลี้ยงชีพ
4.8 พัฒนาการเด็กวัยเรียน
หนังสือคณะกรรมการว่าด้วยการพัสดุ ด่วนที่สุด ที่ กค (กวพ) 0405
สถาบันส่งเสริมสินค้าเกษตรนวัตกรรม
Data Mining Association Analysis ## Weka
ความรู้ทั่วไป เกี่ยวกับภาษีเงินได้หัก ณ ที่จ่าย (Withholding Tax-W/T)
การจัดการช่องทางการจัดจำหน่าย และการกระจายสินค้า
นางสาวนนทิชา วรรณสว่าง ผู้อำนวยการสำนักบริหารกลาง กรมการข้าว
บทที่ 4. ผศ.ดร.จันทร์เพ็ญ มีนคร
แนวทางการประเมินผลงานวิชาการ จังหวัดนครศรีธรรมราช
ประชากร นำเสนอโดย ผศ.ดร.สมาน แก้วไวยุทธ.
อุทธรณ์,ฎีกา.
OLAP Analysis and Design vs TPS (เสริม)
บทที่ 8 ผลิตภัณฑ์การบริหารการผลิต
Training for SPSS BY Assist. Prof. Benchamat Laksaniyanon, Phd
เทคโนโลยีเพื่องานประยุกต์ทางธุรกิจ 3 (2-2-5)
MR. PAPHAT AUPAKA UPDATE PICTURE MEETING ROOM SYSTEM
การเขียนรายงานเชิงวิชาการ
Product Champion Cluster วัยเรียน : โรงเรียนส่งเสริมสุขภาพ
狗隻的訓練 聖士提反女子中學附屬小學 孫晞庭.
ความรู้เบื้องต้นเกี่ยวกับการซื้อขายสินค้า
งานการเงินนักศึกษา ส่วนการเงินและบัญชี
Each Weichert Franchised Office is Independently owned and Operated
มหาวิทยาลัยวลัยลักษณ์
การทำเหมืองข้อมูลด้วยโปรแกรม RapidMiner Studio
ใบสำเนางานนำเสนอ:

กฎความสัมพันธ์ Association Rules อาจารย์อนุพงศ์ สุขประเสริฐ คณะการบัญชีและการจัดการ มหาวิทยาลัยมหาสารคาม

Content Association Rule (กฎความสัมพันธ์) การนำเทคนิคไปประยุกต์ใช้กับงานจริง Association Discovery and Sequence Detection Association Rules Apriori FP-Growth

Association Rule (กฎความสัมพันธ์) เป็นเทคนิคหนึ่งของ Data Mining คือการค้นหา ความสัมพันธ์ของข้อมูล จากข้อมูลขนาดใหญ่ที่มีอยู่ เพื่อน าไปหารูปแบบที่เกิดขึ้นบ่อยๆ (frequent pattern) และใช้ในการวิเคราะห์ความสัมพันธ์หรือ ทำนาย ปรากฏการณ์ต่างๆ ฐานข้อมูลที่ใช้ในการทำเหมืองความสัมพันธ์ (Association Mining) มักเป็นฐานข้อมูลประเภท Transaction Database ผลลัพธ์ที่ได้เป็นกฏความสัมพันธ์ (Association Rule) สามารถเขียนได้ ในรูปเซตของรายการที่เป็นเหตุ ไปสู่เซตของรายการที่เป็นผล ซึ่งมี รากฐานมาจาก การวิเคราะห์ตะกร้าตลาด (Market Basket Analysis) เช่น ลูกค้าที่ซื้อผ้าอ้อมส่วนใหญ่จะซื้อเบียร์ด้วย ข้อมูลที่นำมาใช้จะอยู่ในรูปแบบ Nominal หรือ Ordinal เท่านั้น

การนำเทคนิคไปประยุกต์ใช้กับงานจริง ระบบแนะนำหนังสือให้กับลูกค้าแบบอัตโนมัติของ Amazon หมายถึงข้อมูลการสั่งซื้อทั้งหมดจะถูกน ามาประมวลผลเพื่อหา ความสัมพันธ์ของข้อมูล เช่น ลูกค้าที่ซื้อหนังสือเล่มหนึ่งๆ มักจะซื้อหนังสือเล่มใด พร้อมกันด้วยเสมอ ความสัมพันธ์ที่ได้ จาก กระบวนการนี้สามารถนำไปใช้คาดเดาได้ว่าควร แนะนำหนังสือเล่มใดเพิ่มเติมให้กับลูกค้า การจัดวางสินค้าในแคตตาล็อก (catalog) หรือการจัด วางสินค้าตามชั้นต่างๆ จะ เลือกสินค้าที่มักจะมีการซื้อ ร่วมกันบ่อยมาวางไว้ใกล้ๆ กันเพื่อให้ลูกค้าสะดุดตา และเลือกซื้อสินค้าได้ง่ายขึ้น

การนำเทคนิคไปประยุกต์ใช้กับงานจริง จากตัวอย่างที่กล่าวมา จะเห็นได้ว่ามีวัตถุประสงค์ คล้ายกัน คือ การเพิ่มยอดขายให้กับร้านค้าโดยใช้ ประวัติการซื้อสินค้าของลูกค้าในอดีต ในทาง การตลาดการเสนอสินค้าที่เกี่ยวข้องให้กับ ลูกค้าจะ เรียกว่า “cross-selling” ซึ่งการทำ cross-sell แบบนี้ อาศัยข้อมูลจากการค้นหา ความสัมพันธ์ในการซื้อ สินค้าต่างๆ ที่ผ่านมา

Market Basket Analysis การวิเคราะห์ตะกร้าตลาด เป็นรูปแบบที่ใช้เพื่อหา กลุ่มสิ่งของที่น่าจะ ปรากฏร่วมกันใน transaction หนึ่งๆ ซึ่งมักเป็น transaction ณ จุดขาย ผลลัพธ์ ที่ได้สามารถแสดงได้ด้วยกฎ ซึ่งบอกความเป็นไปได้ ของการซื้อ สินค้าต่างๆร่วมกัน การวิเคราะห์ตะกร้าตลาด มีบทบาทสำคัญต่อ อุตสาหกรรมการ ค้าปลีก (retail industry) ซึ่งใช้ สารสนเทศ ศึกษาพฤติกรรมของลูกค้า จัดพื้นที่ร้านค้า จัดวางสินค้าร่วมกันเพื่อส่งเสริมการขาย การวางแผนการส่งเสริมการขายและตั้งราคาผลิตภัณฑ์

Market Basket Analysis เป็นการหาความสัมพันธ์ของข้อมูลภายในกลุ่มข้อมูล เพื่อใช้ลักษณะของข้อมูลหนึ่งๆ ในการบอก ลักษณะที่จะเกิดขึ้นกับข้อมูลอีกตัวหนึ่ง ซึ่งอาจจะ เป็นการหาความสัมพันธ์ของข้อมูลในกลุ่มเดียวกัน โดยทั่วไปมักใช้กับการวิเคราะห์ที่เกี่ยวกับการซื้อของ ลูกค้า เช่น การระบุว่าในกลุ่มของลูกค้าที่ซื้อนมนั้น จะมีลูกค้า 68% ที่ซื้อขนมปังด้วย Chapter 3

Market Basket Analysis ในการหาความสัมพันธ์ของการซื้อสินค้านี้จะใช้ข้อมูล จากการซื้อที่ผ่านมาดังเช่น ข้อมูลที่ได้ จาก POS (Point of Sales) ซึ่งมักจะเก็บไว้ในตาราง Order Detail ซึ่งประกอบไปด้วยหลายๆ ฟิลด์ดังตัวอย่าง ด้านล่าง ซึ่งยกตัวอย่างฟิลด์ที่สำคัญเพียง 3 ฟิลด์ คือ TID แสดงหมายเลขการซื้อสินค้า (transaction ID) Transaction time แสดงช่วงวลาในการซื้อสินค้า Product แสดงสินค้าที่ซื้อ

Market Basket Analysis ข้อมูลที่ได้จากการซื้อสินค้าแต่ละครั้ง AAA Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1K APPLE 45.00 1P CEREAL 120.00 1P DIAPERS 300.00 Total *****465.00 CASH 500.00 Change 35.00 01-13-2009 20:04Recpt # 104071 THANK YOU TID Transaction time Product 1 01-13-2014 20:04 Apple Cereal Diapers

Market Basket Analysis ข้อมูลที่ได้จากการซื้อสินค้าแต่ละครั้ง AAA Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1K APPLE 45.00 1P CEREAL 120.00 1P DIAPERS 300.00 Total *****490.00 CASH 500.00 Change 10.00 01-13-2009 20:04Recpt # 104071 THANK YOU TID Transaction time Product 1 01-13-2014 20:04 Apple Cereal Diapers 2 01-14-2014 11:30 Beer Eggs AAA Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1P Beer 25.00 1P CEREAL 100.00 1P Eggs 30.00 Total ****155.00 CASH 500.00 Change 345.00 01-14-2014 11:30Recpt # 104071 THANK YOU

Market Basket Analysis ข้อมูลที่ได้จากการซื้อสินค้าแต่ละครั้ง Data Cube Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1K APPLE 45.00 1P CEREAL 120.00 1P DIAPERS 300.00 Total *****490.00 CASH 500.00 Change 10.00 01-13-2009 20:04Recpt # 104071 THANK YOU Data Cube Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1K APPLE 25.00 1P CEREAL 100.00 1P DIAPERS 30.00 Total ****155.00 CASH 500.00 Change 345.00 01-14-2014 11:30Recpt # 104071 THANK YOU TID Transaction time Product 1 01-13-2014 20:04 Apple Cereal Diapers 2 01-14-2014 11:30 Beer Eggs 3 01-15-2014 14:30 AAA Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1P APPLE 45.00 1P BEER 25.00 1P CEREAL 100.00 1P EGGS 30.00 Total ****200.00 CASH 500.00 Change 300.00 01-15-2014 14:30Recpt # 104071 THANK YOU

Market Basket Analysis ข้อมูลที่ได้จากการซื้อสินค้าแต่ละครั้ง Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1K APPLE 45.00 1P CEREAL 120.00 1P DIAPERS 300.00 Total *****490.00 CASH 500.00 Change 10.00 01-13-2009 20:04Recpt # 104071 THANK YOU TID Transaction time Product 1 01-13-2014 20:04 Apple Cereal Diapers 2 01-14-2014 11:30 Beer Eggs 3 01-15-2014 14:30 4 01-15-201414:15 Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1K APPLE 25.00 1P CEREAL 100.00 1P DIAPERS 30.00 Total ****155.00 CASH 500.00 Change 345.00 01-14-2014 11:30Recpt # 104071 THANK YOU Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1P APPLE 45.00 1P BEER 25.00 1P CEREAL 100.00 1P DIAPERS 30.00 Total ****200.00 CASH 500.00 Change 300.00 01-15-2014 14:30Recpt # 104071 THANK YOU AAA Supermarket Tax ID # 3011693025 POS ID # 10C400101700934 RECEIP/TAX INVOICE (ABB.) 1P BEER 45.00 1P EGGS 25.00 Total ****70.00 CASH 100.00 Change 30.00 01-15-2014 14:15Recpt # 104071 THANK YOU

ตาราง Order Detail TID Transaction time Product 1 01-13-2014 20:04 Apple Cereal Diapers 2 01-14-2014 11:30 Beer Eggs 3 01-15-2014 14:30 4 01-16-2014 14:15 ตาราง Order Detail

จากตาราง Order Detail จะเห็นได้ว่าหนึ่งเรคอร์ด (record) เป็นการซื้อสินค้าหนึ่งชนิด ดังนั้น ถ้าในหนึ่ง ครั้งมีการซื้อสินค้ามากกว่าหนึ่งชนิดแล้วจะมีจำนวนเร คอร์ดมากกว่าหนึ่งเรคอร์ดแต่ ใช้ TID เป็นตัวบ่งบอก ว่าเป็นการซื้อสินค้าในครั้งเดียวกัน ซึ่งข้อมูลที่เก็บอยู่ ในลักษณะนี้ไม่ เหมาะที่จะนำไปหาความสัมพันธ์ของ การซื้อขายต่อ ดังนั้นจึงต้องทำการแปลงข้อมูลใน ตาราง Order Detail ให้เป็นตาราง Transaction เสียก่อน

แปลงข้อมูลให้เหมาะสมกับการวิเคราะห์ TID Transaction time Product 1 01-13-2014 20:04 Apple Cereal Diapers 2 01-14-2014 11:30 Beer Eggs 3 01-15-2014 14:30 4 01-16-2014 14:15 TID Products 1 Apple, Cereal, Diapers 2 Beer, Cereal, Eggs 3 Apple, Beer, Cereal, Eggs 4 Beer, Eggs ตาราง Transaction ตาราง Order Detail

TID Products 1 Apple, Cereal, Diapers 2 Beer, Cereal, Eggs 3 Apple, Beer, Cereal, Eggs 4 Beer, Eggs ตาราง Transaction จากตาราง Transaction จะเห็นว่าเป็นการรวมการ ซื้อแต่ละครั้งให้กลายเป็นหนึ่งเรคอร์ด เช่น การซื้อ ครั้งที่ 1 (TID = 1) ประกอบด้วยการซื้อสินค้า Apple, Cereal และ Diapers

Market Basket Analysis Support - นับจำนวนครั้งการซื้อสินค้าแต่ละชนิดคิดเป็น % ของการ ซื้อสินค้า - Apple พบว่ามีการซื้อในครั้งที่ 1 และ 3 Support(Apple) คือ 2/4 = 50% - Beer พบว่ามีการซื้อในครั้งที่ 2,3 และ 4 Support(Beer) คือ 3/4 = 75% Transaction ID Items 1 Apple,Cereal,Diapers 2 Beer,Cereal,Eggs 3 Apple,Beer,Cereal,Eggs 4 Beer,Eggs Items Transaction ID Support 1 2 3 4 Apple 2/4 =50% Beer 3/4 =75% Cereal Diapers 1/4 =25% Eggs 3/4=75%

Market Basket Analysis Frequent itemset - รูปแบบของการซื้อสินค้า(itemset) ที่มีค่า Support ≥ minimum Support - กำหนดค่า minimum Support =50% ตัวอย่างของ Frequent itemset คือ {Apple},{Beer},{Cereal},{Eggs} Infrequent itemset - รูปแบบของการซื้อสินค้า (itemset) ที่มีค่า Support<minimum Support Transaction ID Items 1 Apple,Cereal,Diapers 2 Beer,Cereal,Eggs 3 Apple,Beer,Cereal,Eggs 4 Beer,Eggs Items Transaction ID Support 1 2 3 4 Apple 2/4 =50% Beer 3/4 =75% Cereal Diapers 1/4 =25% Eggs 3/4=75%

Market Basket Analysis สินค้าใน supermarket มีจำนวน 3 ชนิด Apple,Beer,Cereal มีโอกาสที่เป็นไปได้ทั้งหมด (หรือ Subset ทั้งหมด) คือ 𝟐 𝟑 - 1 = 7 รูปแบบหรือ คำนวณได้จาก 𝟐 𝑵 โดยที่ N คือจำนวน ของสินค้า (item) Apple Beer Cereal Apple,Beer Apple,Beer,Cereal Apple,Cereal Beer,Cereal

Association Rules การหากฏความสัมพันธ์ (Association Rules) มี 2 ขั้นตอนใหญ่ๆ ขั้นตอนที่ 1 หา frequent itemset ซึ่งใช้ เวลานานกว่าขั้นตอนที่ 2 มี 2 เทคนิคที่นิยมใช้ คือ เทคนิค Apriori (Agrawal and Srikant,1994) เทคนิค FP-Growth ( Han, Pei and Yin, 2000) ขั้นตอนที่ 2 สร้างกฎความสัมพันธ์จาก frequent itemset ที่หาได้จากขั้นตอนแรก

Association Rules เทคนิคการหากฎความสัมพันธ์ (Association Rules) Apriori (Agrawal and Srikant, 1994) สร้างรูปแบบของสินค้า (itemset) ที่มีจำนวนเพิ่มขึ้นที ละ 1 คำนวณค่า support จากในฐานข้อมูล ข้อเสียคือต้องดึงข้อมูลจากฐานข้อมูลหมายรอบทำให้ ทำงานช้า FP-Growth (Han, Pei and Yin, 2000) อ่านข้อมูลในฐานข้อมูลและสร้าง FP-tree คำนวณค่า support จาก FP-tree ทำงานได้เร็วกว่าวิธี Apriori

Apriori หลักการของ Apriori Superset ของรูปแบบที่เป็น Frequent itemset จะ มีค่า Support >= minimum มีโอกาสจะเป็น Frequent itemset ที่มีความยาวมากขึ้น Apple Beer Cereal Apple,Beer Apple,Cereal Beer,Cereal Apple,Beer,Cereal

Apriori × หลักการของ Apriori Superset ของรูปแบบที่เป็น infrequent itemset จะมีค่า Support < minimum Support สามารถตัดรูปแบบที่เป็น Superset ที่ มีความยาวมากขึ้นทิ้งได้ Apple Cereal Apple,Beer Apple,Cereal Beer,Cereal Apple,Beer,Cereal × Beer

Apriori วิเคราะห์เพื่อหาสินค้าที่มีการซื้อมากกว่าหรือเท่ากับ 50% - วิเคราะห์เพื่อหาสินค้าที่มีการซื้อมากกว่าหรือเท่ากับ 50% - Support - นับจำนวนครั้งการซื้อสินค้าแต่ละชนิดคิดเป็น % ของการซื้อสินค้า วิเคราะห์เพื่อหาสินค้าที่มีการซื้อมากกว่าหรือเท่ากับ 50% Support นับจำนวนครั้งการซื้อสินค้าแต่ละชนิดคิด เป็น % ของการซื้อสินค้า Items Transaction ID Support 1 2 3 4 Apple 2/4 =50% Beer 3/4 =75% Cereal Diapers 1/4 =25% Eggs 3/4=75% Transaction ID Items 1 Apple,Cereal,Diapers 2 Beer,Cereal,Eggs 3 Apple,Beer,Cereal,Eggs 4 Beer,Eggs

Apriori - รูปแบบที่มี Apple อยู่ -รูปแบบ (Pattern) ที่มีสินค้า 2 ชนิด Items Transaction ID Support 1 2 3 4 Apple 2/4 =50% Beer 3/4 =75% Apple Beer Cereal Eggs {Apple,Beer} Items Transaction ID Support 1 2 3 4 {Apple,Beer} 1/4 =25%

Apriori รูปแบบ (Pattern) ที่มีสินค้า 2 ชนิด - รูปแบบที่มี Apple อยู่ Items Transaction ID Support 1 2 3 4 Apple 2/4 =50% Cereal 3/4 =75% Apple Beer Cereal Eggs {Apple,Beer} {Apple,Cereal} Items Transaction ID Support 1 2 3 4 Apple,Cereal 2/4 =50%

Apriori รูปแบบ (Pattern) ที่มีสินค้า 2 ชนิด - รูปแบบที่มี Apple อยู่ Items Transaction ID Support 1 2 3 4 Apple 2/4 =50% Eggs 3/4 =75% Apple {Apple,Beer} Beer Cereal {Apple,Cereal} Items Transaction ID Support 1 2 3 4 {Apple,Eggs} 2/4 =50% Eggs {Apple,Eggs}

Apriori รูปแบบ (Pattern) ที่มีสินค้า 2 ชนิด - รูปแบบที่มี Beer อยู่ Items Transaction ID Support 1 2 3 4 Beer 3/4 =75% Cereal Apple Beer {Beer,Cereal} Cereal Items Transaction ID Support 1 2 3 4 {Beer,Cereal} 2/4 =50% Eggs

Apriori รูปแบบ (Pattern) ที่มีสินค้า 2 ชนิด - รูปแบบที่มี Beer อยู่ Items Transaction ID Support 1 2 3 4 Beer 3/4 =75% Eggs Apple {Beer,Cereal} Beer Cereal {Beer,Eggs} Items Transaction ID Support 1 2 3 4 {Beer,Eggs} 2/4 =50% Eggs

Apriori รูปแบบ (Pattern) ที่มีสินค้า 2 ชนิด - รูปแบบที่มี Careal อยู่ Items Transaction ID Support 1 2 3 4 Cereal 3/4 =75% Eggs Apple Beer Cereal Eggs {Cereal,Eggs} Items Transaction ID Support 1 2 3 4 {Cereal, Eggs} 2/4 =50%

Apriori นับจำนวนครั้งการซื้อสินค้า 2 ชนิด Items Transaction ID Support Apple Beer Cereal Eggs Apple Beer Cereal Eggs - {Apple,Beer},{Apple,Cereal} ,{Apple,Eggs} - {Beer,Cereal},{Beer,Eggs} - {Cereal,Eggs} Items Transaction ID Support 1 2 3 4 {Apple,Beer} 1/4 =25% {Apple,Cereal} 2/4 =50% {Apple,Eggs} {Beer,Cereal} {Beer,Eggs} 3/4 =75% {Cereal,Eggs} Items Transaction ID Support 1 2 3 4 {Apple,Beer} 1/4 =25% {Apple,Cereal} 2/4 =50% {Apple,Eggs} {Beer,Cereal} {Beer,Eggs} 3/4 =75% {Cereal, Eggs}

Apriori นับจำนวนครั้งการซื้อสินค้า 3 ชนิด {Beer, Cereal, Eggs} {Apple, Cereal} {Beer, Cereal} {Beer, Eggs} {Cereal, Eggs} {Apple, Cereal} {Beer, Cereal} {Beer, Eggs} {Cereal, Eggs} {Beer, Cereal, Eggs} Items Transaction ID Support 1 2 3 4 Beer 3/4 =75% Cereal Eggs 3/4=75% Items Transaction ID Support 1 2 3 4 {Beer,Cereal,Eggs} 2/4 =50%

Apriori สินค้าที่มีการซื้อมากกว่าหรือเท่ากับ 50% เรียกว่า Frequent itemset Frequent itemset Support Size {Apple} 2/4 =50% 1 {Beer} 3/4 =75% {Cereal} {Eggs} 3/4=75% {Apple,Cereal} 2 {Beer,Cereal} {Beer,Eggs} {Cereal, Eggs} {Beer,Cereal,Eggs} 3

Association Rules เทคนิคการหากฎความสัมพันธ์ (Association Rules) Apriori (Agrawal and Srikant, 1994) สร้างรูปแบบของสินค้า (itemset) ที่มีจำนวนเพิ่มขึ้นที ละ 1 คำนวณค่า support จากในฐานข้อมูล ข้อเสียคือต้องดึงข้อมูลจากฐานข้อมูลหมายรอบทำให้ ทำงานช้า FP-Growth (Han, Pei and Yin, 2000) อ่านข้อมูลในฐานข้อมูลและสร้าง FP-tree คำนวณค่า support จาก FP-tree ทำงานได้เร็วกว่าวิธี Apriori

FP-Growth หลักการของเทคนิค FP-Growth ขั้นตอนที่ 1 สร้าง compact data structure ที่เรียกว่า FP-tree การสร้าง FP-Growth อ่านข้อมูลจากฐานข้อมูบเพียงแค่ 2 ครั้งเท่านั้น หาค่า support ของรูปแบบการซื้อสินค้า (item) ที่มี ความยาว 1 ในแต่ละ transaction เรียงลำดับ (sort) ตามค่า support สร้าง FP-tree จากการอ่านข้อมูลในฐานข้อมูลเพียง หนึ่งรอบ ขั้นตอนที่ 2 สร้างรูปแบบของสินค้าที่ซื้อบ่อยๆ (frequent itemset) จาก FP-tree

Association rules กฎความสัมพันธ์ (Association rules ) สร้างจากสินค้าที่ลูกค้าซื้อบ่อย ๆ รูปแบบของกฎความสัมพันธ์ คือ LHS RHS LHS คือ lift Hand side สินค้าที่ซื้อกันบ่อย ๆ ด้านซ้ายของกฎ RHS คือ Right Hand side สินค้าที่ซื้อพร้อมกันบ่อย ๆ ด้านขวาของกฎ

Association rules ตัวอย่างของกฎความสัมพันธ์บางส่วน Apple Cereal frequent itemset support size {Apple, Cereal} 2/4=50% 2 {Beer, Cereal} {Beer, Eggs} 3/4=75% {Cereal, Eggs} {Beer, Cereal, Eggs} 3 Apple Cereal Beer Cereal Beer Eggs Cereal Apple Cereal Eggs Cereal, Eggs Beer Eggs Beer

Association rules ตัววัดประสิทธิภาพของกฎความสัมพันธ์ ค่าสนับสนุน (Support) และค่าความเชื่อมั่น (Confidence) ซึ่งคํานวณได้จากค่า Support (A -> B) = P(A∪B) Confidence (A -> B) = P(B|A) = P(A∪B) / P(A)

Association rules ตัววัดประสิทธิภาพของกฎความสัมพันธ์ Confidence แสดงความเชื่อมั่นของกฎความสัมพันธ์ที่ เมื่อรูปแบบ LHS และ RHS จะเกิดขึ้นด้วยเป็น จำนวนกี่เปอร์เซ็นต์ Confidence(LHR RHS)= 𝐬𝐮𝐩𝐩𝐨𝐫𝐭(𝐋𝐇𝐒,𝐑𝐇𝐒) 𝐬𝐮𝐩𝐩𝐨𝐫𝐭(𝐋𝐇𝐒) Confidence(Apple cereal)= support(Apple, Cereal) 𝑠𝑢𝑝𝑝𝑜𝑟𝑡(𝐴𝑝𝑝𝑙𝑒) = 𝟐/𝟒 𝟐/𝟒 =100%

ความหมายของค่า support และ confidence ถ้าเราได กฎความสัมพันธ จากฐานข้อมูลการซื้อสิ นคา เปน “{B, C} => {A} (ค่า support = 50%, ค่า confidence = 80%)” หมายความว่า จะมีการซื้อ A, B และ C พรอมกัน 50 ทรานแซคชั่น และ 80 เปอรเซ็นต ของลูกค้าที่ ซื้อ B พร้อม กับ C จะซื้อ A ไปด วย

Association rules ตัววัดประสิทธิภาพของกฎความสัมพันธ์ Lift ค่าที่บ่งบอกว่าการเกิดรูปแบบ LHS และ RHS มี ความสัมพันธ์กันแค่ไหน โดยถ้าค่า lift ใกล้ค่า 1 แสดงว่ารูปแบบ LHS และ RHS ไม่ขึ้นต่อกัน (independent) - lift(LHR RHS)= support(LHS,RHS) support LHS x support(RHS) lift(apple cereal)= support(apple,cereal) support apple x support(cereal) = 2/4 2 4 𝑥 3 4 = 1.33

ตัวอย่าง Lift ถ้า lift >1 หมายถึงการที่เกิด item A ส่งเสริม item B จริง ถ้า lift = 1 หมายถึงการที่เกิด item A ไม่ได้มี ความสัมพันธ์แต่อย่างใดกับ item B ถ้า lift < 1 หมายถึงการที่เกิด item A ไม่ได้ ส่งเสริม item B จริง

The end Q & A