งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

DR. UREERAT SUKSAWATCHON 321641 DATA MINING Weka Introducing.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "DR. UREERAT SUKSAWATCHON 321641 DATA MINING Weka Introducing."— ใบสำเนางานนำเสนอ:

1 DR. UREERAT SUKSAWATCHON DATA MINING Weka Introducing

2 What is Weka? Waikato Environment for Knowledge Analysis Since 1997 by Waikato University, New Zealand Opensource software used for data analysis by data mining techniques The system is written in JAVA and distributed under the terms of the GNU General Public License It runs on any platform  Linux, Windows, Mac OS, PDA

3 How do we get? Free Weka tutorial on Web and book

4 Starting Weka Weka’s GUI

5 Weka Explorer Tab สำหรับการเรียกใช้ งาน Workspace Status Bar

6 Weka Explorer Preprocess Classify Cluster Associate Select Attributes Visualize

7 Preparing the data ข้อมูล  Instance  Attribute การโหลดข้อมูลเข้าไปในโปรแกรม Weka  ไฟล์ CSV (Comma-Separated Value)  ไฟล์ ARFF (Attribute-Relation File Format)  ฐานข้อมูล Data Preprocessing with Weka  แปลงข้อมูลที่เป็นตัวเลขให้เป็นช่วง  เพิ่มข้อมูลที่ขาดหาย  ค้นหาข้อมูล Outliers

8 Ex: Customer Data ใช้ข้อมูลเกี่ยวกับลูกค้าซึ่งประกอบไปด้วยข้อมูลดังต่อไปนี้ หมายเล ขสมาชิก ชื่อสมาชิกเพศอายุรายได้ 1 สมชัยชาย 2512,000 2 สมพรหญิง 187,000 3 สมอารีหญิง 3535,000 4 สมสุภาพเด็ก 154,000 5 สมศรีหญิง 30020,000 Instance : ใช้สำหรับ แสดงข้อมูล แต่ละคน Attribute : ใช้สำหรับคุณลักษณะต่าง ๆ ของข้อมูล

9 Ex: Customer Data ประเภทข้อมูลในแต่ละ Attribute  Numeric  ข้อมูลที่เป็นตัวเลข  ค่าวัดเชิงปริมาณ  ได้แก่ attribute หมายเลขสมาชิก อายุ และรายได้  Non-numeric หรือ Categorical  ข้อมูลประเภทต่าง ๆ  ไม่มีลำดับก่อนหลัง  ได้แก่ attribute ชื่อสมาชิก และเพศ

10 Ex: Customer Data การนำเข้าข้อมูลในโปรแกรม Weka Open file :นำเข้าไฟล์ CSV หรือ ARFF ที่ได้จัดเตรียมไว้แล้ว Open URL : นำเข้าไฟล์ CSV หรือ ARFF ผ่านเครือข่าย Open DB : ดึงข้อมูลจากฐานข้อมูล Generate : สร้างข้อมูลตัวอย่าง เพื่อใช้ในการทดสอบ โดยการ ระบุจำนวน instances และจำนวน attributes

11 Ex: Customer Data รู้จักไฟล์ CSV (Comma-Separated Value)  ใช้เครื่องหมาย Comma (,) แบ่งระหว่าง attribute  สามารถใช้ Excel ในการสร้างไฟล์ CSV (เลือก Save เป็น CSV Format) ไฟล์ข้อมูลใน Excel ไฟล์ข้อมูลในรูปแบบ CSV ***ทดลองสร้าง CSV ตาม ตัวอย่าง

12 Ex: Customer Data รู้จักไฟล์ ARFF (Attribute-Relation File Format)  เป็นไฟล์ที่ Weka กำหนดขึ้นเอง  แบ่งเป็น 2 ส่วน  ส่วน Header: เป็นส่วนแสดงรายละเอียดต่าง ๆ  ชื่อของชุดข้อมูล (relation)  ชื่อของแต่ละ attribute  ประเภทของข้อมูลในแต่ละ attribute (data type)  ส่วน Data: เป็นส่วนของข้อมูลในแต่ละ attribute ที่ต้องการใช้ในการ วิเคราะห์

13 Ex: Customer Data Tag พิเศษที่มีในส่วน header ในไฟล์ ARFF  ใช้ในการบอกชื่อเรียกของชุดข้อมูล  ใช้ในการบอกชื่อ attribute และชนิดของข้อมูล Tag พิเศษที่มีในส่วน Data ในไฟล์ ARFF  หมายความว่า บรรทัดต่อไปจากนี้จะเป็นส่วนของข้อมูล โดยใช้เครื่องหมาย comma คั่น ระหว่าง attribute % แทน comment หรือคำอธิบาย

14 Ex: Customer Data

15 ประเภทข้อมูลในแต่ละ attribute  ข้อมูลที่เป็นตัวเลข  จำนวนเต็ม และจำนวนจริง  ใช้ keyword numeric  ข้อมูลที่ไม่ใช่ตัวเลข (nominal) ที่ไม่มีลำดับ  เช่น ชื่อคน สิ่งของ สถานที่ เพศ  มักระบุค่าที่เป็นไปได้ทั้งหมดในรูปแบบของ set เช่น sex {0,1,2} เป็นต้น ลองเปรียบเทียบความแตกต่างระหว่าง CSV และ ARFF

16 Ex: Weather Data ใช้ข้อมูลชื่อ weather.arff อยู่ใน C:\Program Files\Weka-3-6\data เป็นข้อมูลสภาพอากาศมีผลต่อ การแข่งขันเบสบอลในอเมริกา เก็บข้อมูลสภาพอากาศย้อนหลัง 14 วัน ที่มา tion.com/habyhints/285/

17 Ex: Weather Data ใช้ข้อมูลชื่อ weather.arff อยู่ใน C:\Program Files\Weka-3-6\data เป็นข้อมูลสภาพอากาศมีผลต่อ การแข่งขันเบสบอลในอเมริกา เก็บข้อมูลสภาพอากาศย้อนหลัง 14 วัน เปิด weather.arff ด้วย editor ที่มา tion.com/habyhints/285/

18 Ex: Weather Data เปิด Weka เลือก Explorer -> กดปุ่ม Open file -> เลือกไฟล์ weather.arff

19 Ex: Weather Data ส่วนที่สำคัญของ Preprocess คือเมนู Filter  แปลงข้อมูล เนื่องจากบางเทคนิคทำงานได้เฉพาะข้อมูลที่เป็น nominal เท่านั้น  Discretize: แปลงข้อมูลตัวเลข (numeric or real) ใหเป็นข้อมูลประเภท (nominal)  StringToNominal: แปลงข้อมูลที่เป็นล้กษณะข้อความ (string) ให้เป็นข้อมูล ลักษณะประเภท (nominal) แก้ไขข้อมูลที่ผิดพลาด  แก้ไขข้อมูลที่ผิดพลาด  ReplaceMissingValue: เพิ่มข้อมูลที่ขาดหายไป  การค้นหา Outliers  InterquartileRange: พิจารณาจากการกระจายตัวของข้อมูล

20 Ex: Weather Data Discretization : แปลงข้อมูลตัวเลข (numeric or real) ใหเป็น ข้อมูลประเภท (nominal) Discretize

21 Ex: Weather Data Missing Value  ข้อมูลบางส่วนหายไป อาจเกิด จาก  ความผิดพลาดในการกรอก ข้อมูล  ความจงใจในการให้ข้อมูลจริง  ข้อมูลไม่น่าเชื่อถือในการ วิเคราะห์หรือทำนาย  จากตัวอย่าง Cutomer มี ตัวอย่างใดไม่น่าเชือ่ถือ หมายเ ลข สมาชิ ก ชื่อ สมาชิก เพศอายุรายไ ด้ 1 สมชัยชาย 2512, สมพรหญิ ง 187,000 3 สมอารีหญิ ง 3535, สม สุภาพ เด็ก 154,000 5 สมศรีหญิ ง 30020,00 0

22 Ex: Weather Data การ Replace missing value  ใช้เครื่องหมาย ? แทนข้อมูลที่หายไปหรือข้อมูลที่ต้องการให้มีการ replace  ถ้าข้อมูลเป็นตัวเลข แทนที่ด้วย ค่าเฉลี่ย (mean) ของค่าใน attribute นั้น ๆ  ถ้าข้อมูลเป็นประเภท แทนที่ด้วย ข้อมูลที่ปรากฏบ่อยที่สุด (mode) ใน attribute นั้น ๆ

23 Ex: Weather Data การ Replace missing value หมายเ ลข สมาชิก ชื่อ สมาชิก เพศอายุรายได้ 1 สมชัยชาย 2512,000 2 สมพรหญิง 187,000 3 สมอารีหญิง 3535,000 4 สมสุภาพ ?154,000 5 สมศรีหญิง ?20,000

24 Ex: Weather Data การ Replace missing value หมายเ ลข สมาชิก ชื่อ สมาชิก เพศอายุรายได้ 1 สมชัยชาย 2512,000 2 สมพรหญิง 187,000 3 สมอารีหญิง 3535,000 4 สมสุภาพหญิง 154,000 5 สมศรีหญิง ,000

25 Ex: Weather Data ทดลองทำโดยการแก้ไฟล์ CustomerData.arff Save ไฟล์ในชื่อ CustomerData_wmissing.arff กดปุ่ม Choose -> filters->unsupervised->attribute- >ReplaceMissingValues แล้วกดปุ่ม Apply

26 Ex: Weather Data Detect Outlier  Outlier คือข้อมูลที่มีความผิดปกติที่แปลกแยกจากข้อมูลส่วนใหญ่ อาจจะถือว่า เป็นข้อมูลจริงหรือ noise ก็ได้  ใช้วิธีที่เรียกว่า Interquartile range (IQR)  ทดลองการใช้ outlier จากไฟล์ customer_outlier.arff  Edit ดูข้อมูลก่อน  ก่อนทำ outlier ควรลบข้อมูลที่ไม่เกี่ยวข้องออก ในที่คือ attribute Customer_ID และ Name  กดปุ่ม Choose -> filters->unsupervised->attribute->InterquartileRange แล้วกดปุ่ม Apply

27 Memory Error ซอฟต์แวร์ Weka จะทำการอ่านข้อมูลทั้งหมดเข้าไปเก็บไว้ใน หน่วยความจำ (memory) ภายในเครื่องก่อน แล้วจึงนำข้อมูลเหล่านี้ ไปประมวลผลต่อไป อาจเกิด error ได้ เนื่องจากหน่วยความจำไม่พอ การคำนวณขนาดของหน่วยความจำที่ต้องใช้ คำนวณได้จาก Approx_mem = number of attributes * number of instances * 8 ตัวอย่างเช่น ข้อมูล 10,000,000 instances มี 10 attributes จะต้อง ใช้หน่วยความจำ = 10,000,000*10*8 = 800,000,000 = 800 MB

28 Memory Error ให้ทำการสร้างข้อมูลตัวอย่าง โดยการกดปุ่ม Gernerate…  เลือก numExamples เป็น 1,000,000 แล้วกดปุ่ม Gernerate เม้าส์ Click เพื่อแก้ไข parameters

29 Memory Error จะปรากฎหน้าต่างดังนี้

30 Memory Error ทำการเพิ่มขนาดโดยการแก้ไขในไฟล์ C:\Program Files\Weka-3-6\RunWeka.ini ทำการเปลี่ยน maxheap ให้มากขึ้น แต่ไม่เกินขนาดของ หน่วยความจำภายในเครื่อง


ดาวน์โหลด ppt DR. UREERAT SUKSAWATCHON 321641 DATA MINING Weka Introducing.

งานนำเสนอที่คล้ายกัน


Ads by Google