DR. UREERAT SUKSAWATCHON DATA MINING

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
รายละเอียดวิชา ง การงานพื้นฐาน4(คอมพิวเตอร์2)
Advertisements

Introduction to EndNote
ภาควิชาวิทยาการคอมพิวเตอร์ มหาวิทยาลัยสงขลานครินทร์
Introduction to C Introduction to C.
HTML Language ภาษา HTML คืออะไร ? HTML (Hyper Text Markup Language) เป็นภาษาที่ใช้ในการพัฒนา web page เพื่อให้โปรแกรม web brower ต่างๆ (Internet Explorer,
โครงการจัดทำข้อมูลผ่านเว็บไซต์
Data Structure โครงสร้างข้อมูล.
FORM อ.กันทิมา อ่อนละออ
6. โครงสร้างข้อมูลแบบแฟ้ม
จำนวนเต็ม จำนวนเต็ม  ประกอบด้วย                   1. จำนวนเต็มบวก    ได้แก่  1 , 2 , 3 , 4, 5 , ....                   2.  จำนวนเต็มลบ      ได้แก่  -1.
Location object Form object
การแก้ปัญหาด้วยคอมพิวเตอร์
Microsoft Excel 2007.
รูปแบบโครงสร้างภาษาซี
PHP LANGUAGE.
PHP LANGUAGE.
โจทย์ Array 12 มี.ค จงเขียนโปรแกรมเพื่ออ่านข้อมูลเข้าเป็นจำนวนเต็ม 10 จำนวน แล้วหาผลรวมของเลขเหล่านั้น.
การสร้าง Web Page จาก Wizard
ปฏิบัติการที่ 13 การใช้งาน Online Bookmarking
Atlas.ti demo – ให้code ได้ไม่เกิน 50
แผนกฝึกอบรมฐานข้อมูล บริษัท บุ๊ค โปรโมชั่น แอนด์ เซอร์วิส จำกัด
SCC : Suthida Chaichomchuen
การคำนวณค่าสถิติเบื้องต้น … สถิติเชิงพรรณนา
ระเบียบวิธีวิจัย RESEARCH METHODOLOGY : ตัวแปรการวิจัย.
คู่มือการใช้งานโปรแกรม EndNote
การสร้างตาราง (Table)
แก้ไขข้อมูลที่ไม่สามารถกรอกเป็นภาษาไทยได้
Data Mining นำเสนอโดย อาจารย์นงเยาว์ สอนจะโปะ คณะสารสนเทศศาสตร์
โปรแกรม Microsoft Access
PHP with Form ฟอร์ม คือหน้าจอที่ใช้เป็นสื่อกลางในการติดต่อระหว่างผู้ใช้เว็บไซต์ กับ เจ้าของเว็บไซต์ โดยผู้ใช้สามารถกรอกข้อมูลผ่านฟอร์มส่งไปยังเซอร์เวอร์
โครงการจัดทำข้อมูลผ่านเว็บไซต์
การวัดประสิทธิภาพ.
การเขียนโปรแกรมคอมพิวเตอร์และอัลกอริธึม
การใช้ซอฟต์แวร์ WEKA.
การใช้งานเบื้องต้นของเครื่องคิดเลขทางการเงิน
ชั้นมัธยมศึกษาตอนต้น
ตัวแปร (Variable) คือ ชื่อที่ตั้งขึ้นเพื่อเก็บข้อมูลในหน่วยความจำ สามารถเก็บข้อมูลชนิดใดก็ ได้ ลักษณะที่สำคัญ ค่าที่จัดเก็บ เมื่อปิดโปรแกรมข้อมูลจะหายไป.
บทที่ 11 การเขียนโปรแกรมแบบ Structured Programming และการจัดการตรวจสอบข้อผิดพลาด.
บทที 1 เริ่มต้น Windows XP
ระบบจัดการห้องประชุมและสมาชิก
การรวมฐานข้อมูล. 1. เลือกฐานข้อมูลหลักสำหรับรวมกับฐานข้อมูลอื่นๆ 2. เปลี่ยนชื่อฐานข้อมูลให้ตรงกับฐานข้อมูลหลักในข้อ 1 ใน C:\Program Files\RegMis เปิดไฟล์
การเปลี่ยนแปลงเกี่ยวกับตัวแปร
วิธีการทางคอมพิวเตอร์
รายงาน เรื่อง -ส่วนประกอบที่สำคัญของ microsoft excel -การพิมพ์ข้อมูลและการสร้างสูตรเบื้องต้น จัดทำโดย.
โรงเรียนวชิรธรรมสาธิต
ระบบข้อมูลการจัดที่ดิน
การแปลงข้อมูลใน Excel เป็นฐานข้อมูลใน Access
บทที่ 3 การวิเคราะห์ Analysis.
วิธีตรวจสอบความถูกต้องของข้อมูล 21 แฟ้ม ในระบบ PROVIS สสจ.สงขลา
Geographic Information System
Week 2 Variables.
Computer Programming for Engineers
โปรแกรม Microsoft Access
เรื่อง การซ่อมคอมพิวเตอร์.
CHAPTER 12 FORM.
การเข้าใช้ Speexx ครั้งแรก Foundation English II
การนำระบบเทคโนโลยีสารสนเทศมาสนับสนุนการทำงาน
Classification Data mining การทำเหมืองข้อมูลแบบจำแนก
ง การงานอาชีพและเทคโนโลยี 1 ครูสหรัฐ บัวทอง
รู้จักกับ Microsoft Access 2003
เริ่มต้น Photoshop CS5.
สาขาวิชาเทคโนโลยี สารสนเทศ คณะเทคโนโลยีสารสนเทศ และการสื่อสาร.
หลักการเขียนโปรแกรม ( )
การสร้างฟอร์ม(Form) ด้วยภาษา HTML
แนะนำการเขียนโปรแกรมภาษา C Introduction to C Programming Language
การกระทำทางคณิตศาสตร์
ตัวแปร และชนิดข้อมูล.
chapter 2 - Construction and destruction - Overloading method
ข้อมูล ข้อเท็จจริงหรือรายละเอียดเกี่ยวกับเรื่องที่สนใจศึกษา ซึ่งอาจอยู่ในรูปตัวเลข เช่น น้ำหนัก ความสูง ระยะทาง อายุ หรืออาจเป็นข้อเท็จจริงที่อยู่ในรูปคุณลักษณะหรือคุณสมบัติ
การเตรียมข้อมูล (Data preparation)
ใบสำเนางานนำเสนอ:

DR. UREERAT SUKSAWATCHON 321641 DATA MINING Weka Introducing DR. UREERAT SUKSAWATCHON 321641 DATA MINING

What is Weka? Waikato Environment for Knowledge Analysis Since 1997 by Waikato University, New Zealand Opensource software used for data analysis by data mining techniques The system is written in JAVA and distributed under the terms of the GNU General Public License It runs on any platform Linux, Windows, Mac OS, PDA

How do we get? http://www.cs.waikato.ac.nz/ml/weka Free Weka tutorial on Web and book

Starting Weka Weka’s GUI

Weka Explorer Tab สำหรับการเรียกใช้งาน Workspace Status Bar

Weka Explorer Preprocess Classify Cluster Associate Select Attributes Visualize

Preparing the data ข้อมูล การโหลดข้อมูลเข้าไปในโปรแกรม Weka Instance Attribute การโหลดข้อมูลเข้าไปในโปรแกรม Weka ไฟล์ CSV (Comma-Separated Value) ไฟล์ ARFF (Attribute-Relation File Format) ฐานข้อมูล Data Preprocessing with Weka แปลงข้อมูลที่เป็นตัวเลขให้เป็นช่วง เพิ่มข้อมูลที่ขาดหาย ค้นหาข้อมูล Outliers

Ex: Customer Data ใช้ข้อมูลเกี่ยวกับลูกค้าซึ่งประกอบไปด้วยข้อมูลดังต่อไปนี้ หมายเลขสมาชิก ชื่อสมาชิก เพศ อายุ รายได้ 1 สมชัย ชาย 25 12,000 2 สมพร หญิง 18 7,000 3 สมอารี 35 35,000 4 สมสุภาพ เด็ก 15 4,000 5 สมศรี 300 20,000 Instance : ใช้สำหรับแสดงข้อมูลแต่ละคน Attribute : ใช้สำหรับคุณลักษณะต่าง ๆ ของข้อมูล

Ex: Customer Data ประเภทข้อมูลในแต่ละ Attribute Numeric ข้อมูลที่เป็นตัวเลข ค่าวัดเชิงปริมาณ ได้แก่ attribute หมายเลขสมาชิก อายุ และรายได้ Non-numeric หรือ Categorical ข้อมูลประเภทต่าง ๆ ไม่มีลำดับก่อนหลัง ได้แก่ attribute ชื่อสมาชิก และเพศ

Ex: Customer Data การนำเข้าข้อมูลในโปรแกรม Weka Open file :นำเข้าไฟล์ CSV หรือ ARFF ที่ได้จัดเตรียมไว้แล้ว Open URL : นำเข้าไฟล์ CSV หรือ ARFF ผ่านเครือข่าย Open DB : ดึงข้อมูลจากฐานข้อมูล Generate : สร้างข้อมูลตัวอย่าง เพื่อใช้ในการทดสอบ โดยการระบุจำนวน instances และจำนวน attributes

Ex: Customer Data รู้จักไฟล์ CSV (Comma-Separated Value) ใช้เครื่องหมาย Comma (,) แบ่งระหว่าง attribute สามารถใช้ Excel ในการสร้างไฟล์ CSV (เลือก Save เป็น CSV Format) ไฟล์ข้อมูลในรูปแบบ CSV ไฟล์ข้อมูลใน Excel ***ทดลองสร้าง CSV ตามตัวอย่าง

Ex: Customer Data รู้จักไฟล์ ARFF (Attribute-Relation File Format) เป็นไฟล์ที่ Weka กำหนดขึ้นเอง แบ่งเป็น 2 ส่วน ส่วน Header: เป็นส่วนแสดงรายละเอียดต่าง ๆ ชื่อของชุดข้อมูล (relation) ชื่อของแต่ละ attribute ประเภทของข้อมูลในแต่ละ attribute (data type) ส่วน Data: เป็นส่วนของข้อมูลในแต่ละ attribute ที่ต้องการใช้ในการวิเคราะห์

Ex: Customer Data Tag พิเศษที่มีในส่วน header ในไฟล์ ARFF @relation <relation-name> ใช้ในการบอกชื่อเรียกของชุดข้อมูล @attribute <attribute-name> <data type> ใช้ในการบอกชื่อ attribute และชนิดของข้อมูล Tag พิเศษที่มีในส่วน Data ในไฟล์ ARFF @data หมายความว่า บรรทัดต่อไปจากนี้จะเป็นส่วนของข้อมูล โดยใช้เครื่องหมาย comma คั่นระหว่าง attribute % แทน comment หรือคำอธิบาย

Ex: Customer Data

Ex: Customer Data ประเภทข้อมูลในแต่ละ attribute ข้อมูลที่เป็นตัวเลข จำนวนเต็ม และจำนวนจริง ใช้ keyword numeric ข้อมูลที่ไม่ใช่ตัวเลข (nominal) ที่ไม่มีลำดับ เช่น ชื่อคน สิ่งของ สถานที่ เพศ มักระบุค่าที่เป็นไปได้ทั้งหมดในรูปแบบของ set เช่น sex {0,1,2} เป็นต้น ลองเปรียบเทียบความแตกต่างระหว่าง CSV และ ARFF

Ex: Weather Data ใช้ข้อมูลชื่อ weather.arff อยู่ใน C:\Program Files\Weka-3-6\data เป็นข้อมูลสภาพอากาศมีผลต่อการแข่งขันเบสบอลในอเมริกา เก็บข้อมูลสภาพอากาศย้อนหลัง 14 วัน ที่มา http://www.theweatherprediction.com/habyhints/285/

Ex: Weather Data ใช้ข้อมูลชื่อ weather.arff อยู่ใน C:\Program Files\Weka-3-6\data เป็นข้อมูลสภาพอากาศมีผลต่อการแข่งขันเบสบอลในอเมริกา เก็บข้อมูลสภาพอากาศย้อนหลัง 14 วัน เปิด weather.arff ด้วย editor ที่มา http://www.theweatherprediction.com/habyhints/285/

Ex: Weather Data เปิด Weka เลือก Explorer -> กดปุ่ม Open file -> เลือกไฟล์ weather.arff 1 6 2 4 3 5

Ex: Weather Data ส่วนที่สำคัญของ Preprocess คือเมนู Filter แปลงข้อมูล เนื่องจากบางเทคนิคทำงานได้เฉพาะข้อมูลที่เป็น nominal เท่านั้น Discretize: แปลงข้อมูลตัวเลข (numeric or real) ใหเป็นข้อมูลประเภท (nominal) StringToNominal: แปลงข้อมูลที่เป็นล้กษณะข้อความ (string) ให้เป็นข้อมูลลักษณะประเภท (nominal) แก้ไขข้อมูลที่ผิดพลาด แก้ไขข้อมูลที่ผิดพลาด ReplaceMissingValue: เพิ่มข้อมูลที่ขาดหายไป การค้นหา Outliers InterquartileRange: พิจารณาจากการกระจายตัวของข้อมูล

Ex: Weather Data Discretization : แปลงข้อมูลตัวเลข (numeric or real) ใหเป็นข้อมูลประเภท (nominal) Discretize

Ex: Weather Data Missing Value หมายเลขสมาชิก ชื่อสมาชิก เพศ อายุ ข้อมูลบางส่วนหายไป อาจเกิดจาก ความผิดพลาดในการกรอกข้อมูล ความจงใจในการให้ข้อมูลจริง ข้อมูลไม่น่าเชื่อถือในการวิเคราะห์หรือทำนาย จากตัวอย่าง Cutomer มีตัวอย่างใดไม่น่าเชือ่ถือ หมายเลขสมาชิก ชื่อสมาชิก เพศ อายุ รายได้ 1 สมชัย ชาย 25 12,000 2 สมพร หญิง 18 7,000 3 สมอารี 35 35,000 4 สมสุภาพ เด็ก 15 4,000 5 สมศรี 300 20,000

Ex: Weather Data การ Replace missing value ถ้าข้อมูลเป็นตัวเลข แทนที่ด้วย ค่าเฉลี่ย (mean) ของค่าใน attribute นั้น ๆ ถ้าข้อมูลเป็นประเภท แทนที่ด้วย ข้อมูลที่ปรากฏบ่อยที่สุด (mode) ใน attribute นั้น ๆ

Ex: Weather Data การ Replace missing value หมายเลขสมาชิก ชื่อสมาชิก เพศ อายุ รายได้ 1 สมชัย ชาย 25 12,000 2 สมพร หญิง 18 7,000 3 สมอารี 35 35,000 4 สมสุภาพ ? 15 4,000 5 สมศรี 20,000

Ex: Weather Data การ Replace missing value หมายเลขสมาชิก ชื่อสมาชิก เพศ อายุ รายได้ 1 สมชัย ชาย 25 12,000 2 สมพร หญิง 18 7,000 3 สมอารี 35 35,000 4 สมสุภาพ 15 4,000 5 สมศรี 22.25 20,000

Ex: Weather Data ทดลองทำโดยการแก้ไฟล์ CustomerData.arff Save ไฟล์ในชื่อ CustomerData_wmissing.arff กดปุ่ม Choose -> filters->unsupervised->attribute->ReplaceMissingValues แล้วกดปุ่ม Apply

Ex: Weather Data Detect Outlier Outlier คือข้อมูลที่มีความผิดปกติที่แปลกแยกจากข้อมูลส่วนใหญ่ อาจจะถือว่าเป็นข้อมูลจริงหรือ noise ก็ได้ ใช้วิธีที่เรียกว่า Interquartile range (IQR) ทดลองการใช้ outlier จากไฟล์ customer_outlier.arff Edit ดูข้อมูลก่อน ก่อนทำ outlier ควรลบข้อมูลที่ไม่เกี่ยวข้องออก ในที่คือ attribute Customer_ID และ Name กดปุ่ม Choose -> filters->unsupervised->attribute->InterquartileRange แล้วกดปุ่ม Apply

Memory Error ซอฟต์แวร์ Weka จะทำการอ่านข้อมูลทั้งหมดเข้าไปเก็บไว้ในหน่วยความจำ (memory) ภายในเครื่องก่อน แล้วจึงนำข้อมูลเหล่านี้ไปประมวลผลต่อไป อาจเกิด error ได้ เนื่องจากหน่วยความจำไม่พอ การคำนวณขนาดของหน่วยความจำที่ต้องใช้ คำนวณได้จาก Approx_mem = number of attributes * number of instances * 8 ตัวอย่างเช่น ข้อมูล 10,000,000 instances มี 10 attributes จะต้องใช้หน่วยความจำ = 10,000,000*10*8 = 800,000,000 = 800 MB

Memory Error ให้ทำการสร้างข้อมูลตัวอย่าง โดยการกดปุ่ม Gernerate… เลือก numExamples เป็น 1,000,000 แล้วกดปุ่ม Gernerate เม้าส์ Click เพื่อแก้ไข parameters

Memory Error จะปรากฎหน้าต่างดังนี้

Memory Error ทำการเพิ่มขนาดโดยการแก้ไขในไฟล์ C:\Program Files\Weka-3-6\RunWeka.ini ทำการเปลี่ยน maxheap ให้มากขึ้น แต่ไม่เกินขนาดของหน่วยความจำภายในเครื่อง