Probability and Statistics for Computing

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
Chapter 3 Data Representation (การแทนข้อมูล)
Advertisements

ครุศาสตรมหาบัณฑิต สาขาวิชา การสอนภาษาอังกฤษเพื่อ วิชาการและงานอาชีพ
ศูนย์เรียนรู้ชุมชนเศรษฐกิจ พอเพียงบ้านซ่อง อ.พนมสารคาม จ.ฉะเชิงเทรา
สาระที่ ๒ การเขียน.
การบริหารจัดการโครงการ และการเบิกจ่ายงบประมาณ
ศึกษาข้อมูลท้องถิ่นบ้านสนาม
ยินดีต้อนรับ คณะกรรมการประเมินคุณภาพการศึกษาภายใน “สำนักส่งเสริมวิชาการและงานทะเบียน” วันอังคารที่ 23 สิงหาคม พ.ศ
Application of Electron Paramagnetic Resonance (EPR)
Lubna Shamshad (Ph.D Student) Supervisor Dr.GulRooh
Q n° R n°.
อาคารสำนักงานเขต พื้นที่การศึกษา (สพป./สพม.)
Chapter 3 Design of Discrete-Time control systems Frequency Response
ยินดีต้อนรับ นสต. ภ.๙.
การส่งเสริมจริยธรรมและคุณธรรม เพื่อการป้องกันการทุจริต
พอช.องค์การมหาชนของชุมชนไทย
ชั้นมัธยมศึกษาปีที่ ๖ โรงเรียนสาธิตมหาวิทยาลัยราชภัฏสวนสุนันทา
หน่วยที่ 2 การประกันคุณภาพภายในสถานศึกษา
หลักสูตรการศึกษานอกระบบ ระดับการศึกษาขั้นพื้นฐาน พุทธศักราช 2551
Multiple Input Multiple Output (MIMO)
บทที่ 7 TAS 17 (ปรับปรุง 2558): สัญญาเช่า (Leases)
หลักการสร้างมาตรวัดทางจิตวิทยา
โครงการส่งเสริมการพัฒนาคุณภาพงาน คณะวิทยาศาสตร์ มหาวิทยาลัยเชียงใหม่
แผนการจัดการเรียนรู้ กลุ่มสาระการเรียนรู้วิทยาศาสตร์
แนวการตรวจสอบภายใน การตรวจสอบรถราชการ
ทะเบียนราษฎร.
นายธนวิทย์ โพธิ์พฤกษ์ เลขที่ 8 นายอนุสรณ์ ขำหลง เลขที่ 29
เรื่อง การบริหารการศึกษาตาม พ.ร.บ ระเบียบบริหารราชการกระทรวงศึกษาธิการ
เอกสารประกอบการบรรยายครั้ง ๒ วิชาซื้อขาย - เช่าทรัพย์ - เช่าซื้อ
ระเบียบกระทรวงมหาดไทย
บทที่ 12 การวิเคราะห์สหสัมพันธ์และการถดถอย
DATA STRUCTURES AND ALGORITHMS
ขั้นตอนการจัดตั้งกลุ่มส่งเสริมอาชีพ จังหวัดนครราชสีมา ปี ๒๕๕๘/๕๙
หลักการจัดกิจกรรมนันทนาการ
การประชุมผู้บริหารระดับสูงกระทรวงวัฒนธรรม ครั้งที่ ๔/๒๕๖๐
การเบิกจ่ายเงินเกี่ยวกับค่าใช้จ่าย ในการบริหารงานของส่วนราชการ
การแก้ไขปัญหา สหกรณ์เครดิตยูเนี่ยนคลองจั่น จำกัด
ขั้นตอนของกิจกรรม : ปฏิบัติเป็นประจำ เพื่อให้เกิดการพัฒนาอย่างต่อเนื่อง
ตอนที่ 2.๒ บทบาทหน้าที่ของเจ้าหน้าที่ส่งเสริมการเกษตรระดับอำเภอ
บทที่ 4 การกระจาย อำนาจด้านการคลัง
งานเงินสมทบและการตรวจสอบ
ยินดีต้อนรับเข้าสู่บทเรียนคอมพิวเตอร์ วัยรุ่นไทยใส่ใจวัฒนธรรม เรื่อง
การพัฒนาระบบบริหารจัดการกำลังคนด้านสุขภาพ “การพัฒนาบุคลากร”
ค่าใช้จ่ายต่างๆ ในโครงการฯ
วันเสาร์ที่ 2 กรกฎาคม 2559 วิทยาลัยเทคโนโลยีอักษรพัทยา
วิชาสังคมศึกษา ม.3 สาระที่ 1 ศาสนา ศีลธรรม จริยธรรม.
มหาวิยาลัยราชภัฏนครราชสีมา
โครงการสนับสนุนสินเชื่อเกษตรกรชาวสวนยาง รายย่อยเพื่อประกอบอาชีพเสริม
ความหมายของหนี้สาธารณะ
การจัดการชั้นเรียน.
การบริหารการเงิน ในสถานศึกษา
องค์ประกอบและผลกระทบของธุรกิจไมซ์
โคลง ร่าย และ โดยครูธาริตา นพสุวรรณ
Matrix 1.Thamonaporn intasuwan no.7 2.Wannisa chawlaw no.13 3.Sunita taoklang no.17 4.Aungkhana mueagjinda no.20.
สมาชิกโต๊ะ 1 นายสุรวินทร์ รีเรียง นายภาณุวิชญ์ อนุศรี
นำเสนอ วัดเกาะชัน ด.ช.ปกรณ์ ร้อยจันทร์ ม.2/7 เลขที่ 19
รศ.ดร.อนันต์ จันทรโอภากร
การเขียนวิจารณ์วรรณกรรม ๒
การยืมเงิน จากแหล่งเงินงบประมาณรายได้
วิชา หลักการตลาด บทที่ 7 การออกแบบกลยุทธ์ราคา
ผังมโนทัศน์สาระการเรียนรู้ภาษาไทย ชั้นมัธยมศึกษาปีที่ ๑
สาระสำคัญพ.ร.บ.การทวงถามหนี้ พ.ศ.๒๕๕๘ สาระสำคัญพ.ร.บ.การทวงถามหนี้ พ.ศ.๒๕๕๘.
การบัญชีตามความรับผิดชอบและ การประเมินผลการปฏิบัติงาน
ตำบลหนองพลับ ประวัติความเป็นมา
แบบทดสอบ เรื่อง ความน่าจะเป็น.
การปฏิรูประบบศาลยุติธรรม หลังรัฐประหาร 2557
ธาตุ สารประกอบ และปฏิกิริยาเคมี
ข้อกำหนด/มาตรฐาน ด้านสุขาภิบาลอาหาร
การบริหารหลักสูตร ความหมาย : การดำเนินงานที่เกี่ยวข้องกับการทำหลักสูตร และเอกสารประกอบหลักสูตร ไปสู่การปฏิบัติในสถานการณ์จริงหรือกิจกรรมการเรียนการสอนให้เป็นไปตามเป้าหมายที่กำหนดไว้ในหลักสูตรโดยอาศัยการสนับสนุนและร่วมมือจากบุคคลที่เกี่ยวข้องกับการใช้หลักส
PHYSICS by P’Tum LINE
การพิจารณาสัญชาติของบุคคล
ใบสำเนางานนำเสนอ:

88520159 Probability and Statistics for Computing บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล การสร้างแผนภาพกล่อง (Box plot) 88520159 Probability and Statistics for Computing

การวัดการกระจายของข้อมูล ข้อมูลที่มีค่ากลางเท่ากัน แต่ลักษณะของ ข้อมูลแตกต่างกัน หากพิจารณาหรือสรุปลักษณะของข้อมูล โดยใช้ค่ากลางอย่างเดียว อาจทำให้ไม่ทราบ ถึงลักษณะของข้อมูลได้อย่างชัดเจน ตัวอย่าง การตัดสินใจเลือกซื้อหุ้นจากบริษัท A และ B โดยพิจารณาจากเปอร์เซ็นต์ของ ผลกำไรต่อปี ในช่วง 5 ปีที่ผ่านมา ได้ข้อมูล ดังนี้ บริษัท A 10 12 15 18 20 บริษัท B 2 8 15 22 28

การวัดการกระจายของข้อมูล > set = c(rep("group A",5), rep("group B",5)) > dat = c(10,12,15,18,20,2,8,15,22,28) > Info = data.frame(set, dat) > tapply(info$dat, set, mean) #คำนวณค่าเฉลี่ยของข้อมูล dat ในแต่ละกลุ่มของตัวแปร set group A group B 15 15 ฟังก์ชัน tapply() เป็นฟังก์ชันที่ใช้ในการคำนวณค่าสถิติของข้อมูลในแต่ละกลุ่ม

Scatter plots (Dot plots) ฟังก์ชัน stripchart() พลอตค่าของข้อมูลแต่ละค่าเพื่อให้เห็นการกระจายของข้อมูล > stripchart(dat~set, data = info) เมื่อพิจารณาทั้ง กำไรเฉลี่ยและการ กระจายของกำไร จะทำให้ตัดสินใจ ได้ว่าควรซื้อหุ้น จากบริษัท A ดังนั้น ถ้าข้อมูลมีค่าเฉลี่ยเท่ากันแล้วให้พิจารณาการกระจายควบคู่กันไปด้วย

การวัดการกระจายของข้อมูล ในการที่จะทราบความแตกต่างของข้อมูลใน แต่ละกลุ่มเรา เรียกว่า “การวัดการกระจาย” ข้อมูลที่ดีจะต้องมีการกระจายต่ำสุด มีวิธีการวัด ดังนี้ 1. ค่าพิสัย 2. ค่าความแปรปรวน และส่วนเบี่ยงเบน มาตรฐาน 3. พิสัยควอไทล์ 4. ค่าสัมประสิทธิ์การแปรผัน 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์

พิสัย = ค่าสูงสุดของข้อมูล – ค่าต่ำสุดของ ข้อมูล 1. พิสัย (Range) พิสัยเป็นการวัดการกระจายที่ง่ายที่สุด เป็น การหาความแตกต่างของข้อมูลสูงสุดและ ต่ำสุดของกลุ่ม พิสัย = ค่าสูงสุดของข้อมูล – ค่าต่ำสุดของ ข้อมูล ตัวอย่าง พิสัยของข้อมูลบริษัท A ซึ่งมีข้อมูลคือ 10, 12, 15, 18 และ 20 คำนวณหาพิสัยคือ 20-10=10 พิสัยของข้อมูลบริษัท B ซึ่งมีข้อมูลคือ 2, 8, 15, 22 และ 28 คำนวณหาพิสัยคือ 28-2=26 จะเห็นว่าข้อมูลบริษัท B จะมีค่าการกระจาย มากกว่าข้อมูลบริษัท A

1. พิสัย (Range) ฟังก์ชัน range() ให้ผลลัพธ์เป็นค่าต่ำสุด และค่าสูงสุด > tapply(info$dat, set, range) $`group A` [1] 10 20 $`group B` [1] 2 28 ฟังก์ชัน range() ให้ผลลัพธ์เป็นค่าต่ำสุด และค่าสูงสุด > groupA=c(10, 12, 15, 18, 20) > groupB=c(2, 8, 15, 22 ,28) > range(groupA) [1] 10 20 > range(groupB) [1] 2 28

1. พิสัย (Range) จากข้อมูล exec.pay(UsingR) คำนวณหาค่า พิสัย พิสัยมีข้อเสีย คือ ในกรณีใช้พิสัยกับข้อมูลที่มี จำนวนมาก การวัดจะไม่แน่นอน และค่าของ พิสัยจะขึ้นอยู่กับขนาดของข้อมูล ถ้าข้อมูลมี จำนวนมากพิสัยจะมาก ถ้าข้อมูลมีจำนวนน้อย พิสัยจะน้อย > install.packages(“UsingR”) > library(UsingR) > exec.pay > diff(range(exec.pay)) [1] 2510

2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน การวัดความแปรปรวนจะใช้ข้อมูลทุกตัว พิจารณาจากผลรวมของค่าแตกต่างระหว่าง ค่าของข้อมูลกับค่าเฉลี่ย ถ้าค่าแตกต่างนั้นมากแสดงว่าข้อมูลกระจาย มาก หน่วยของความแปรปรวนนั้นจะเป็นหน่วย ของ 𝑥 ยกกำลังสอง ส่วนเบี่ยงเบนมาตรฐานนั้นเป็นรากที่สอง ของความแปรปรวน จะมีหน่วยเดียวกับ 𝑥 การอธิบายถึงการกระจายของข้อมูลด้วย ส่วนเบี่ยงเบนมาตรฐานจึงเข้าใจได้ง่ายกว่า การใช้ความแปรปรวน

ค่าความแปรปรวน (Variance) ความแปรปรวนของตัวอย่าง (Sample Variance) 𝑠 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1   ความแปรปรวนของประชากร (population variance) 𝜎 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 −𝜇) 2 𝑁

ส่วนเบี่ยงเบนมาตรฐาน (standard deviation) ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง (Sample standard deviation) 𝑠= 𝑠 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1   ส่วนเบี่ยงเบนมาตรฐานของประชากร (population standard deviation) 𝜎= 𝜎 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 −𝜇) 2 𝑁

2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน ตัวอย่าง จงหาค่าความแปรปรวนและส่วน เบี่ยงเบนมาตรฐานของข้อมูลจำนวนนิสิต (คน) ที่ลงทะเบียนเรียนวิชาสถิติ 7 กลุ่ม 25 35 55 74 28 54 50 > num=c(25,28,35,50,54,55,74) > var(num) [1] 305.1429
 > sd(num) [1] 17.46834 จากการคำนวณได้ค่า ความแปรปรวนของ ข้อมูลจำนวนนิสิตที่ เรียนวิชาสถิติเป็น 305.14 คน2 และมีค่า เบี่ยงเบนมาตรฐานเป็น 17.47 คน ฟังก์ชัน var() คำนวณค่าความแปรปรวนของตัวอย่าง ฟังก์ชัน sd() คํานวณค่าเบี่ยงเบนมาตรฐานของตัวอย่าง

3. พิสัยควอไทล์ (Inter quartile range: IQR) ค่าพิสัยควอไทล์เป็นค่าที่บอกความผันแปรของ ข้อมูลได้อย่างหยาบๆ ค่าพิสัยควอไทล์หาได้จากผลต่างระหว่าง Q1 และ Q3 คือพิสัยของข้อมูลจำนวน 50 เปอร์เซ็นต์ที่อยู่ กึ่งกลางของชุดข้อมูล เป็นการวัดการกระจายที่เหมาะกับข้อมูลที่การ แจกแจงแบบเบ้ สังเกตได้จากการคำนวณจากค่า Q1 และ Q3 ซึ่งไม่ได้นำข้อมูลที่มีค่าสูงๆ หรือต่ำๆ มา คำนวณ IQR = Q3-Q1

3. พิสัยควอไทล์ (Inter quartile range: IQR) หากพิจารณาลักษณะของข้อมูลโดยรวมพบว่าข้อมูลมีการกระจายเบ้ขวามากจะใช้ค่าพิสัยควอไทล์เป็นการวัดการกระจายของข้อมูลชุดนี้ ค่าพิสัยควอไทล์ของข้อมูลมีค่าเป็น 27.5 > IQR(exec.pay) [1] 27.5
 > sd(exec.pay) [1] 207.0435 > summary(exec.pay)
 Min. 1st Qu. Median Mean 3st Qu. Max
 0.00 14.00 27.00 59.89 41.50 2510.00

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation) หากต้องการเปรียบเทียบการกระจายของ ข้อมูลมากกว่าหนึ่งชุด นำข้อมูลแต่ละชุดมาเปรียบเทียบกันว่าข้อมูล ชุดใดมีการกระจายมากกว่ากัน เปรียบเทียบการกระจายของข้อมูลตั้งแต่ 2 ชุด ขึ้นไป หน่วยต่างกัน มีหน่วยเหมือนกัน แต่ขนาดต่างกัน (ค่าเฉลี่ย ต่างกัน) สัมประสิทธิ์ความแปรผัน เป็นค่าที่ไม่มีหน่วย

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation) สัมประสิทธิ์ความแปรผันของตัวอย่าง 𝑐𝑣= 𝑠 𝑥 ×100%   สัมประสิทธิ์ความแปรผันของประชากร 𝑐𝑣= 𝜎 𝜇 ×100% 𝑠 คือ ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง 𝜎 คือ ส่วนเบี่ยงเบนมาตรฐานของประชากร

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation) ตัวอย่าง จากข้อมูลของบริษัทจำหน่ายรถยนต์ แห่งหนึ่ง ในรอบ 3 เดือน พบว่าจำนวนรถยนต์ ที่จำหน่ายได้เฉลี่ย 87 คัน มีค่าเบี่ยงเบน มาตรฐานเท่ากับ 5 คัน และค่าคอมมิชชั่น (commissions) เฉลี่ย $5225 มีค่าเบี่ยงเบน มาตรฐาน $773 จงเปรียบเทียบการกระจายของข้อมูลทั้งสอง

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation) ตัวอย่าง ข้อมูลต่อไปนี้เป็นส่วนสูง (cm) และ น้ำหนัก (kg) ของนักกีฬา 10 คนที่ถูกสุ่มมาเป็น ตัวอย่าง จงเปรียบเทียบการกระจายของน้ำหนักและ ส่วนสูงของนักกีฬา น้ำหนัก 75 70 82 72 85 68 59 80 76 56 ส่วนสูง 172 169 185 170 180 173 165 182 175 166

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation) ตัวอย่าง บริษัทแห่งหนึ่งแบ่งคนงานออกเป็น 2 กลุ่ม ๆ ละ 5 คน จำนวนชิ้นของสินค้าที่คนงาน แต่ละคนในกลุ่มผลิตเป็นดังนี้
 กลุ่มที่ 1 (X) : 13, 6, 8, 2, 15
 กลุ่มที่ 2 (Y) : 8, 2, 7, 7, 8 จงหากลุ่มพนักงานใดมีการกระจายของ ความสามารถในการผลิตสินค้ามากกว่ากัน

4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation) > g1=c(13,6,8,2,15) > g2=c(8,2,7,7,8) > CV1=sd(g1)/mean(g1)*100 > CV1
 [1] 59.80772
 > CV2=sd(g2)/mean(g2)*100 > CV2
 [1] 39.21844 กลุ่มที่ 1 มีการกระจายของความสามารถในการผลิตสินค้ามากกว่ากลุ่มที่ 2

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation) เป็นการเปรียบเทียบการประจายของข้อมูล สองชุด เมื่อข้อมูลไม่มีการแจกแจงสมมาตร 𝐶𝐷= 𝑄 3 − 𝑄 1 𝑄 3 + 𝑄 1   เมื่อ Q3 และ Q1 คือค่าควอไทล์ที่ 1 และ 3 ตามลำดับ

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation) ตัวอย่าง จากชุดข้อมูล airquality เปรียบเทียบ การกระจายของข้อมูล Solar.R และ Wind > par(mfrow=c(1,2)) > plot(density(airquality$Solar.R,na.rm=TRUE)) > plot(density(airquality$Wind,na.rm=TRUE))

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation) ข้อมูล Solar.R และ Wind เป็นข้อมูลคนละประเภท มีหน่วยการวัดแตกต่างกัน อีกทั้งจากกราฟจะพบว่าข้อมูลไม่มีการกระจายสมมาตร ดังนั้นเราจะเปรียบเทียบการกระจายด้วยสัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์

5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation) > Q3=quantile(airquality$Solar.R,0.75,na.rm = TRUE) > Q1=quantile(airquality$Solar.R,0.25,na.rm = TRUE) > CD1=(Q3-Q1)/(Q3+Q1) > CD1 75% 0.3818425 > Q3_W=quantile(airquality$Wind,0.75,na.rm = TRUE) > Q1_W=quantile(airquality$Wind,0.25,na.rm = TRUE) > CD2=(Q3_W-Q1_W)/(Q3_W+Q1_W) > CD2 0.2169312 แสดงว่าข้อมูล Solar.R มีการกระจายมากกว่าข้อมูล Wind

การสร้างแผนภาพกล่อง (Box plot) Box and whisker plot หรือ Box plot กราฟที่ให้รายละเอียดขอค่าสถิติเพื่อ ตรวจสอบการแจกแจง ค่าต่ำสุดของข้อมูลที่ยังไม่ต่ำผิดปกติ ค่าควอไทล์ที่ 1 (Q1) ค่ามัธยฐาน หรือ ค่าควอไทล์ที่ 2 (Q2) ค่าควอไทล์ที่ 3 (Q3) ค่าสูงสุดของข้อมูลที่ยังไม่สูงผิดปกติ บ่งบอกความเบ้หรือสมมาตรของข้อมูล สามารถตรวจสอบค่าผิดปกติของชุดข้อมูล ได้

การสร้างแผนภาพกล่อง (Box plot) 1. เรียงข้อมูลจากน้อยไปมาก 2. หาค่า Q1, Q2 (มัธยฐาน) , Q3 
 3. หาขอบเขตของค่าที่ยังไม่ผิดปกติ ได้แก่ f1 = Q1 − 1.5(IQR) และ f2 = Q3 + 1.5(IQR) 4. สร้างกล่อง โดยสองด้านของกล่องคือควอไทล์ ที่ 1 และ 3

การสร้างแผนภาพกล่อง (Box plot) 5. สร้าง whisker ทั้ง 2 ด้าน ลากเส้นแนวนอนจากขอบกล่องด้าน Q1 ไปยังค่า ต่ำสุดในกรณีที่ไม่มีค่าผิดปกติ หรือให้ลากไปยังค่า ต่ำสุดที่สูงกว่า f1 ถ้ามีค่าผิดปกติ ลากเส้นแนวนอนจากขอบกล่องด้าน Q3 ไปยัง ค่าสูงสุดในกรณีที่ไม่มีค่าผิดปกติ หรือให้ลากไปยัง ค่าสูงสุดที่ต่ำกว่า f2 ถ้ามีค่าผิดปกติ 6. ในกรณีที่มีค่าผิดปกติให้เขียนลงไปใน แผนภาพโดยใช้สัญลักษณ์ ◦ หรือ *

การสร้างแผนภาพกล่อง (Box plot) ความกว้างของ box เท่ากับ Q3 − Q1 (IQR) กล่าวได้ว่ามีข้อมูล 50% อยู่ใน box ถ้า box กว้างแสดงว่าข้อมูลมีการกระจายมาก ถ้า box แคบแสดงว่าข้อมูลมีการกระจายน้อย การดูลักษณะของข้อมูลว่า สมมาตร เบ้ซ้าย เบ้ขวา ให้ดูทั้งหมดของ box-plot และ Q2 ไป จนถึง whisker ถ้าด้านใดยาวแสดงว่าข้อมูลเบ้ ไปทางด้านนั้น ค่าสูงสุดของข้อมูลที่ยังไม่สูงผิดปกติ คือ ค่าสูงสุดของข้อมูลที่มีค่าไม่เกิน Q3 + 1.5(IQR)

การสร้างแผนภาพกล่อง (Box plot) ค่าต่ำสุดของข้อมูลที่ยังไม่ต่ำผิดปกติ คือ ค่า ต่ำสุดของข้อมูลที่มีค่าไม่เกิน Q1 − 1.5(IQR) ถ้ามีข้อมูลใดมีค่าน้อยกว่า Q1 − 1.5(IQR) หรือ มากกว่า Q3 + 1.5(IQR) จะเรียกข้อมูลนั้น ว่า Outlier แสดงด้วยเครื่องหมายวงกลม (◦) ถ้ามีข้อมูลใดมีค่าน้อยกว่า Q1 − 3(IQR) หรือ มากกว่า Q3 + 3(IQR) จะเรียกข้อมูลนั้นว่า Extremes แสดงด้วยเครื่องหมายดอกจัน (∗)

การสร้างแผนภาพกล่อง (Box plot) ตัวอย่าง ข้อมูลต่อไปนี้คือคะแนนวิชา คณิตศาสตร์ของนิสิตจำนวน 15 คน 13 9 18 15 14 21 7 10 11 20 5 18 37 16 17 วิธีทำ 1. เรียงลำดับจากน้อยไปมาก 5 7 9 10 11 13 14 15 16 17 18 18 20 21 37 2. หาค่า Q1, Q2, Q3

การสร้างแผนภาพกล่อง (Box plot) 3. หาขอบเขตของค่าที่ยังไม่ผิดปกติ f1 = Q1 − 1.5(IQR) f2 = Q3 + 1.5(IQR) 4. สร้างกล่อง โดยสองด้านของกล่องคือควอ ไทล์ที่ 1 และ 3 5. สร้าง whisker ทั้ง 2 ด้าน 6. เขียนสัญลักษณ์ค่าผิดปกติ (ถ้ามี)

การสร้างแผนภาพกล่อง (Box plot) 13 9 18 15 14 21 7 10 11 20 5 18 37 16 17 จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ 1 ค่า คือ 37 หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้างเบ้ซ้าย minimum maximum Q1 median Q3

การสร้างแผนภาพกล่อง (Box plot) ตัวอย่าง ข้อมูลต่อไปนี้คือระดับความสูงของน้ำ (เซนติเมตร) ที่ท่วมบริเวณอำเภอต่าง ๆ 8 อำเภอในจังหวัดปราจีนบุรี 15 13 6 5 12 20 39 18 > water=c(15,13,6,5,12,20,39,18) > boxplot(water)

การสร้างแผนภาพกล่อง (Box plot) จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ 1 ค่า คือ 39 หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้างสมมาตร

การสร้างแผนภาพกล่อง (Box plot) ตัวอย่าง ข้อมูลต่อไปนี้เป็นเวลาที่นิสิตใช้ใน การเล่นอินเทอร์เน็ตต่อวัน (หน่วย:นาที) ของ นิสิตจำนวน 50 คน 22 32 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69 70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83 84 84 85 86 87 88 89 90 90 92 93 95 98 99 >internet=c(22,32,48,49,53,55,57,58,59,60,62,62,63,64,65,66,68,69,70,71,72,73,74,75,75,76,77,77,78,78,79,79,80,80,80,81,83,84,84,85,86,87,88,89,90,90,92,93,95,98,99) > boxplot(internet, horizontal = TRUE)

การสร้างแผนภาพกล่อง (Box plot) ให้นิสิตอธิบายข้อมูลชุดนี้ จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ ….. ค่า คือ ……. หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้าง………..

โจทย์ตัวอย่าง ข้อมูลต่อไปนี้เป็นระยะเวลาที่ใช้เล่นเกมส์ (นาที) ของเด็กผู้ชาย 10 คน และเด็กผู้หญิง 15 คน ที่ถูก สุ่มมาเป็นตัวอย่าง จงหาค่าเฉลี่ยและฐานนิยมของระยะเวลาที่ใช้เล่น เกมส์ในแต่ละกลุ่ม จงหามัธยฐานของระยะเวลาที่ใช้เล่นเกมส์ของ เด็กแต่ละกลุ่ม
 จงหาค่าควอไทล์ที่ 1 และ 3 ของระยะเวลาที่ใช้ เล่นเกมส์ของเด็กแต่ละกลุ่ม ข้อมูลระยะเวลาของเด็กกลุ่มใดมีการกระจาย มากกว่ากัน จงแสดงวิธีการคำนวณ ชาย 62, 75, 58, 45, 60, 86, 75, 90, 67, 45 หญิง 50, 25, 40, 38, 75, 49, 50, 44, 80, 30, 33, 46, 57, 68, 74

การสร้างแผนภาพกล่อง (Box plot) boxplot(female, male, names = c("female", "male"), horizontal = TRUE) ข้อมูลสองกลุ่มมีหน่วยเหมือนกัน แต่ค่าเฉลี่ยต่างกัน และทั้งสองกลุ่มมีการกระจายแบบสมมาตร ควรใช้ สัมประสิทธิ์การแปรผัน ในการวัดการกระจาย

สรุป สมมาตร / ไม่สมมาตร ดูจาก - boxplot - denaity plot - ความสัมพันธ์ของค่าเฉลี่ย มัธยฐาน ฐานนิยม ค่ากลางที่เหมาะสม - mean (สมมาตร) - median (ไม่สมมาตร) - mode (ข้อมูลเชิงคุณภาพ)

สรุป ค่าการกระจายที่เหมาะสม วัดการกระจายข้อมูลชุดเดียว หรือ ตั้งแต่ 2 ชุดที่มี หน่วยเหมือนกันและค่าเฉลี่ยเท่ากัน - ค่าพิสัย (สมมาตร หาแบบหยาบๆ) - ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน (สมมาตร หาแบบละเอียด) - ค่าพิสัยควอไทล์ (ไม่สมมาตร) วัดการกระจายตั้งแต่ 2 ชุด ที่มีหน่วยเหมือนกันแต่ ค่าเฉลี่ยต่างกัน หรือ มีหน่วยต่างกัน - ค่าสัมประสิทธิ์การแปรผัน (สมมาตร) - ค่าสัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (ไม่ สมมาตร)