งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

Probability and Statistics for Computing

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "Probability and Statistics for Computing"— ใบสำเนางานนำเสนอ:

1 88520159 Probability and Statistics for Computing
บทที่ 2 สถิติเชิงพรรณนา การวัดการกระจายของข้อมูล การสร้างแผนภาพกล่อง (Box plot) Probability and Statistics for Computing

2 การวัดการกระจายของข้อมูล
ข้อมูลที่มีค่ากลางเท่ากัน แต่ลักษณะของ ข้อมูลแตกต่างกัน หากพิจารณาหรือสรุปลักษณะของข้อมูล โดยใช้ค่ากลางอย่างเดียว อาจทำให้ไม่ทราบ ถึงลักษณะของข้อมูลได้อย่างชัดเจน ตัวอย่าง การตัดสินใจเลือกซื้อหุ้นจากบริษัท A และ B โดยพิจารณาจากเปอร์เซ็นต์ของ ผลกำไรต่อปี ในช่วง 5 ปีที่ผ่านมา ได้ข้อมูล ดังนี้ บริษัท A บริษัท B

3 การวัดการกระจายของข้อมูล
> set = c(rep("group A",5), rep("group B",5)) > dat = c(10,12,15,18,20,2,8,15,22,28) > Info = data.frame(set, dat) > tapply(info$dat, set, mean) #คำนวณค่าเฉลี่ยของข้อมูล dat ในแต่ละกลุ่มของตัวแปร set group A group B ฟังก์ชัน tapply() เป็นฟังก์ชันที่ใช้ในการคำนวณค่าสถิติของข้อมูลในแต่ละกลุ่ม

4 Scatter plots (Dot plots)
ฟังก์ชัน stripchart() พลอตค่าของข้อมูลแต่ละค่าเพื่อให้เห็นการกระจายของข้อมูล > stripchart(dat~set, data = info) เมื่อพิจารณาทั้ง กำไรเฉลี่ยและการ กระจายของกำไร จะทำให้ตัดสินใจ ได้ว่าควรซื้อหุ้น จากบริษัท A ดังนั้น ถ้าข้อมูลมีค่าเฉลี่ยเท่ากันแล้วให้พิจารณาการกระจายควบคู่กันไปด้วย

5 การวัดการกระจายของข้อมูล
ในการที่จะทราบความแตกต่างของข้อมูลใน แต่ละกลุ่มเรา เรียกว่า “การวัดการกระจาย” ข้อมูลที่ดีจะต้องมีการกระจายต่ำสุด มีวิธีการวัด ดังนี้ 1. ค่าพิสัย 2. ค่าความแปรปรวน และส่วนเบี่ยงเบน มาตรฐาน 3. พิสัยควอไทล์ 4. ค่าสัมประสิทธิ์การแปรผัน 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์

6 พิสัย = ค่าสูงสุดของข้อมูล – ค่าต่ำสุดของ ข้อมูล
1. พิสัย (Range) พิสัยเป็นการวัดการกระจายที่ง่ายที่สุด เป็น การหาความแตกต่างของข้อมูลสูงสุดและ ต่ำสุดของกลุ่ม พิสัย = ค่าสูงสุดของข้อมูล – ค่าต่ำสุดของ ข้อมูล ตัวอย่าง พิสัยของข้อมูลบริษัท A ซึ่งมีข้อมูลคือ 10, 12, 15, 18 และ 20 คำนวณหาพิสัยคือ 20-10=10 พิสัยของข้อมูลบริษัท B ซึ่งมีข้อมูลคือ 2, 8, 15, 22 และ 28 คำนวณหาพิสัยคือ 28-2=26 จะเห็นว่าข้อมูลบริษัท B จะมีค่าการกระจาย มากกว่าข้อมูลบริษัท A

7 1. พิสัย (Range) ฟังก์ชัน range() ให้ผลลัพธ์เป็นค่าต่ำสุด และค่าสูงสุด
> tapply(info$dat, set, range) $`group A` [1] 10 20 $`group B` [1] 2 28 ฟังก์ชัน range() ให้ผลลัพธ์เป็นค่าต่ำสุด และค่าสูงสุด > groupA=c(10, 12, 15, 18, 20) > groupB=c(2, 8, 15, 22 ,28) > range(groupA) [1] 10 20 > range(groupB) [1] 2 28

8 1. พิสัย (Range) จากข้อมูล exec.pay(UsingR) คำนวณหาค่า พิสัย
พิสัยมีข้อเสีย คือ ในกรณีใช้พิสัยกับข้อมูลที่มี จำนวนมาก การวัดจะไม่แน่นอน และค่าของ พิสัยจะขึ้นอยู่กับขนาดของข้อมูล ถ้าข้อมูลมี จำนวนมากพิสัยจะมาก ถ้าข้อมูลมีจำนวนน้อย พิสัยจะน้อย > install.packages(“UsingR”) > library(UsingR) > exec.pay > diff(range(exec.pay)) [1] 2510

9 2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน
การวัดความแปรปรวนจะใช้ข้อมูลทุกตัว พิจารณาจากผลรวมของค่าแตกต่างระหว่าง ค่าของข้อมูลกับค่าเฉลี่ย ถ้าค่าแตกต่างนั้นมากแสดงว่าข้อมูลกระจาย มาก หน่วยของความแปรปรวนนั้นจะเป็นหน่วย ของ 𝑥 ยกกำลังสอง ส่วนเบี่ยงเบนมาตรฐานนั้นเป็นรากที่สอง ของความแปรปรวน จะมีหน่วยเดียวกับ 𝑥 การอธิบายถึงการกระจายของข้อมูลด้วย ส่วนเบี่ยงเบนมาตรฐานจึงเข้าใจได้ง่ายกว่า การใช้ความแปรปรวน

10 ค่าความแปรปรวน (Variance)
ความแปรปรวนของตัวอย่าง (Sample Variance) 𝑠 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1 ความแปรปรวนของประชากร (population variance) 𝜎 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 −𝜇) 2 𝑁

11 ส่วนเบี่ยงเบนมาตรฐาน (standard deviation)
ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง (Sample standard deviation) 𝑠= 𝑠 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝑥 ) 2 𝑛−1 ส่วนเบี่ยงเบนมาตรฐานของประชากร (population standard deviation) 𝜎= 𝜎 2 = 𝑖=1 𝑛 ( 𝑥 𝑖 −𝜇) 2 𝑁

12 2. ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน
ตัวอย่าง จงหาค่าความแปรปรวนและส่วน เบี่ยงเบนมาตรฐานของข้อมูลจำนวนนิสิต (คน) ที่ลงทะเบียนเรียนวิชาสถิติ 7 กลุ่ม > num=c(25,28,35,50,54,55,74) > var(num) [1] 
 > sd(num) [1] จากการคำนวณได้ค่า ความแปรปรวนของ ข้อมูลจำนวนนิสิตที่ เรียนวิชาสถิติเป็น คน2 และมีค่า เบี่ยงเบนมาตรฐานเป็น คน ฟังก์ชัน var() คำนวณค่าความแปรปรวนของตัวอย่าง ฟังก์ชัน sd() คํานวณค่าเบี่ยงเบนมาตรฐานของตัวอย่าง

13 3. พิสัยควอไทล์ (Inter quartile range: IQR)
ค่าพิสัยควอไทล์เป็นค่าที่บอกความผันแปรของ ข้อมูลได้อย่างหยาบๆ ค่าพิสัยควอไทล์หาได้จากผลต่างระหว่าง Q1 และ Q3 คือพิสัยของข้อมูลจำนวน 50 เปอร์เซ็นต์ที่อยู่ กึ่งกลางของชุดข้อมูล เป็นการวัดการกระจายที่เหมาะกับข้อมูลที่การ แจกแจงแบบเบ้ สังเกตได้จากการคำนวณจากค่า Q1 และ Q3 ซึ่งไม่ได้นำข้อมูลที่มีค่าสูงๆ หรือต่ำๆ มา คำนวณ IQR = Q3-Q1

14 3. พิสัยควอไทล์ (Inter quartile range: IQR)
หากพิจารณาลักษณะของข้อมูลโดยรวมพบว่าข้อมูลมีการกระจายเบ้ขวามากจะใช้ค่าพิสัยควอไทล์เป็นการวัดการกระจายของข้อมูลชุดนี้ ค่าพิสัยควอไทล์ของข้อมูลมีค่าเป็น 27.5 > IQR(exec.pay) [1] 27.5
 > sd(exec.pay) [1] > summary(exec.pay)
 Min. 1st Qu. Median Mean 3st Qu. Max


15 4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)
หากต้องการเปรียบเทียบการกระจายของ ข้อมูลมากกว่าหนึ่งชุด นำข้อมูลแต่ละชุดมาเปรียบเทียบกันว่าข้อมูล ชุดใดมีการกระจายมากกว่ากัน เปรียบเทียบการกระจายของข้อมูลตั้งแต่ 2 ชุด ขึ้นไป หน่วยต่างกัน มีหน่วยเหมือนกัน แต่ขนาดต่างกัน (ค่าเฉลี่ย ต่างกัน) สัมประสิทธิ์ความแปรผัน เป็นค่าที่ไม่มีหน่วย

16 4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)
สัมประสิทธิ์ความแปรผันของตัวอย่าง 𝑐𝑣= 𝑠 𝑥 ×100% สัมประสิทธิ์ความแปรผันของประชากร 𝑐𝑣= 𝜎 𝜇 ×100% 𝑠 คือ ส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง 𝜎 คือ ส่วนเบี่ยงเบนมาตรฐานของประชากร

17 4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)
ตัวอย่าง จากข้อมูลของบริษัทจำหน่ายรถยนต์ แห่งหนึ่ง ในรอบ 3 เดือน พบว่าจำนวนรถยนต์ ที่จำหน่ายได้เฉลี่ย 87 คัน มีค่าเบี่ยงเบน มาตรฐานเท่ากับ 5 คัน และค่าคอมมิชชั่น (commissions) เฉลี่ย $5225 มีค่าเบี่ยงเบน มาตรฐาน $773 จงเปรียบเทียบการกระจายของข้อมูลทั้งสอง

18 4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)
ตัวอย่าง ข้อมูลต่อไปนี้เป็นส่วนสูง (cm) และ น้ำหนัก (kg) ของนักกีฬา 10 คนที่ถูกสุ่มมาเป็น ตัวอย่าง จงเปรียบเทียบการกระจายของน้ำหนักและ ส่วนสูงของนักกีฬา น้ำหนัก 75 70 82 72 85 68 59 80 76 56 ส่วนสูง 172 169 185 170 180 173 165 182 175 166

19 4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)
ตัวอย่าง บริษัทแห่งหนึ่งแบ่งคนงานออกเป็น 2 กลุ่ม ๆ ละ 5 คน จำนวนชิ้นของสินค้าที่คนงาน แต่ละคนในกลุ่มผลิตเป็นดังนี้
 กลุ่มที่ 1 (X) : 13, 6, 8, 2, 15
 กลุ่มที่ 2 (Y) : 8, 2, 7, 7, 8 จงหากลุ่มพนักงานใดมีการกระจายของ ความสามารถในการผลิตสินค้ามากกว่ากัน

20 4. สัมประสิทธิ์การแปรผัน (Coefficient of Variation)
> g1=c(13,6,8,2,15) > g2=c(8,2,7,7,8) > CV1=sd(g1)/mean(g1)*100 > CV1
 [1] 
 > CV2=sd(g2)/mean(g2)*100 > CV2
 [1] กลุ่มที่ 1 มีการกระจายของความสามารถในการผลิตสินค้ามากกว่ากลุ่มที่ 2

21 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)
เป็นการเปรียบเทียบการประจายของข้อมูล สองชุด เมื่อข้อมูลไม่มีการแจกแจงสมมาตร 𝐶𝐷= 𝑄 3 − 𝑄 1 𝑄 3 + 𝑄 1 เมื่อ Q3 และ Q1 คือค่าควอไทล์ที่ 1 และ 3 ตามลำดับ

22 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)
ตัวอย่าง จากชุดข้อมูล airquality เปรียบเทียบ การกระจายของข้อมูล Solar.R และ Wind > par(mfrow=c(1,2)) > plot(density(airquality$Solar.R,na.rm=TRUE)) > plot(density(airquality$Wind,na.rm=TRUE))

23 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)
ข้อมูล Solar.R และ Wind เป็นข้อมูลคนละประเภท มีหน่วยการวัดแตกต่างกัน อีกทั้งจากกราฟจะพบว่าข้อมูลไม่มีการกระจายสมมาตร ดังนั้นเราจะเปรียบเทียบการกระจายด้วยสัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์

24 5. สัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (Coefficient of quartile deviation)
> Q3=quantile(airquality$Solar.R,0.75,na.rm = TRUE) > Q1=quantile(airquality$Solar.R,0.25,na.rm = TRUE) > CD1=(Q3-Q1)/(Q3+Q1) > CD1 75% > Q3_W=quantile(airquality$Wind,0.75,na.rm = TRUE) > Q1_W=quantile(airquality$Wind,0.25,na.rm = TRUE) > CD2=(Q3_W-Q1_W)/(Q3_W+Q1_W) > CD2 แสดงว่าข้อมูล Solar.R มีการกระจายมากกว่าข้อมูล Wind

25 การสร้างแผนภาพกล่อง (Box plot)
Box and whisker plot หรือ Box plot กราฟที่ให้รายละเอียดขอค่าสถิติเพื่อ ตรวจสอบการแจกแจง ค่าต่ำสุดของข้อมูลที่ยังไม่ต่ำผิดปกติ ค่าควอไทล์ที่ 1 (Q1) ค่ามัธยฐาน หรือ ค่าควอไทล์ที่ 2 (Q2) ค่าควอไทล์ที่ 3 (Q3) ค่าสูงสุดของข้อมูลที่ยังไม่สูงผิดปกติ บ่งบอกความเบ้หรือสมมาตรของข้อมูล สามารถตรวจสอบค่าผิดปกติของชุดข้อมูล ได้

26 การสร้างแผนภาพกล่อง (Box plot)
1. เรียงข้อมูลจากน้อยไปมาก 2. หาค่า Q1, Q2 (มัธยฐาน) , Q3 
 3. หาขอบเขตของค่าที่ยังไม่ผิดปกติ ได้แก่ f1 = Q1 − 1.5(IQR) และ f2 = Q (IQR) 4. สร้างกล่อง โดยสองด้านของกล่องคือควอไทล์ ที่ 1 และ 3

27 การสร้างแผนภาพกล่อง (Box plot)
5. สร้าง whisker ทั้ง 2 ด้าน ลากเส้นแนวนอนจากขอบกล่องด้าน Q1 ไปยังค่า ต่ำสุดในกรณีที่ไม่มีค่าผิดปกติ หรือให้ลากไปยังค่า ต่ำสุดที่สูงกว่า f1 ถ้ามีค่าผิดปกติ ลากเส้นแนวนอนจากขอบกล่องด้าน Q3 ไปยัง ค่าสูงสุดในกรณีที่ไม่มีค่าผิดปกติ หรือให้ลากไปยัง ค่าสูงสุดที่ต่ำกว่า f2 ถ้ามีค่าผิดปกติ 6. ในกรณีที่มีค่าผิดปกติให้เขียนลงไปใน แผนภาพโดยใช้สัญลักษณ์ ◦ หรือ *

28 การสร้างแผนภาพกล่อง (Box plot)
ความกว้างของ box เท่ากับ Q3 − Q1 (IQR) กล่าวได้ว่ามีข้อมูล 50% อยู่ใน box ถ้า box กว้างแสดงว่าข้อมูลมีการกระจายมาก ถ้า box แคบแสดงว่าข้อมูลมีการกระจายน้อย การดูลักษณะของข้อมูลว่า สมมาตร เบ้ซ้าย เบ้ขวา ให้ดูทั้งหมดของ box-plot และ Q2 ไป จนถึง whisker ถ้าด้านใดยาวแสดงว่าข้อมูลเบ้ ไปทางด้านนั้น ค่าสูงสุดของข้อมูลที่ยังไม่สูงผิดปกติ คือ ค่าสูงสุดของข้อมูลที่มีค่าไม่เกิน Q (IQR)

29 การสร้างแผนภาพกล่อง (Box plot)
ค่าต่ำสุดของข้อมูลที่ยังไม่ต่ำผิดปกติ คือ ค่า ต่ำสุดของข้อมูลที่มีค่าไม่เกิน Q1 − 1.5(IQR) ถ้ามีข้อมูลใดมีค่าน้อยกว่า Q1 − 1.5(IQR) หรือ มากกว่า Q (IQR) จะเรียกข้อมูลนั้น ว่า Outlier แสดงด้วยเครื่องหมายวงกลม (◦) ถ้ามีข้อมูลใดมีค่าน้อยกว่า Q1 − 3(IQR) หรือ มากกว่า Q3 + 3(IQR) จะเรียกข้อมูลนั้นว่า Extremes แสดงด้วยเครื่องหมายดอกจัน (∗)

30 การสร้างแผนภาพกล่อง (Box plot)
ตัวอย่าง ข้อมูลต่อไปนี้คือคะแนนวิชา คณิตศาสตร์ของนิสิตจำนวน 15 คน วิธีทำ 1. เรียงลำดับจากน้อยไปมาก 2. หาค่า Q1, Q2, Q3

31 การสร้างแผนภาพกล่อง (Box plot)
3. หาขอบเขตของค่าที่ยังไม่ผิดปกติ f1 = Q1 − 1.5(IQR) f2 = Q (IQR) 4. สร้างกล่อง โดยสองด้านของกล่องคือควอ ไทล์ที่ 1 และ 3 5. สร้าง whisker ทั้ง 2 ด้าน 6. เขียนสัญลักษณ์ค่าผิดปกติ (ถ้ามี)

32 การสร้างแผนภาพกล่อง (Box plot)
จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ 1 ค่า คือ 37 หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้างเบ้ซ้าย minimum maximum Q1 median Q3

33 การสร้างแผนภาพกล่อง (Box plot)
ตัวอย่าง ข้อมูลต่อไปนี้คือระดับความสูงของน้ำ (เซนติเมตร) ที่ท่วมบริเวณอำเภอต่าง ๆ 8 อำเภอในจังหวัดปราจีนบุรี > water=c(15,13,6,5,12,20,39,18) > boxplot(water)

34 การสร้างแผนภาพกล่อง (Box plot)
จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ 1 ค่า คือ 39 หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้างสมมาตร

35 การสร้างแผนภาพกล่อง (Box plot)
ตัวอย่าง ข้อมูลต่อไปนี้เป็นเวลาที่นิสิตใช้ใน การเล่นอินเทอร์เน็ตต่อวัน (หน่วย:นาที) ของ นิสิตจำนวน 50 คน >internet=c(22,32,48,49,53,55,57,58,59,60,62,62,63,64,65,66,68,69,70,71,72,73,74,75,75,76,77,77,78,78,79,79,80,80,80,81,83,84,84,85,86,87,88,89,90,90,92,93,95,98,99) > boxplot(internet, horizontal = TRUE)

36 การสร้างแผนภาพกล่อง (Box plot)
ให้นิสิตอธิบายข้อมูลชุดนี้ จะเห็นได้ว่าข้อมูลชุดนี้มีค่าผิดปกติ ….. ค่า คือ ……. หากไม่พิจารณาค่าผิดปกติแล้ว จะได้ว่าข้อมูลมีการกระจายค่อนข้าง………..

37 โจทย์ตัวอย่าง ข้อมูลต่อไปนี้เป็นระยะเวลาที่ใช้เล่นเกมส์ (นาที) ของเด็กผู้ชาย 10 คน และเด็กผู้หญิง 15 คน ที่ถูก สุ่มมาเป็นตัวอย่าง จงหาค่าเฉลี่ยและฐานนิยมของระยะเวลาที่ใช้เล่น เกมส์ในแต่ละกลุ่ม จงหามัธยฐานของระยะเวลาที่ใช้เล่นเกมส์ของ เด็กแต่ละกลุ่ม
 จงหาค่าควอไทล์ที่ 1 และ 3 ของระยะเวลาที่ใช้ เล่นเกมส์ของเด็กแต่ละกลุ่ม ข้อมูลระยะเวลาของเด็กกลุ่มใดมีการกระจาย มากกว่ากัน จงแสดงวิธีการคำนวณ ชาย 62, 75, 58, 45, 60, 86, 75, 90, 67, 45 หญิง 50, 25, 40, 38, 75, 49, 50, 44, 80, 30, 33, 46, 57, 68, 74

38 การสร้างแผนภาพกล่อง (Box plot)
boxplot(female, male, names = c("female", "male"), horizontal = TRUE) ข้อมูลสองกลุ่มมีหน่วยเหมือนกัน แต่ค่าเฉลี่ยต่างกัน และทั้งสองกลุ่มมีการกระจายแบบสมมาตร ควรใช้ สัมประสิทธิ์การแปรผัน ในการวัดการกระจาย

39 สรุป สมมาตร / ไม่สมมาตร ดูจาก - boxplot - denaity plot
- ความสัมพันธ์ของค่าเฉลี่ย มัธยฐาน ฐานนิยม ค่ากลางที่เหมาะสม - mean (สมมาตร) - median (ไม่สมมาตร) - mode (ข้อมูลเชิงคุณภาพ)

40 สรุป ค่าการกระจายที่เหมาะสม
วัดการกระจายข้อมูลชุดเดียว หรือ ตั้งแต่ 2 ชุดที่มี หน่วยเหมือนกันและค่าเฉลี่ยเท่ากัน - ค่าพิสัย (สมมาตร หาแบบหยาบๆ) - ค่าความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน (สมมาตร หาแบบละเอียด) - ค่าพิสัยควอไทล์ (ไม่สมมาตร) วัดการกระจายตั้งแต่ 2 ชุด ที่มีหน่วยเหมือนกันแต่ ค่าเฉลี่ยต่างกัน หรือ มีหน่วยต่างกัน - ค่าสัมประสิทธิ์การแปรผัน (สมมาตร) - ค่าสัมประสิทธิ์ส่วนเบี่ยงเบนควอไทล์ (ไม่ สมมาตร)


ดาวน์โหลด ppt Probability and Statistics for Computing

งานนำเสนอที่คล้ายกัน


Ads by Google