การแจกแจงความน่าจะเป็นแบบต่อเนื่องต่าง ๆ The Normal Distribution and Other Continuous Distributions
Probability Distributions การแจกแจงความน่าจะเป็น Probability Distributions Discrete Probability Distributions Continuous Probability Distributions Binomial Normal Poisson Uniform Hypergeometric Exponential
Continuous Probability Distributions A continuous random variable หมายถึงตัวแปรสุ่มที่มีค่าต่อเนื่อง หรือ เป็นเศษส่วนได้ เช่น ความหนาของชิ้นงาน เวลาการทำงาน อุณหภูมิ ความสูง ระดับความระเอียดของค่าที่วัดได้ขึ้นกับความสามารถของเครื่องมือวัด
The Normal Distribution รูประฆังคว่ำ (Bell Shaped) สมมาตร (Symmetrical) Mean, Median และ Mode มีค่าเท่ากัน ตำแหน่งของค่ากลางวัดด้วยค่าเฉลี่ย (mean, μ) การกระจายตัววัดด้วยค่าเบี่ยงเบนมาตรฐาน (standard deviation, σ) ตัวแปรมีค่าในช่วง + to f(X) σ X μ Mean = Median = Mode
The Normal Distribution Shape f(X) การเปลี่ยนค่า μ จะทำให้รูปการกระจายตัวเลื่อนไปทางซ้ายหรือขวา การเปลี่ยนค่า σ หมายถึงการเพิ่มหรือลดของความผันแปร และทำให้ความสูงของการกระจายตัวเปลี่ยนไป σ μ X
The Normal Probability Density Function ฟังก์ชั่นความหนาแน่น (probability density function, pdf) เมื่อ e = ค่าคงที่ทางคณิตศาสตร์ มีค่าประมาณ 2.71828 π = ค่าคงที่ทางคณิตศาสตร์ มีค่าประมาณ 3.14159 μ = ค่าเฉลี่ยของประชากร (population mean) σ = ค่าเบี่ยงเบนมาตรฐานของประชากร (population standard deviation) X = ตัวแปรสุ่มแบบต่อเนื่อง
การแจกแจงแบบปกติมาตรฐาน The Standardized Normal ตัวแปรสุ่มที่แจกแจงแบบ normal (X) ทุกตัวสามารถแปลงให้เป็นตัวแปรสุ่มที่มีการแจกแจงแบบปกติมาตรฐาน standardized normal distribution (Z) ได้
Translation to the Standardized Normal Distribution แปลง X เป็น Z โดย subtracting the mean of X and dividing by its standard deviation ดังนี้: ตัวแปรสุ่ม Z มีค่า mean = 0 และ standard deviation = 1 เสมอ
The Standardized Normal Probability Density Function probability density function ของตัวแปรสุ่ม Z เมื่อ e = ค่าคงที่ทางคณิตศาสตร์ มีค่าประมาณ 2.71828 π = ค่าคงที่ทางคณิตศาสตร์ มีค่าประมาณ 3.14159 Z = ตัวแปรสุ่มแบบ standardized normal distribution
The Standardized Normal Distribution อาจเรียกว่า “Z” distribution Mean = 0 Standard Deviation = 1 f(Z) 1 Z Values above the mean have positive Z-values, values below the mean have negative Z-values
Example ถ้า X แจกแจงแบบปกติ (normally distributed) มีค่า mean = 100 และ standard deviation = 50, จะได้ค่า Z สำหรับ X = 200 คือ หมายถึงค่า X = 200 มีค่าสูงกว่าค่าเฉลี่ยไป 2 เท่าของค่าเบี่ยงเบนมาตรฐาน
เปรียบเทียบระหว่าง X และ Z units 100 200 X (μ = 100, σ = 50) 2.0 Z (μ = 0, σ = 1) Note that the distribution is the same, only the scale has changed. We can express the problem in original units (X) or in standardized units (Z)
การคำนวณความน่าจะเป็นของการแจกแจงแบบปกติ Probability is the area under the curve! Probability วัดได้จากพื้นที่ใต้กราฟ (area under the curve) f(X) P ( a ≤ X ≤ b ) = P ( a < X < b ) (Note that the probability of any individual value is zero) a b X
Probability as Area Under the Curve The total area under the curve is 1.0, and the curve is symmetric, so half is above the mean, half is below f(X) 0.5 0.5 μ X
Empirical Rules What can we say about the distribution of values around the mean? There are some general rules: f(X) μ ± 1σ encloses about 68% of X’s σ σ X μ-1σ μ μ+1σ 68.26%
The Empirical Rule μ ± 2σ covers about 95% of X’s (continued) μ ± 2σ covers about 95% of X’s μ ± 3σ covers about 99.7% of X’s 3σ 3σ 2σ 2σ μ x μ x 95.44% 99.72%
The Standardized Normal Table การหาค่าความน่าจะเป็นสามารถทำได้โดยการใช้ตารางปกติมาตรฐาน .9772 Example: P(Z < 2.00) = .9772 Z 2.00
การใช้ตารางปกติมาตรฐาน (continued) The column gives the value of Z to the second decimal point Z 0.00 0.01 0.02 … 0.0 0.1 The row shows the value of Z to the first decimal point The value within the table gives the probability from Z = up to the desired Z value . 2.0 .9772 P(Z < 2.00) = .9772 2.0
ขั้นตอนทั่วไปของการคำนวณความน่าจะเป็นของตัวแปรสุ่มที่แจกแจงแบบปกติ จงหา P(a < X < b) เมื่อ X is distributed normally: วาดรูป normal curve บนสเกล X แปลงค่าตัวแปรสุ่ม X เป็นตัวแปรสุ่ม Z หาความน่าจะเป็นจาก Standardized Normal Table
Finding Normal Probabilities Suppose X is normal with mean 8.0 and standard deviation 5.0 Find P(X < 8.6) X 8.0 8.6
Finding Normal Probabilities (continued) Suppose X is normal with mean 8.0 and standard deviation 5.0. Find P(X < 8.6) μ = 8 σ = 10 μ = 0 σ = 1 X Z 8 8.6 0.12 P(X < 8.6) P(Z < 0.12)
Solution: Finding P(Z < 0.12) Standardized Normal Probability Table (Portion) P(X < 8.6) = P(Z < 0.12) .02 Z .00 .01 .5478 0.0 .5000 .5040 .5080 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 Z 0.3 .6179 .6217 .6255 0.00 0.12
Upper Tail Probabilities Suppose X is normal with mean 8.0 and standard deviation 5.0. Now Find P(X > 8.6) X 8.0 8.6
Upper Tail Probabilities (continued) Now Find P(X > 8.6)… P(X > 8.6) = P(Z > 0.12) = 1.0 - P(Z ≤ 0.12) = 1.0 - .5478 = .4522 .5478 1.000 1.0 - .5478 = .4522 Z Z 0.12 0.12
Probability Between Two Values Suppose X is normal with mean 8.0 and standard deviation 5.0. Find P(8 < X < 8.6) Calculate Z-values: 8 8.6 X 0.12 Z P(8 < X < 8.6) = P(0 < Z < 0.12)
Solution: Finding P(0 < Z < 0.12) P(8 < X < 8.6) Standardized Normal Probability Table (Portion) = P(0 < Z < 0.12) = P(Z < 0.12) – P(Z ≤ 0) .02 Z .00 .01 = .5478 - .5000 = .0478 0.0 .5000 .5040 .5080 .0478 .5000 0.1 .5398 .5438 .5478 0.2 .5793 .5832 .5871 0.3 .6179 .6217 .6255 Z 0.00 0.12
Probabilities in the Lower Tail Suppose X is normal with mean 8.0 and standard deviation 5.0. Now Find P(7.4 < X < 8) X 8.0 7.4
Probabilities in the Lower Tail (continued) Now Find P(7.4 < X < 8)… P(7.4 < X < 8) = P(-0.12 < Z < 0) = P(Z < 0) – P(Z ≤ -0.12) = .5000 - .4522 = .0478 .0478 .4522 The Normal distribution is symmetric, so this probability is the same as P(0 < Z < 0.12) X 7.4 8.0 Z -0.12
การหาค่า X ที่สอดคล้องกับความน่าจะเป็นที่กำหนด Steps to find the X value for a known probability: 1. หาค่า Z สำหรับความน่าจะเป็นที่ทราบค่า จากตารางค่า Z 2. หาค่า X จากสูตร:
Finding the X value for a Known Probability (continued) Example: สมมติ X is normal with mean 8.0 and standard deviation 5.0. จงหาค่า X ที่คาดว่าจะมีตัวแปร X อื่น ๆ ซึ่งมีค่าน้อยค่านี้ประมาณ 20% .2000 X ? 8.0 Z ?
Find the Z value for 20% in the Lower Tail 1. Find the Z value for the known probability Standardized Normal Probability Table (Portion) 20% area in the lower tail is consistent with a Z value of -0.84 .04 Z … .03 .05 -0.9 … .1762 .1736 .1711 .2000 -0.8 … .2033 .2005 .1977 -0.7 … .2327 .2296 .2266 X ? 8.0 Z -0.84
Finding the X value 2. Convert to X units using the formula: So 20% of the values from a distribution with mean 8.0 and standard deviation 5.0 are less than 3.80
การประเมินว่าข้อมูลแจกแจงแบบปกติหรือไม่ ตัวแปรสุ่มแบบต่อเนื่องทั้งหมดมิได้แจกแจงแบบปกติ ก่อนการใช้งานจริง จึงควรศึกษาก่อนว่าการแจกแจงแบบปกติสามารถอธิบายพฟติกรรมของข้อมูลที่สนใจได้ดีเพียงใด
การประเมินว่าข้อมูลแจกแจงแบบปกติหรือไม่ (continued) สร้าง charts or graphs For small- or moderate-sized data sets, do stem-and-leaf display and box-and-whisker plot look symmetric? For large data sets, does the histogram or polygon appear bell-shaped? คำนวณ descriptive summary measures mean, median และ mode มีค่าใกล้เคียงกันหรือไม่? Is the interquartile range approximately 1.33 σ? ค่าพิสัยมีค่าประมาณ 6 σ?
การประเมินว่าข้อมูลแจกแจงแบบปกติหรือไม่ (continued) Observe the distribution of the data set Do approximately 2/3 of the observations lie within mean 1 standard deviation? Do approximately 80% of the observations lie within mean 1.28 standard deviations? Do approximately 95% of the observations lie within mean 2 standard deviations? Evaluate normal probability plot Is the normal probability plot approximately linear with positive slope?
The Uniform Distribution The uniform distribution is a probability distribution that has equal probabilities for all possible outcomes of the random variable Also called a rectangular distribution
The Uniform Distribution (continued) The Continuous Uniform Distribution: f(X) = where f(X) = value of the density function at any X value a = minimum value of X b = maximum value of X
Properties of the Uniform Distribution The mean of a uniform distribution is The standard deviation is
Uniform Distribution Example ตัวอย่าง: Uniform probability distribution over the range 2 ≤ X ≤ 6: 1 f(X) = = .25 for 2 ≤ X ≤ 6 6 - 2 f(X) .25 X 2 6
The Exponential Distribution Used to model the length of time between two occurrences of an event (the time between arrivals) Examples: เวลาระหว่างการมาถึงท่าเรือของรถบรรทุก เวลาระหว่างการถูกใช้งานโดยลูกค้าของเครื่อง ATM เวลาระหว่างการเข้ามาถึงของโทรศัพท์ที่ Operators
The Exponential Distribution Defined by a single parameter, its mean λ (lambda) The probability that an arrival time is less than some specified time X is where e = mathematical constant approximated by 2.71828 λ = the population mean number of arrivals per unit X = any value of the continuous variable where 0 < X <
Exponential Distribution Example Example: Customers arrive at the service counter at the rate of 15 per hour. What is the probability that the arrival time between consecutive customers is less than three minutes? The mean number of arrivals per hour is 15, so λ = 15 Three minutes is .05 hours P(arrival time < .05) = 1 – e-λX = 1 – e-(15)(.05) = .5276 So there is a 52.76% probability that the arrival time between successive customers is less than three minutes
Sampling Distributions Sampling Distributions of the Mean Sampling Distributions of the Proportion
Sampling Distributions A sampling distribution is a distribution of all of the possible values of a statistic for a given size sample selected from a population
Developing a Sampling Distribution Assume there is a population … Population size N=4 Random variable, X, is age of individuals Values of X: 18, 20, 22, 24 (years) D A C B
Developing a Sampling Distribution (continued) Summary Measures for the Population Distribution: P(x) .3 .2 .1 x 18 20 22 24 A B C D Uniform Distribution
Now consider all possible samples of size n=2 Developing a Sampling Distribution (continued) Now consider all possible samples of size n=2 16 Sample Means 16 possible samples (sampling with replacement)
Sampling Distribution of All Sample Means Developing a Sampling Distribution (continued) Sampling Distribution of All Sample Means Sample Means Distribution 16 Sample Means _ P(X) .3 .2 .1 _ 18 19 20 21 22 23 24 X (no longer uniform)
Summary Measures of this Sampling Distribution: Developing a Sampling Distribution (continued) Summary Measures of this Sampling Distribution:
Comparing the Population with its Sampling Distribution Sample Means Distribution n = 2 _ P(X) P(X) .3 .3 .2 .2 .1 .1 _ X 18 20 22 24 A B C D 18 19 20 21 22 23 24 X
Sampling Distributions of the Mean Sampling Distributions of the Proportion
Standard Error of the Mean Different samples of the same size from the same population will yield different sample means A measure of the variability in the mean from sample to sample is given by the Standard Error of the Mean: Note that the standard error of the mean decreases as the sample size increases
If the Population is Normal If a population is normal with mean μ and standard deviation σ, the sampling distribution of is also normally distributed with and (This assumes that sampling is with replacement or sampling is without replacement from an infinite population)
Z-value for Sampling Distribution of the Mean Z-value for the sampling distribution of : where: = sample mean = population mean = population standard deviation n = sample size
Finite Population Correction Apply the Finite Population Correction if: the sample is large relative to the population (n is greater than 5% of N) and… Sampling is without replacement Then
Sampling Distribution Properties Normal Population Distribution (i.e. is unbiased ) Normal Sampling Distribution (has the same mean)
Sampling Distribution Properties (continued) For sampling with replacement: As n increases, decreases Larger sample size Smaller sample size
If the Population is not Normal We can apply the Central Limit Theorem: Even if the population is not normal, …sample means from the population will be approximately normal as long as the sample size is large enough. Properties of the sampling distribution: and
Central Limit Theorem the sampling distribution becomes almost normal regardless of shape of population As the sample size gets large enough… n↑
If the Population is not Normal (continued) Population Distribution Sampling distribution properties: Central Tendency Sampling Distribution (becomes normal as n increases) Variation Larger sample size Smaller sample size (Sampling with replacement)
How Large is Large Enough? For most distributions, n > 30 will give a sampling distribution that is nearly normal For fairly symmetric distributions, n > 15 For normal population distributions, the sampling distribution of the mean is always normally distributed
Example Suppose a population has mean μ = 8 and standard deviation σ = 3. Suppose a random sample of size n = 36 is selected. What is the probability that the sample mean is between 7.8 and 8.2?
Example (continued) Solution: Even if the population is not normally distributed, the central limit theorem can be used (n > 30) … so the sampling distribution of is approximately normal … with mean = 8 …and standard deviation
Example Solution (continued): (continued) Z X Population Distribution Sampling Distribution Standard Normal Distribution .1915 +.1915 ? ? ? ? ? ? ? ? ? ? Sample Standardize ? ? -0.5 0.5 7.8 8.2 Z X
Sampling Distributions of the Proportion Mean Sampling Distributions of the Proportion
Population Proportions, p p = the proportion of the population having some characteristic Sample proportion ( ps ) provides an estimate of p: 0 ≤ ps ≤ 1 ps has a binomial distribution (assuming sampling with replacement from a finite population or without replacement from an infinite population)
Sampling Distribution of p Approximated by a normal distribution if: where and Sampling Distribution P( ps) .3 .2 .1 ps 0 . 2 .4 .6 8 1 (where p = population proportion)
Z-Value for Proportions Standardize ps to a Z value with the formula: If sampling is without replacement and n is greater than 5% of the population size, then must use the finite population correction factor:
Example If the true proportion of voters who support Proposition A is p = .4, what is the probability that a sample of size 200 yields a sample proportion between .40 and .45? i.e.: if p = .4 and n = 200, what is P(.40 ≤ ps ≤ .45) ?
Example if p = .4 and n = 200, what is P(.40 ≤ ps ≤ .45) ? Find : (continued) if p = .4 and n = 200, what is P(.40 ≤ ps ≤ .45) ? Find : Convert to standard normal:
Standardized Normal Distribution Example (continued) if p = .4 and n = 200, what is P(.40 ≤ ps ≤ .45) ? Use standard normal table: P(0 ≤ Z ≤ 1.44) = .4251 Standardized Normal Distribution Sampling Distribution .4251 Standardize .40 .45 1.44 ps Z