Population and sample Chavanant Sumanasrethakul MD., M.Sc.

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
E-COMMERCE WEBSITE Smartzap Co., Ltd.. Company Profile บริษัท สมาร์ทแซป จำกัด ก่อตั้งเมื่อปี 2543 (13 ปี ) ในช่วงยุค Internet เพิ่ง เริ่มต้น เป็นบริษัทที่ดำเนินงานทางด้าน.
Advertisements

John Rawls  John Rawls is the most famous American social contract theorist argued that “Justice is fairness” He Thought human natural have a appropriate.
Research Methodology in Biomedical Research
Set is a basic term in Mathematics. There is no precise definition for term “set”, But roughly speaking, a set is a collection of objects, Things or symbols,
จำนวน สถานะ NUMBER OF STATES. ประเด็นที่ สนใจ The number of distinct states the finite state machine needs in order to recognize a language is related.
INTELLECTUAL CAPITAL : IC Group 3: Tipada Subhasean Nongluk Charoeschai Nerisa Wangkarat
Educational Objectives
Chapter 9 : Designing Approach
Braille OCR Mobile Application
รู้จักกับเทคโนโลยี RFID เบื้องต้น
Emergency Response System for Elderly and PWDs: Design & Development
VARIABLES, EXPRESSION and STATEMENTS. Values and Data Types Value เป็นสิ่งพื้นฐาน มีลักษณะเป็น ตัวอักษร หรือ ตัวเลข อาทิ 2+2 หรือ “Hello world” Value.
อาจารย์ มธ. อธิบายการใช้ โมเดลของ
Chapter 5: Functions of Random Variables. สมมติว่าเรารู้ joint pdf ของ X 1, X 2, …, X n --> ให้หา pdf ของ Y = u (X 1, X 2, …, X n ) 3 วิธี 1. Distribution.
ระบบการจัดเก็บในคลังสินค้า
Medical Student Education Department of Orthopaedic Surgery and Physical Medicine Faculty of Medicine Prince of Songkla University.
: Chapter 1: Introduction 1 Montri Karnjanadecha ac.th/~montri Image Processing.
Color Standards A pixel color is represented as a point in 3-D space. Axis may be labeled as independent colors such as R, G, B or may use other independent.
What is Cluster Analysis? Finding groups of objects such that the objects in a group will be similar (or related) to one another and different from (or.
ออโตมาตาจำกัด FINITE AUTOMATA
REGULAR EXPRESSION การบรรยายแบบสม่ำเสมอ
Helping you make better treatment decisions for your patients.
Positive Accounting Theory
Chapter 19 Network Layer: Logical Addressing
Statistics and Numerical Method Part I: Statistics 1/2555 สมศักดิ์ ศิวดำรงพงศ์
1 Stability studies of amphetamine and ephedrine derivatives in urine อาจารย์ที่ปรึกษา อ. ดร. พัลลพ คันธิยงค์ นางสาวดรุณรัตน์ แก้วมูล รหัสนักศึกษา
ผศ.(พิเศษ)น.พ.นภดล สุชาติ พ.บ. M.P.H.
Study Design ผศ.( พิเศษ ) น. พ. นภดล สุชาติ พ. บ. M.P.H.
Inductive, Deductive Reasoning ผศ.( พิเศษ ) น. พ. นภดล สุชาติ พ. บ. M.P.H.
Course Software Engineering SE Overview and Introduction.
December 25 th, 2013 Naresuan University Hospital, Faculty of Medicine, Naresuan University December 25 th, 2013 Naresuan University Hospital, Faculty.
        วงจรดิจิตอลลอจิก 3(2-1-3)
MK380 Marketing Information System
การออกแบบและพัฒนาซอฟต์แวร์ บทที่ 7 การทดสอบโปรแกรม
8/3/2014The Realities of software Testing1 Software testing Realities What is the realities of software testing Why does the software testing not complete.
Merchant Marine Training Centre วิชาการเป็นเลิศ เชิดชู คุณธรรม ผู้นำ.
Research Problem Research Question Research Hypothesis
Data Data are Raw material Data are values of qualitative or quantitative variables, belonging to a set of items. Sample 23, 36, 60 male, female like,
หัวหน้าหน่วยโรคภูมิแพ้ สถาบันสุขภาพเด็กแห่งชาติมหาราชินี
Algorithm Efficiency There are often many approaches (algorithms) to solve a problem. How do we choose between them? At the heart of computer program.
น.ท.หญิง วัชราพร เชยสุวรรณ
Introduction to Earned Value Analysis.
Chapter 10 Design of experimental research in communication.
Writing a research. Why Research?  To find whether the messages and the materials are appropriate to the target group  To modify the messages and the.
Measurement in communication research
จัดทำโดย นางสาวทิพยรัตน์ กำลังมาก เลขที่ 19 นางสาวปัญณิศา ป้องขันธ์ เลขที่ 26 นางสาวพรวษาทวีกุล เลขที่ 27 นางสาววลัยลักษณ์ ขวัญคุ้ม เลขที่ 34 นางสาวอมรรัตน์
การสร้าง WebPage ด้วย Java Script Wachirawut Thamviset.
Dianne J. Hall David B. Paradice James F. Courtney Proceedings of the 34th Hawaii International Conference on System Sciences
ทุนทางปัญญา Intellectual Capital KM743 Session 3.1
เอกสารเรียนวันที่ 27 มกราคม 2555
วันที่ 3 กรกฎาคม 2555 Forecasting technique การพยากรณ์
เอกสารเรียนวันที่ 7 กันยายน 2555
Chapter 3 Simple Supervised learning
Chapter 1/1 Arrays. Introduction Data structures are classified as either linear or nonlinear Linear structures: elements form a sequence or a linear.
Epidemiology study of urolithiasis in south of northeast Thailand.
วันที่ 28 มิถุนายน 2556 Forecasting technique การพยากรณ์
An Online Computer Assisted Instruction Development of Electronics Devices Subject for Learning Effectiveness Testing By Assoc.Prof. Suwanna Sombunsukho.
Physical Chemistry IV The Ensemble
Thongchai Pratipanawatr
I NTERACTION BETWEEN PARACETAMOL AND WARFARIN IN PATIENTS : A DOUBLE - BLIND, PLACEBO - CONTROLLED, RANDOMIZED STUDY นสภ. มารุตต์ตรีอินทองรหัส
The Analysis of Strands, Standards and Indicators for Tests
 Mr.Nitirat Tanthavech.  HTML forms are used to pass data to a server.  A form can contain input elements like text fields, checkboxes, radio-buttons,
1. นี่เป็นสิ่งที่พระเยซูทรงทำ พระองค์ทรงรักษาทุกคน ที่เจ็บป่วยให้หายดี
Control Charts for Count of Non-conformities
<insert problem title>
Forces and Laws of Motion
Lesson 7-6: Function Operations
STRATEGIES FOR SUCCESS
Natural Selection and Mutation
Year 9 Term 1 Foundation (Unit 1) INTEGERS, ROUNDING AND PLACE VALUE
ใบสำเนางานนำเสนอ:

Population and sample Chavanant Sumanasrethakul MD., M.Sc. Department of Preventive and Social Medicine BMA Medical College and Vajira Hospital 13 Oct 2009

จุดมุ่งหมายสำคัญของการศึกษา นำผลที่ศึกษาไปใช้กับประชากรเป้าหมาย ต้องมีกรอบของประชากรที่ถูกต้อง เพื่อได้ประชากรที่ศึกษาที่เป็นตัวแทนที่ดี ต้องมีขนาดตัวอย่างที่เหมาะสม

Statistical Inference POPULATION SAMPLE INFERENCE I would now like to explain the concept of statistical inference because this is the most important aspect and once grasped I feel that it helps you to have a better understanding of statistical testing. Essentially in medical research we would like to find out if one treatment is more superior that the conventional treatment, Why is their an increase in the incidence of child onset asthma?, Are antibiotics effective in treating otitus media? Interested in laparoscopic surgery of hernia repair in adults. Want to compare it with conventional open hernia repair operation. Essentially to know the real effect of how effective laparoscopic hernai repair is we would collect information from all adults undergoing surgery for hernia repair. Of course this would not be practical. Therefore we need to collect data only from a sample of this population of adults undergoing hernia repair. This sample of patients would then be randomly allocatesd to open or laparoscipic and data pertaining to certain outcomes return to work, compications, hospital stay would be collected for this sample of patients. The efffectiveness of open versus laparoscopic would be estimated using data collected from the sample. We would then want to use the estimates obtained from the sample to make some inference about the true population value of effectiveness. The sample estimate obtatined will rarely equal the true population parameter, but will vary around this true population parameter. This introduces the idea of variability to sample estimates. If wqe took another sample from the population we would be unlikely to find the same estimate of the efeectiveness. Process of making generalisation about a population from a sample.

ประชากรและตัวอย่าง ประชากร (population) คือ สมาชิกทั้งหมดที่เราสามารถนำผลการศึกษาไปประยุกต์ใช้ได้ ซึ่งอาจเป็นคน กลุ่มคน องค์กร หรือเหตุการณ์ ประชากรเป้าหมาย (target population) คือประชากรที่เรากำหนดกรอบหรือกฎเกณฑ์ให้เจาะจงขึ้น เพื่อตรงกับความประสงค์ของการศึกษา ซึ่งกรอบนั้นขึ้นกับวัตถุประสงค์ คำถามการวิจัย หรือเกณฑ์ที่มีผู้กำหนดไว้แล้ว

ประชากรและตัวอย่าง ประชากรที่ใช้ศึกษา (study population) คือ ประชากรที่ผ่านเกณฑ์การคัดเลือกที่จะนำมาศึกษาโดยเป็นตัวแทนที่ดีสามารถครอบคลุมประชากรเป้าหมายได้เกือบทั้งหมด ซึ่งเกณฑ์ในการพิจารณา (eligibility criteria) มีทั้งการเลือกเข้าและคัดออกโดยพิจารณาจาก 1) เลือกสถานที่ 2) คุณลักษณะของประชากร เช่น เพศ อายุ ระยะของโรค ประชากรที่ติดตามได้ โรคอื่นๆที่เกิดร่วม ความยินยอม

Population Research Question Target Population Eligibility Criteria Study Population Sampling Sample Allocation/ Randomization Control Group Experiment Group

Measurement (Exposure/Outcome) Point to consider Target population Study population Sampling frame Sample Sampling unit Study unit Measurement (Exposure/Outcome) Representativeness External validity Sampling bias Response bias Measurement error

Example Imagine that a random sample of 100 individuals is to be selected from a population Their height in cm is measured The mean height is computed Another random sample of 100 individuals from the same population is taken Their height in cm in measured Their mean height is computed This is repeated until 20 random samples have been taken

20 samples of size 100 The first sample of heights of 100 people gives a mean of 172.03 cm and a standard deviation (SD) of 6.03 cm. The second sample gives mean 173.50 cm & SD 6.74 cm. These figures represent the mean height (cm) for each of the 20 random samples 172.03 173.50 171.89 171.95 170.59 172.63 172.72 171.99 172.50 171.71 172.55 172.86 171.58 172.83 172.55 171.28 172.62 171.41 171.38 172.26 Stress that all samples came from the same population So that the range of weights could have been from 50 to 75kg Look at the spread of the sample means - much tighter between 61.5 and 65.2, so the variability of the sample means is 1.18kg (ie that is the SD of the sampling distribution of the means - not the actual observations the sd of the actual observations is 5.28 kg When talking about the precision of any of these estimates of the mean, then we can say that 1.18 is the level of precision of the mena ie the SE of the mean. How can we use this information.

Histogram of means of 20 samples

Histogram of means of 100 samples

Methods of sampling Simple random Systematic Stratified Cluster Probability Simple random Systematic Stratified Cluster Multi-stage Non-probability Quota Convenience Dimensional Purposive Snowball

วิธีการคัดเลือก จุดแข็ง จุดอ่อน Probability Sampling Simple Random ทุกหน่วยมีโอกาสได้รับการคัดเลือกเท่ากัน นำข้อมูลย้อนกลับไปสู่ประชากรได้ ต้องมี Sampling Frame ที่สมบูรณ์ Systematic เรียงลำดับหน่วย ทำได้ง่าย Stratified แบ่งเป็นกลุ่มแล้วสุ่มจากแต่ละกลุ่ม ได้ตัวแทนจากทุกกลุ่ม Frame แต่ละกลุ่ม Cluster เช่นเลือกคนเดียวในครัวเรือนเป็นตัวอย่าง ไม่ต้องมี Sampling Frame Standard Error สูง Multistage จากจังหวัดเป็น อำเภอ ตำบล

Simple random sampling Each item in the population has an equal chance of being selected for the sample Random number table 84 42 56 53 87 75 78 87 77 03 57 09 85 86 48 86 12 39 65 37 93 76 46 11 09 49 41 73 76 49 64 06 71 99 37 06 46 69 31 24 33 52 67 85 07 75 56 96

Systematic sampling Advantages - It is simpler and can be more representative than a simple random sample Disadvantages - possibility of implicit clustering, not a simple random sample

Stratified sampling Increases the representativeness of the sample Increases the precision of the resulting estimates Allows comparison between strata

Cluster sampling  sample (…)  n1 children n2 children Schools Disadvantages - Less representative than a simple random sample and there is a danger of contamination between respondents Advantages - Cheaper and faster than a simple random sample Schools 1 2 20 (…) n1 children sample n2 children n20 children   (clusters) (population)

Multi-stage sampling   H Different sampling units are sampled at different stages Example Geographical areas of Thailand would randomly be selected, from which hospitals would be randomly selected from which wards/patients would then be randomly selected. H   areas (patients)

Non-probability sampling การเอกตัวอย่างแบบกำหนดจำนวนไว้ก่อน (quota sampling) การเลือกตัวอย่างแบบสะดวก (convenience sampling) การเลือกตัวอย่างตามมิติ (dimensional sampling) การเลือกตัวอย่างแบบมีจุดมุ่งหมาย (purposive sampling) การเลือกตัวอย่างแบบลูกโซ่ (snowball sampling)

Probability sampling Advantages (easy to analyse) should be unbiased known precision Disadvantages requires sampling frame to be known expense

Non-probability sampling Advantages cheap Quick Disadvantages may be biased no estimate of precision

Sample size

Sample size Why is it so important? How do you calculate it? What information do you need? Only going to look at sample size for a comparative study. Also possible to for surveys etc.

Sample size (i) Sample size important because : too small a sample will fail to detect clinically important effects too large a sample will identify statistically significant differences which have no clinical relevance both situations unethical Use Craig’s tossing a coin and counting heads example to kick off with. No point in running a trial that which will not be able to answer questions asked of it. 200 patients in a trail where 100 would have done results in 50 getting inferior treatment. All unethical if scientifically useless, waste of resources and unethical use of subjects.

Factors which determine sample size calculation The study design (Survey), comparative, repeated measures The outcome measure categorical, continuous The statistical analysis t-test, chi-squared, regression .

Comparative studies Null hypothesis: Treatment A = Treatment B Alternative hypothesis Treatment A  Treatment B

Significance level and power Significance Level (Type I error rate) This is the probability that the statistical test returns a significant result when there is no difference between treatments Power (Type II error rate) This gives the probability that a study of a given size would detect, as statistically significant, a real difference of a given magnitude Significance level, known as type I error rate. Explain a p-value. Power Type II error rate. Explain power. (remember to to include should it exist, and as large or more extreme!) Large differences are easy to detect, explain why.

Factors which affect sample size The proportion with/average of the feature of interest in the control group Minimum clinically significant difference The smallest difference in effectiveness between two treatments that would be deemed to be clinically relevant Significance level Power Measure of variability

Example of categorical data How many children with acute otitus media are needed in a clinical trial to test whether antibiotic treatment changes the proportion of children with normal eardrums Statistical Test for this sort of data? The null hypothesis in this example? What information do we need to calculate the sample size?

That’s the way to do it! The proportion with the feature of interest in the control group i.e. An estimate proportion with normal ear drums when not treated, 75% The increase/decrease in the proportion of interest judged to clinically significant In this case, 10% Power and significance levels 80% power and 5% significance

Continuous outcome How many patients are needed in a trial to evaluate the effect of supplementary vitamin D given to pregnant women in preventing neonatal hypocalcaemia? (Want to increase the mean serum calcium level!) Statistical Test? Null hypothesis?

Continuous (continued) Difference in mean serum calcium level that would be considered a clinical improvement Increase of 0.5mg per 100ml Estimate of the variation between infants in their serum calcium level sd = 1.8 mg per 100ml (where do we get this info?) Power and significance level 80% and 5 % Calculate standardised difference standardised difference = difference/sd

Limitations Sample size calculation is not an exact science, could be considered informed guess work Need for general consensus on what constitutes clinically important Reporting of a sample size calculation does not infer that the study is adequately powered, study may not have recruited as many people as they anticipated, or suffered dropouts or loss to follow-up

The truth is out there An accurate inference is required to be both precise and unbiased Steps should be taken to ensure that this is so Minimise bias by (adequate) randomisation concealment and blinding checking that missing data does not follow patterns Maximise precision formal statistical power calculation CONSORT statement! (see references)

Quantitative Method (การวัดเชิงปริมาณ) Qualitative Method (การวัดเชิงคุณภาพ) Research question Estimation ทำในกลุ่มเดียว Incidence Prevalence Association ทำในกลุ่มเดียวหรือสองกลุ่ม การสูบบุหรี่และมะเร็งปอด Difference ทำในสองกลุ่ม ยา A ดีกว่ายา B หรือไม่

Alpha and beta errors Truth  การทดสอบทางสถิติ (Fact) A=B A = B ยอมรับ Ho : A = B  error (type II) ปฏิเสธ Ho, ยอมรับ H1 αerror (type I)

Estimation single group

Proportion response variable The one-sample problem Estimating the population proportion (P) Where d = Precision or difference (| p - P|) Z = 1.96 at 95% CI 1.64 at 90% CI P = the proportion in population or the true proportion n = Z2 P (1 - P) d2

ตัวอย่าง ต้องการประมาณสัดส่วนของความดันโลหิตสูงในผู้สูงอายุ การศึกษาความชุกในอดีตเท่ากับร้อยละ 20 และความคลาดเคลื่อนที่ยอมรับได้เท่ากับร้อยละ 5 P = 0.2 1- P = 0.8 Za at 5% = 1.96 d = 0.05 or 5% ( Absolute diff.) n = 246

ตัวอย่าง Comparing n in different P, d at a = .05 P d n 0.2 0.02 1537 0.2 0.02 1537 0.03 683 0.04 384 0.05 246 0.3 0.02 2017 0.03 896 0.04 504 0.05 323

Continuous response variables The one-sample problem Estimating the population mean n = Za2 2 d2  2 = variance of data d = precision or | X - m|

Difference two independent groups

Note : this formula is derived for equal sized group Hypothesis testing Ho : P1 - P2 = 0 Ha : P1 - P2 = 0 n|group = {Za 2Pc(1-Pc) + Zb Pt(1-Pt) + Pc(1-Pc) }2 (Pt - Pc)2 where Pt = treatment, Pc = control Za at two-tailed (1.96)or one-tailed test (1.64) Z at one-tailed test Power = 1 – Note : this formula is derived for equal sized group

Hypothesis testing for two population means Ho = m1 - m2 = 0 Ha = m1 - m2 = 0 n|group = 2 s2 [ Za+Zb ]2 [m1 - m2]2

Difference two related groups

Sample size for dependent samples 2 n pair = (Za + Zb) s s = variance of the within pair diff. = the value of the mean diff. that is clinically important to detect

Association

Unmatched Case-Control Studies Schlesselman (1982) 2 n|group = Z 2Po(1-Po) + Z P1(1-P1)+P2(1-P2) P1 - P2 P1 = P2 (OR) 1+P2 (OR-1) P2 = the proportion exposed in control OR = odds Ratio Po = (P1+P2) /2 where

matched Case-Control Studies 2 N pair = Z 2 + Z 2P1P2/  P1 - P2 P1 = ma/N P2 = mb/N  = (P1 + P2) / 2 where Control + - Case m a m b 

Cohort Studies 2 n|group = Z 2P(1-P) + Z P1(1+R-P1(1+R2)) P1(1-R) P1 = Incidence of non exposure R = Relative risk P = (P1(1+R)) / 2 where

การกระจายตัวอย่างเป็นกลุ่มควบคุมกลุ่มทดลอง การจัดสรรแบบสุ่ม (Randomization) เช่น โยนเหรียญ การจับสลาก การจัดสรรแบบบล็อก (Block Randomization) เช่น กลุ่มควบคุม=C กลุ่มทดลอง=E จัดเรียงเป็น CCEE, CECE, CEEC, EECC, ECEC, ECCE จัดแบบแบ่งชั้น (Stratified allocation) เช่นโรคมะเร็งลำไส้ใหญ่ แบ่งเป็น Duke’s A,B,C ก่อนแล้วจัดสรรแบบสุ่มต่อไป จัดแบบ Minimization โดยโปรแกรมคอมพิวเตอร์

Simple randomization การจัดสรรแบบสุ่ม เช่น โยนเหรียญ การจับสลาก

Block Randomization การจัดสรรแบบบล็อก เช่น กลุ่มควบคุม=C กลุ่มทดลอง=E จัดเรียงเป็น CCEE CECE CEEC EECC ECEC ECCE

Stratified allocation จัดแบบแบ่งชั้น เช่นโรคมะเร็งลำไส้ใหญ่ แบ่งเป็น Duke’s A,B,C ก่อนแล้วจัดสรรแบบสุ่มต่อไป

Minimization โดยใช้โปรแกรมคอมพิวเตอร์

Solution In a survey, a RANDOM SAMPLE should allow for findings to generalised from survey sample to population and minimise selection bias In a comparative study, RANDOMISATION should ensure equal prognostic characteristics in each group, allowing any difference in effect to be attributed to the intervention