การตรวจสอบข้อมูล (Data Exploratory)

การตรวจสอบข้อมูล (Data Exploratory)
การใช้โปรแกรมคอมพิวเตอร์ทางสถิติในด้านสังคมศาสตร์ (The Application of Statistical Package in Social Sciences) การตรวจสอบข้อมูล (Data Exploratory) ผู้ช่วยศาสตราจารย์ ดร. เรวัต แสงสุริยงค์ URL:

การวิเคราะห์ข้อมูลเบื้องต้น (Exploratory Data Analysis: EDA)
การตรวจสอบความผิดพลาดในการกรอกข้อมูล (Errors in data entry/Screen data) การตรวจสอบค่าสูญหาย (Missing Values) การตรวจสอบค่าผิดปกติ/โต่ง (Outlier/Extreme) การตรวจสอบการแจกแจงของข้อมูล (Distribution) การตรวจสอบความเท่ากันของแปรปรวน (Homogeneity of Variances/Equality of Variances) การตรวจสอบความสัมพันธ์เชิงเส้นตรง (Linearity/Linear Relationships) การตรวจสอบตรวจสอบภาวะร่วมเส้นตรงพหุ (Muticollinearity) การตรวจสอบส่วนเหลือ (Residuals)

การตรวจสอบความผิดพลาดในการกรอกข้อมูล (Errors in data entry/Screen data)

การตรวจสอบความผิดพลาดในการกรอกข้อมูล
การประมวลผล Analyze -> Descriptive Statistics Frequencies… (ข้อมูลแบ่งกลุ่ม/เชิงคุณภาพ) หรือ Descriptives… (ข้อมูลต่อเนื่อง/เชิงปริมาณ) Crosstab เลือกตัวแปรที่คิดว่าไม่น่าจะมีความสัมพันธ์กัน เช่น สถานภาพสมรส กับ จำนวนบุตร การแปลผล ดูช่วงข้อมูล หากมีข้อมูลอยู่นอกขอบเขต แสดงว่ามีการกรอกข้อมูลผิด

แบบฝึกหัดการตรวจสอบความผิดพลาดในการกรอกข้อมูล
เปิดแฟ้มข้อมูล gss00a-2.sav ใช้คำสั่ง Frequencies, Descrivtives และ Crosstab ตรวจสอบตัวแปรทั้งหมดว่ามีความผิดพลาดในการกรอกข้อมูลหรือไม่

การตรวจสอบข้อมูล/ค่าสูญหาย
(Missing Values)

ข้อมูลสญหาย (Missing Data)
ข้อมูลสูญหาย คือ ค่าสังเกตหรือค่าของตัวแปรที่ต้องการทราบค่าแต่ไม่สามารถทราบค่าได้ (สุคนธ์ ประสิทธิ์วัฒนเสรี) โปรแกรมด้านสถิติส่วนใหญ่ไม่นำเอาข้อมูล (exclude) ที่มีตัวแปรที่เราสนใจแต่มีค่าขาดหาย (missing value) มาทำการวิเคราะห์ นี่เป็นกระบวนการที่ไม่เหมาะสม เนื่องจากผู้ศึกษาให้ความสนใจประชากรที่เป็นเป้าหมายทั้งหมดมากกว่าบางส่วนของประชากร ซึ่งสามารถให้ข้อมูลทั้งหมดที่เกี่ยวกับตัวแปรในการวิเคราะห์ อย่างไรก็ตามมีวิธีการทำให้ข้อมูลที่ถูกลดจำนวนลงสามารถทำการวิเคราะห์ได้ เช่น การวัดตัวแปร 5 ตัว จากการเก็บข้อมูลทุกๆเดือนเป็นเวลา 6 เดือน พบว่า แต่ละตัวแปรมีค่าขาดหายแบบสุ่ม 5% คาดว่า จำนวนของข้อมูลที่สมบูรณ์น่าจะมีประมาณ 17% วิธีการแก้ไขคือ การแทนค่า (imputation) ค่าที่ขาดหาย

สาเหตุของการเกิดข้อมูลสญหาย
“The problem of missing data arises frequently in practice.” D. Rubin, 1976 สาเหตุของการเกิดข้อมูลสญหาย (Missing data may arise) 1. ความไม่ตั้งใจ (Unintentionally) : a) ไม่ต้องแก้ไข (can be ignored) b) ต้องแก้ไข (cannot be ignored) 2. ความตั้งใจ (Intentionally). กระบวนการคือ: a) การเลือกสุ่มกลุ่มตัวอย่าง (Random selection of sample): ไม่เลือกหน่วยที่มีข้อมูลสญหาย (Unselected units are missing) b) การแบ่งการสุ่มเพื่อแก้ปัญหา (Random allocation to treatment): ค่าที่ได้จากการสังเกตถูกแบ่งแยกออกไปเพื่อแก้ปัญหาต่างกัน (Values that would have been observed had the units been allocated to different treatments are missing) c) กระบวนการที่ขาดความระมัดระวัง (Robust procedures): ลบค่าโด่งและที่มีคุณค่าออก (Outlying and influential values are deleted)

ผลกระทบของข้อมูลสญหาย (Results of Missing Data)
ให้ผลการวิเคราะห์ผิดพลาด (Bias) ค่าสถิติไม่มีอำนาจในการทำนายที่ดี (Statistical Power) ทั้งวิเคราะห์ผิดพลาดและไม่ได้ค่าสถิติที่มีอำนาจในการทำนาย (Both)

สาเหตุของข้อมูลสญหาย (Causes of Missingness)
ปกติ (Ignorable) ไม่จำเป็นต้องปรับแก้ การขาดหายที่ไม่เป็นระบบอย่างสมบูรณ์ (Missing Completely At Random: MCAR) เป็นชุดข้อมูลที่มีข้อมูลสญหายเหมือนกัน หรือเกือบเหมือนกัน เนื่องจากไม่มีข้อมูลสญหาย การขาดหายที่ไม่เป็นระบบ (Missing At Random: MAR) รูปแบบของข้อมูลที่มีการขาดหาย (missingness) ที่สามารถติดตามตรวจสอบได้ (traceable) หรือสามารถทำนาย (predictable) ได้จากตัวแปรอื่นๆ ไม่ปกติ (Non-Ignorable) ต้องปรับแก้ การขาดหายอย่างมีระบบ (Missing Not At Random: MNAR) รูปแบบของข้อมูลมีการขาดหายที่ไม่เป็นแบบสุ่ม (non-random) หรือไม่สามารถทำนายได้จากตัวแปรตัวอื่นๆ

รูปแบบข้อมูลสญหายหนึ่งตัวแปร
ไม่ตอบคำถาม 1 ตัวแปร (Univariate nonresponse) ตัวแปร 1 ตัว มีค่าขาดหาย (One variable has missing values) Case Var 1 Var 2 Var 3 Var 4 Var 5 1 4 2 7 3 6 8 5

รูปแบบข้อมูลสญหายมากกว่าหนึ่งตัวแปร
หลายตัวแปร 2 รูปแบบ (Multivariate two patterns) มีข้อมูลสญหายมากกว่าหนึ่งตัวแปรเหมือนกันในหลายๆกลุ่มตัวอย่าง (More than one variable missing, all on the same cases (Unit non-response in surveys) Case Var 1 Var 2 Var 3 Var 4 Var 5 1 4 2 7 3 6 8 5

รูปแบบข้อมูลสญหายแบบคล้ายกัน
ข้อมูลสญหายเป็นไปในทิศทางเดียวกัน (Monotone) ซึ่งส่วนใหญ่เกิดจากผู้ตอบแบบสอบถามไม่ให้ความร่วมมือ Case Var 1 Var 2 Var 3 Var 4 Var 5 1 4 2 7 3 6 8 5

รูปแบบข้อมูลสญหายแบบปกติ
ข้อมูลสญหายแบบสุ่มปกติ (General random) รูปแบบการขาดหายไม่เป็นระบบ (Haphazard pattern) ซึ่งเป็นผลมาจากผู้ตอบแบบสอบถามไม่ทราบข้อมูล Case Var 1 Var 2 Var 3 Var 4 Var 5 1 4 2 3 6 8 5 9

วิธีการแก้ปัญหาข้อมูลสญหาย (Approach to Missing Data Problems)
วิเคราะห์เฉพาะชุดข้อมูลที่ทุกตัวแปรไม่มีค่าขาดหาย (Listwise) วิเคราะห์เฉพาะชุดข้อมูลที่คู่ตัวแปรไม่มีค่าขาดหาย (Pairwise) ตัวแปรทั้งสองตัวไม่มีค่าขาดหาย ตัวแปรหนึ่งตัวไม่มีค่าขาดหาย ประมาณค่าที่สูญหายด้วยวิธีความเป็นไปได้สูงสุด (Maximum Likelihood Estimation: MLE) ใส่ค่าหลายค่าแทนข้อมูลที่สูญหาย (Multiple imputation)

การแก้ไขข้อมูลสญหาย “กระบวนการแก้ไขข้อมูลสญหาย เช่น การแทนค่าข้อมูล (imputed data) จะต้องอธิบายรายละเอียดว่า ทำการแทนค่าอย่างไร และอะไรคือ ฐานความคิด (assumption) ของการทำเช่นนั้น” … “ในทุกๆรายการข้อมูล (data listing) ถ้าใช้การแทนค่า จะต้องระบุวิธีการที่นิยมใช้ (fashion) ให้ชัดเจน” “การแทนค่าด้วยวิธีการใดๆก็ตาม ต้องหลีกเลี่ยงความเป็นไปได้ (possible) ซึ่งจะทำให้เกิดความลำเอียง (biased) และความน่าเชื่อถือ (likely) ที่จะนำไปสู่ความไม่เห็นด้วยและข้อโต้แย้ง (disagreement or controversy)” FDA, 1988

วิธีการค่าแทนข้อมูลสญหาย (Methods of Imputation for Missing Data)
แทนค่าด้วยค่าเฉลี่ยของทั้งชุดข้อมูล (Series mean) แทนค่าด้วยค่าเฉลี่ยของค่าที่อยู่ข้างบนและข้างล่างของค่าขาดหาย (Mean of nearby points) แทนค่าด้วยค่ามัธยฐานของค่าที่อยู่ข้างบนและข้างล่างของค่าขาดหาย (Median of nearby points) แทนค่าด้วยค่าที่ได้จากการลากเส้นตรงจากค่าสุดท้ายก่อนค่าขาดหายไปยังค่าแรกหลังค่าขาดหาย (Linear interpolation). แทนค่าด้วยค่าทำนายที่ได้จากสมการถดถอย (Linear trend at point)

การตรวจสอบข้อมูลสญหาย (Missing Data)
ตัวแปรหนึ่งมีข้อมูลสญหายมากกว่าร้อยละ 10 ของข้อมูลทั้งหมดหรือไม่ มีข้อมูลชุดใดชุดหนึ่งมีข้อมูลสญหายมากกว่าร้อยละ 10 ของตัวแปรทั้งหมดหรือไม่ เกิดการขาดหายอย่างมีระบบหรือขาดหายลักษณะคล้ายกัน (nonrandom) หรือไม่

การตรวจสอบค่าขาดหายของตัวแปร (Check for missing value)
ตัวแปรแบ่งกลุ่ม (categorical variable) การประมวลผล Analyze -> Descriptive Statistics -> Frequencies การตัดสินใจ ถ้ามีค่าขาดหายน้อยกว่า 5% เลือกใช้การวิเคราะห์แบบ List-wise ถ้ามีค่าขาดหายมากกว่าหรือเท่ากับ 5% กำหนดค่าขาดหายเป็นกลุ่มใหม่ (new category) ตัวแปรต่อเนื่อง (continuous variable) การประมวลผล Analyze -> Descriptive Statistics -> Explore (เลือกการ Display เป็น Statistics) การตัดสินใจ ถ้ามีค่าขาดหายน้อยกว่า 5% เลือกใช้การวิเคราะห์แบบ List-wise ถ้ามีค่าขาดหายระหว่าง 5% ถึง 15% ใช้การแทนค่า Transform>Replace Missing Value การแทนค่าน้อยกว่า 15% ของข้อมูลมีผลกระทบต่อผลลัพธ์เล็กน้อย ถ้าต้องแทนค่ามากกว่า 15% ให้พิจารณาตัดตัวแปรออกจากการวิเคราะห์

การวิเคราะห์ค่าขาดหายของชุดข้อมูล (Missing Values Analysis by Case)
การประมวลผล Transform -> Compute Variable สร้างตัวแปรใหม่ชื่อ MCase (Missing Case) Function Group -> Missing Values เลือก Nmiss เลือกตัวแปรทั้งหมดที่ต้องการทดสอบ Analyze -> Descriptive Statistics Frequencies เลือกตัวแปร Mcase Format… -> Order by -> Descending Counts การแปลผล มีข้อมูลชุดใดชุดหนึ่งมีข้อมูลสญหายมากกว่าร้อยละ 10 ของตัวแปรทั้งหมดหรือไม่

การวิเคราะห์ค่าขาดหายของตัวแปร (Missing Values Analysis by Variable)
การประมวลผล Analyze -> Missing Value Analysis เลือกตัวแปรเชิงปริมาณใส่ใน Quantitative Variables: เลือกตัวแปรแบ่งกลุ่มใส่ใน Categorical Variables: การแปลผล ดูจากตาราง Univariate Statistics มีตัวแปรใดตัวแปรหนึ่งมีข้อมูลสญหายมากกว่าร้อยละ 10 ของข้อมูลทั้งหมดหรือไม่

การวิเคราะห์รูปแบบค่าสูญหาย (Missing Values Analysis by Pattern)
การประมวลผล Analyze -> Missing Value Analysis เลือกตัวแปรเชิงปริมาณใส่ใน Quantitative Variables: เลือก EM การแปลผล เกิดการขาดหายอย่างมีระบบหรือขาดหายลักษณะคล้ายกัน (nonrandom) หรือไม่ ดูจากค่า Little’s MCAR Test ถ้ามีค่านัยสำคัญทางสถิติน้อยกว่า 0.05 แสดงว่ารูปแบบการกระจายของข้อมูลสญหายจัดเป็นข้อมูลสญหายที่ไม่จำเป็นต้องปรับแก้ (ignorable missing data)

การแทนค่าขาดหาย (Impute Missing Data Values)
การประมวลผล Transform -> Replace Missing Values เลือกตัวแปรใส่ใน New Variable (s): เลือก Method คลิก OK

แบบฝึกหัดการตรวจสอบข้อมูลสูญหาย
เปิดแฟ้มข้อมูล gss00a-2.sav ใช้คำสั่ง Frequencies และ Explore ตรวจสอบตัวแปรทั้งหมดว่ามีข้อมูลสูญหายมากน้อยเพียงใด

ค่า/ข้อมูลผิดปกติ (Outlier)

ค่าผิดปกติ ข้อมูลที่มีค่าแตกต่างกันทั้งมากกว่าและน้อยกว่าจากข้อมูลในชุดเดียวกัน เส้น Median Extreme outlier เส้นแสดงค่าสูงสุดของข้อมูล ที่ยังไม่สูงผิดปกติ = Q3+1.5(IQR) ด้านบนคือ Q3 ด้านล่างคือ Q1 Extreme Outlier เส้นแสดงค่าต่ำสุดของข้อมูล ที่ยังไม่ต่ำผิดปกติ = Q1-1.5(IQR) m i n u v a l e x d 2 5 % 7

สาเหตุของการเกิดค่าผิดปกติ
การกรอกข้อมูล เป็นการกรอกข้อมูลผิดพลาด ข้อมูลไม่อยู่ในช่วงของข้อมูลตามแบบสอบถาม ข้อมูลจากกลุ่มตัวอย่าง มีกลุ่มตัวอย่างบางกลุ่มตัวอย่างมีคุณลักษณะที่แตกต่างไปจากกลุ่มตัวอย่างทั่วไป เช่น สูงมาก มีบุตรมาก มีรายได้สูงมาก

อิทธิพลของค่าผิดปกติ (Influence of Outliers)
Nout Mean S.D. Skewness Kurtosis 1024 -0.006 1.000 -0.002 0.553 1 +0.002 1.032 +0.454 3.894 128 -0.075 0.875 -0.156 0.115 -0.012 1.137 +2.721 18.820 ที่มา:

การแก้ไขปัญหาค่าผิดปกติ
ตัดข้อมูลออกจากการวิเคราะห์ (Drop the case) วิเคราะห์ 2 แบบ วิเคราะห์โดยมีค่าผิดปกติ วิเคราะห์โดยไม่มีค่าผิดปกติ

การตรวจสอบค่าผิดปกติ/โต่ง
ตัวแปรเดี่ยว (Univariate): กราฟกล่อง (boxplot) ให้ค่า outlier, extreme และ case number กราฟลำต้นและใบ (stem and leaf) ให้ค่าเฉพาะค่า extreme และจำนวน ตัวแปรพหุ (Multivariate): การวัดระยะทางแบบมหาลาโนบิส (Mahalanobis distance) เป็นค่าไคว์สแควร์ (a chi-square statistics) ค่าผิดปกติมีค่าความน่าจะเป็นน้อยกว่า (p-value = < 0.001 การวัดค่าความคาดเคลื่อนมาตราฐาน (Standardized or Studentized Residual/Error Scores) จากค่าเฉลี่ย ค่าปกติจะมีค่าความคาดเคลื่อนมาตรฐานอยู่ที่ 2 หรือ 3

วิธีการตรวจสอบค่าผิดปกติ/โต่ง #1
การประมวลผล Analyze Discriptive Statistics Explore… เลือกตัวแปรที่ต้องการทดสอบใส่ในช่อง Dependent Lis เลือก ID Case ใส่ในช่อง Label Cases by: เลือก Display เป็น Plots การแปลผล ดูข้อมูลที่อยู่นอก เส้น Q3+1.5(IQR) และนอกเส้น Q1-1.5(IQR)

การประมวลผล Graphs Legacy Dialogs Scatter/Dot Simple Scatter หรือ Matrix Scatter เลือก ตัวแปรตาม ใส่ในแกน Y และ ตัวแปรอิสระ ใส่ในแกน X เลือก ตัวแปรที่เป็น ID ของข้อมูล ใส่ใน Label Cases by: การแปลผล ดูจุดข้อมูลที่อยู่ห่างจากกลุ่มข้อมูลส่วนใหญ่

การประมวลผล Analyze -> Descriptive Statistics Descriptive -> เลือกตัวแปร เลือก Save Standardized values as variables จัดเรียงข้อมูลจากมากไปหาน้อยที่ตัวแปร Z ชื่อตัวแปร การแปลผล ดูค่ามาตรฐาน (standard score) ว่า มีค่าเกิน +/- 2 หรือ 3 หรือไม่

การประมวลผล Analyze -> Descriptive Statistics Explore -> เลือกตัวแปร เลือก Statistics -> Outlier การแปลผล ดูค่าของข้อมูลที่มากกว่า Q3+3IRQ หรือน้อยกว่า Q1-3IRQ ความกว้างของ box = Q3 – Q1 = IQR (interquartile rang)

การประมวลผล Analyze -> Regression -> Linear … เลือกตัวแปรตาม 1 ตัว -> ใส่ในช่อง Dependent: เลือกตัวแปรอิสระ 1 ตัว หรือมากกว่า -> ใส่ในช่อง Independent (s) : เลือก Save -> Mahalanobis หรือ Cook’s หรือ Leverage Value การแปลผล ดูค่า Mahalanobis ค่าน้อยกว่า 15 ไม่มีปัญหา ดูค่า Cook’s ค่าน้อยกว่า 1 ไม่มีปัญหา แต่ถ้ามากกว่า 1 ต้องระวัง และถ้ามากกว่า 4 มีปัญหามาก ดูค่า Leverage Value กลุ่มตัวอย่างขนาดใหญ่ต้องไม่มากกว่า 2*k/n และกลุ่มตัวอย่างขนาดเล็กต้องไม่มากกว่า 3*k/n (ค่า k คือ จำนวนตัวแปรในสมการถดถอย)

แบบฝึกหัดการตรวจสอบข้อมูลผิดปกติ
เปิดแฟ้มข้อมูล gss00a-2.sav ใช้คำสั่ง Explore ตรวจสอบตัวแปรทั้งหมดว่ามีข้อมูลผิดปกติหรือไม่

การตัดสินใจเลือกใช้สถิติ
ทดสอบการแจกแจงปกติ (Normal Distribution Test) ใช่ ไม่ใช่ การทดสอบแบบมีพารามิเตอร์ (Parametric Test) การทดสอบแบบไม่มีพารามิเตอร์ (Nonparametric Test)

การตรวจสอบการแจกแจงของข้อมูล
(Distribution)

กฎของโค้งปกติ (Normal Curve Rule)
กฎ ( rule) หรือกฎสามซิกม่า (three sigma rule) หรือกฎเชิงประจักษ์ (empirical rule) กล่าวว่า ข้อมูลที่มีการแจกแจงปกติ ค่าของข้อมูลทั้งหมดวางอยู่ภายใน 3 พื้นที่ของความเบี่ยงเบนมาตรฐาน (standard deviations) ของค่าเฉลี่ย (mean) ดังนี้ 68 % ตกอยู่ภายในพื้นที่ที่ 1 ของความเบี่ยงเบียนมาตรฐานของค่าเฉลี่ย 95 % ตกอยู่ภายในพื้นที่ที่ 2 ของความเบี่ยงเบียนมาตรฐานของค่าเฉลี่ย 99.7 % ตกอยู่ภายในพื้นที่ที่ 3 ของความเบี่ยงเบียนมาตรฐานของค่าเฉลี่ย

รูปแบบการแจกแจงความถี่ (Frequency Distribution: Different Distribution shapes)
This slide shows some examples of different shapes that D can take. The top left = ND which I’ve already described: majority of scores fall around a mid point with fewer and fewer as the scores get more or less extreme. The top right D shows another type of distribution shape: here the majority of scores fall around two values. The bottom two graphs show D shapes that again cluster around a central value: but unlike the top two graphs they are not symmetrical ( =can draw vertical line through middle and one side is mirror image of each other). Lets describe these D in terms of what they mean for actual score. Lets imagine that these are all graphs of exam results for different exams, so as the x axis goes along the higher the exam results. The TL graph shows an exam where most people got results around the mid point: v few got v low and v few got v high scores. The TR graph shows 2 peaks, so lots of people got exam results either at one particular lower level (left peak) or a higher level (right peak), with less getting v low, v high or scores in the middle. The BL graph shows that most people got very low scores as the peak of the curve is near the beginning of the x axis, with very few getting high scores (v hard exam). The BR graph is the opposite with the peak of scores near the end of the x axis: so most people scored highly on this exam. D where scores pile at one end or another while the tail of the scores taper off to the other end are called skewed D. So the BL is an example of + skew, so called because the tail of scores tapers off towards the + end of the x axis (looks like p facing upwards), - skew so called because tail tapers off towards – end of x axis. This kind of information is clear from looking at a D.

การแจกแจงข้อมูล (Distributions)
YES NO! NO! NO!

การแจกแจงแบบเบ้ (Skewed Distribution)
ข้อมูลแจกแจงแบบเบ้ขวา ค่า Skewness เป็น + หมายถึง ข้อมูลส่วนใหญ่มีค่าต่ำ Mode < Median < Mean Right-Skewed Normal or Symentric ข้อมูลแจกแจงแบบเบ้ซ้าย ค่า Skewness เป็น – หมายถึง ข้อมูลส่วนใหญ่มีค่าสูง Mean < Median < Mode Left-Skewed Mode = Median = Mean ข้อมูลแจกแจงแบบปกติ ค่า Skewness เป็น 0 หมายถึง ข้อมูลส่วนใหญ่มีค่าปานกลาง

การแจกแจงแบบโด่ง (Kurtosis Distribution)
ข้อมูลแจกแจงแบบยอดแบน (Platykurtic Distribution) ค่า Kurtosis เป็น – หมายถึง ข้อมูลกระจายมาก หรือ มีความแปรปรวนมาก ข้อมูลแจกแจงแบบยอดปานกลาง (Mesokurtic distribution) ค่า Kurtosis เป็น 0 หมายถึง ข้อมูลกระจายปานกลาง หรือ มีความแปรปรวนปานกลาง ข้อมูลแจกแจงแบบยอดสูง (Leptokurtic distribution) ค่า Kurtosis เป็น + หมายถึง ข้อมูลกระจายน้อย หรือ มีความแปรปรวนน้อย

หลักการทดสอบการแจกแจงปกติ
ความถี่ที่สังเกตได้ ( Observed Frequency) สัดส่วนที่คาดหวังตามทฤษฎี (Expected proportion) ความถี่ที่คาดหวังไว้ (Expected Frequency) ที่มา:

การตรวจสอบการแจกแจงข้อมูล
ตรวจสอบด้วยกราฟ กราฟแจกแจงความถี่หรือฮีสโตแกรม (Histogram) กราฟลำต้นและใบ (Stem-and- Leaf) กราฟกล่องและหนวด (Boxplot and Whisker Plot) กราฟการกระจาย (Scatter Plot) กราฟแจกแจงความน่าจะเป็นปกติ (Normal probability Q-Q plot) กราฟแจกแจงความเบี่ยงเบนปกติ (Detrended normal Q-Q plot) ตรวจสอบด้วยสถิติ ค่าความเบ้ (skewness) และค่าความโด่ง (kurtosis) ค่าคอลมอโกรอฟ-สเมอร์นอฟ (Kolmogorov-Smirnov: K-S Test) หรือ แชพิโล-วิลค์ (Shapiro-Wilk Test: S-W Test) ค่าลิลลิฟอร์ส (Lilliefors)

การตรวจสอบการแจกแจงปกติ (Normality)
ตัวแปรเดี่ยว (Univariate): กราฟ Q-Q ความเบ้และความโด่ง (Skewness and Kurtosis): ค่า 0 = ปกติ ถ้าดูจากค่าความน่าจะเป็น (p-value) < 0.01 หรือ = ไม่ปกติ โคลโมโกรอฟ-สเมียร์นอฟ (Komogorov-Smirnov): มีนัยสำคัญ (significant) = ไม่ปกติ ตัวแปรพหุ (Multivariate): กราฟการกระจายจะเป็นรูปคล้ายวงรี (Scatterplots should be elliptical) แต่ละตัวแปรต้องมีการแจกแจงปกติ (Each variable must be normal)

การแจกแจงแบบปกติ (Normal Distribution/Symmetric)
กราฟแท่งความถี่ กราฟลำต้นและใบ กราฟกล่องและหนวด กราฟการกระจาย กราฟแจกแจงความน่าจะเป็นปกติ กราฟแจกแจงความเบี่ยงเบนปกติ

การแจกความถี่ด้วยกราฟแท่งความถี่หรือฮีสโตแกรม (Histogram)
เบ้ขวา สมมาตร สองช่วง เบ้ซ้าย สมมาตร สองช่วง เบ้ขวา เบ้ซ้าย

กราฟแท่งความถี่ที่มีขนาดตัวอย่างแตกต่างกัน

การแจกความถี่ด้วยกราฟกล่องและหนวด (Boxplot and Whisker Plot)
121 N = X 10 8 6 4 2 121 N = Analysis weighted by F X 10 8 6 4 2 เบ้ขวา สมมาตร เบ้ซ้าย

Multivariate Normality
การแจกความถี่ด้วยกราฟแจกแจงความน่าจะเป็นปกติ (Normal probability Q-Q plot) Univariate Normality Multivariate Normality

การแจกความถี่ด้วยกราฟแจกแจงความน่าจะเป็นปกติ (Normal probability Q-Q plot)
เบ้ขวา สมมาตร เบ้ซ้าย

การแจกความถี่ด้วยกราฟแจกแจงความเบี่ยงเบนปกติ (Detrended normal Q-Q plot)
เบ้ขวา สมมาตร เบ้ซ้าย

การตรวจสอบการแจกแจงข้อมูลด้วยสถิติ
ความเบ้และความโด่ง ค่า Skewness = 0 ไม่มีความเบ้ ค่า Kurtosis = 0 ไม่มีความโด่ง Skewness อยู่ระหว่าง +/- 1 และ Kurtosis อยู่ระหว่าง +/- 1 มีการแจกแจงข้อมูลใกล้เคียงโค้งปกติ (บางตำรา +/-2) ทดสอบด้วยสถิติ วิธี Shapiro – Wilk ถ้าข้อมูลน้อยกว่าหรือเท่ากับ 50 ตัวอย่าง (ค่า Sig > 0.05) วิธี Kolmogorov – Smirnov ถ้าข้อมูลมากกว่า 50 ตัวอย่าง (ค่า Sig > 0.05) วิธี Lilliefors เมื่อไม่ทราบค่าเฉลี่ยและค่าแปรปรวนของประชากร (ค่า Sig > 0.05) กราฟ Stem-and-leaf ข้อมูลแสดงคล้ายระฆังคว่ำ Q-Q ข้อมูลตกอยู่ใกล้ๆ เส้น ดูเป็นเส้นตรง ไม่เป็นเส้นโค้ง หรือรูปตัว S Box เส้นมัธยฐาน (median) อยู่กึ่งกลาง โค้งปกติ

การทดสอบการแจกแจงของข้อมูล #1 (Distribution )
การประมวลผล Analyze -> Descriptive Statistics Frequencies -> เลือกตัวแปร เลือก Statistics -> Distribution (Skewness and Kurtosis) หรือ Descriptives -> เลือกตัวแปร เลือก option -> Distribution (Skewness and Kurtosis) การแปลผล ดูค่า Skewness หากอยู่ระหว่าง +/- 1 และ Kurtosis อยู่ระหว่าง +/- 1 แสดงว่ามีการแจกแจงใกล้เคียงปกติ (บางตำรา +/-2)

การประมวลผล Analyze -> Descriptive Statistics Explore -> เลือกตัวแปร เลือก Plots -> Normality plots with tests เลือก option -> Exclude cases pairwise (รวมค่าขาดหาย) การแปลผล ดูค่า Kolmogorov-Smirnov (ตัวอย่างมากกว่า 50) หรือ Shapiro-Wilks (ตัวอย่างน้อยกว่า 50) หากค่า Sig มากกว่า 0.5 แสดงว่ามีการแจกแจงปกติ

การประมวลผล Analyze -> Nonparametric Tests -> Legacy Dialogs ->Runs… เลือก ตัวแปรที่ต้องการทดสอบ เลือก Cut Point คลิกปุ่ม Options… เลือก Statistics การแปลผล สถิติ Asymp. Sig. (2-tailed) ค่า Sig > 0.5 ไม่มีนัยสำคัญ (non-significant) = การแจกแจงของข้อมูลปกติ ค่า Sig < 0.5 มีนัยสำคัญ (significant) = การแจกแจงของข้อมูลไม่ปกติ

การประมวลผล Analyze -> Nonparametric Tests -> One Sample… เลือก ตัวแปรที่ต้องการทดสอบ หรือ Analyze -> Nonparametric Tests -> Legacy Dialogs… -> 1-Sample K-S เลือก Test Distribution เป็น Normal การแปลผล โคลโมโกรอฟ-สเมียร์นอฟ (Komogorov-Smirnov) ค่า Sig > 0.5 ไม่มีนัยสำคัญ (non-significant) = การแจกแจงของข้อมูลปกติ ค่า Sig < 0.5 มีนัยสำคัญ (significant) = การแจกแจงของข้อมูลไม่ปกติ

ทดสอบความเบ้และความโด่ง (Test for Skewness and Kurtosis)
Test for skewness/ kurtosis: Z=stat/se 2.64 for  = .01

แบบฝึกหัดการตรวจสอบการแจกแจงปกติ
เปิดแฟ้มข้อมูล gss00a-2.sav ใช้คำสั่ง Frequencies และ Descriptives เลือกตัวแปรที่เหมาะสมมาทำการตรวจสอบการแจกแจงปกติ โดยพิจารณาจากค่าความเบ้ (skewness) และค่าความโด่ง (Kurtosis) ว่ามีการแจกแจงปกติหรือไม่ เปิดแฟ้มข้อมูล gss00a-2.sav ใช้คำสั่ง Explore เลือกตัวแปรที่เหมาะสมมาทำการตรวจสอบการแจกแจงปกติ โดยพิจารณาจากค่า Kolmogorov-Smirnov (ตัวอย่างมากกว่า 50) หรือ Shapiro-Wilks (ตัวอย่างมากกว่า 50) ว่ามีการแจกแจงปกติหรือไม่

การตรวจสอบความเท่ากันของความแปรปรวน (Homogeneity of variance)

ความเท่ากันของความแปรปรวน (Homogeneity of variance)
ความเท่ากัน/คงที่/เอกพันธ์ของค่าความแปรปรวนของค่าความคาดเคลื่อน (Homoscedasticity): เมทริกซ์ของค่าความแปรปรวนของค่าความคลาดเคลื่อนระหว่างกลุ่มมีความเท่ากัน (the covariance matrixes are equal across groups) ทั้งตัวแปรอิสระและตัวแปรตามมีค่าความแปรปรวนของค่าความคลาดเคลื่อนเท่ากัน การทดสอบของเลเวน (Levene's Test) ไม่มีความสัมพันธ์กับการแจกแจงปกติ (Not sensitive to normality) การทดสอบของบ็อกซ์ (Box’s M: Box's Test of Equality of Covariance Matrices) เหมาะกับกลุ่มตัวอย่างที่มีขนาดใหญ่ มีความสัมพันธ์กับการแจกแจงปกติ (Sensitive to normality)

ความแปรปรวน ความแปรปรวนเท่ากัน (Equal Variance/homoskedasticity)
ความแปรปรวนไม่เท่ากัน (Unequal Variance/heteroskedasticity)

หลักการทดสอบความเท่ากันของความแปรปรวน
ที่มา:

การทดสอบความเท่ากันของความแปรปรวน การทดสอบของเลเวน (Levene’s Test)
การประมวลผล Analyze -> Compare Means One-Way ANOVA -> เลือกตัวแปรแบ่งกลุ่ม (Factor) และตัวแปรทดสอบ (Dependent List) เลือก Options -> Homogeneity of Variance test การแปลผล ดูค่า Levene Statistics หากค่านัยสำคัญทางสถิติมากกว่า 0.05 แสดงว่า มีความแปรปรวนเท่ากัน

แบบฝึกหัดการตรวจสอบความเท่ากันของความแปรปรวน
เปิดแฟ้มข้อมูล gss00a-2.sav ใช้คำสั่ง Compare mean เลือกตัวแปรที่เหมาะสมกับการทดสอบความเท่ากันของความแปรปรวน โดยดูจากค่า Levene Statistics ว่ามีความเท่ากันของความแปรปรวนหรือไม่

การตรวจความสัมพันธ์เชิงเส้นตรง(Linearity/Linear Relationships)

การตรวจความสัมพันธ์เชิงเส้นตรงด้วยกราฟ
กราฟการกระจาย (Scatterplot) ตัวแปรอิสระ (X) 1 ตัวแปร กับ ตัวแปรตาม (Y) 1 ตัวแปร ค่าสังเกตของตัวแปรตาม (Observed_Y) กำหนดให้อยู่ในแกนนอน (x-axis) กับ ค่าทำนายของตัวแปรตาม (Predicted_Y) ค่าทำนายของตัวแปรตาม (Predicted_Y) กำหนดให้อยู่ในแกนนอน (x-axis) กับ ส่วนเหลือ (Residuals) ตัวแปรอิสระ (X) 1 ตัวแปร กำหนดให้อยู่ในแกนนอน (x-axis) กับ ส่วนเหลือ (Residuals) ของ 1 ตัวแปร ค่าทำนายมาตรฐานของตัวแปรตาม (Standartized Predicted_Y) กำหนดให้อยู่ในแกนนอน (x-axis) กับ ส่วนเหลือมาตรฐาน (Standartized Residuals)

รูปแบบความสัมพันธ์เชิงเส้นตรงและเส้นโค้ง
Linear relationships Curvilinear relationships Y Y X X Y Y X X

การตรวจสอบความสัมพันธ์เชิงเส้นตรง 2 ตัวแปรด้วยกราฟ
การประมวลผล Graphs -> Legacy Dialogs Scatter/Dot…-> Simple Scatter -> Define เลือกตัวแปรตาม (Dependent Variable) ใส่ในช่อง Y Axis เลือกตัวแปรอิสระ (Independent Variable) ใส่ในช่อง X Axis ดับเบิลคลิกที่กราฟ และแทรกเส้นตรงในกราฟ (กดปุ่ม Add Fit Line at Total ) การแปลผล ดูรูปแบบกราฟมีลักษณะเป็นเส้นตรง (รูปคล้ายซิการ์) หรือไม่

การตรวจสอบความสัมพันธ์เชิงเส้นตรงหลายตัวแปรด้วยกราฟ
การประมวลผล Graphs -> Legacy Dialogs Scatter/Dot…-> Matrix Scatter -> Define - เลือกตัวแปรที่ต้องการทดสอบใส่ในช่อง Matrix Variables ดับเบิลคลิกที่กราฟ และแทรกเส้นตรงในกราฟ การแปลผล ดูรูปแบบกราฟแต่ละคู่ว่า คู่ใดมีลักษณะเป็นเส้นตรง (รูปคล้ายซิการ์) และคู่ใดไม่มีลักษณะเป็นเส้นตรง

การตรวจสอบความสัมพันธ์เชิงเส้นตรงด้วยสถิติ-1
การประมวลผล Analyze ->Compare Mean Means… กำหนดตัวแปร Dependent List กำหนดตัวแปร Independent List คลิก Options…เลือก Test of Linearity การแปรผล ถ้าค่า Linearity มีค่านัยสำคัญทางสถิติ (Sig) หรือน้อยกว่า แสดงว่า ตัวแปรมีความสัมพันธ์กันเป็นเส้นตรง (linearity) และถ้าค่า Deviation of linearity มีค่านัยสำคัญทางสถิติ (Sig) ด้วย แสดงว่า ความสัมพันธ์เชิงเส้นตรงที่เกิดขึ้นอธิบายได้ด้วยตัวแบบเชิงเส้นตรง (linear model) ได้เป็นอย่างดี ถ้าค่า Linearity ไม่มีนัยสำคัญทางสถิติ หรือมากกว่า 0.05 แสดงว่า ตัวแปรไม่มีความสัมพันธ์กันเป็นเส้นตรง (non-linearity) และถ้าค่า Deviation of linearity มีค่านัยสำคัญทางสถิติ (Sig) ด้วย แสดงว่า การไม่มีความสัมพันธ์กันเป็นเส้นตรงสามารถอธิบายได้ด้วยตัวแบบเชิงเส้นตรงอย่างมีนัยสำคัญทางสถิติ

การตรวจสอบความสัมพันธ์เชิงเส้นตรงด้วยสถิติ-2
การประมวลผล Analyze ->Correlate Bivariate… (เลือกตัวแปรเชิงปริมาณอย่างน้อย 2 ตัวแปร) เลือก Correlation Coefficients เป็น Pearson การแปรผล ดูค่านัยสำคัญทางสถิติ (Sig) ของความสัมพันธ์ระหว่างตัวแปร ถ้ามีค่าน้อยกว่า 0.05 หรือ 0.01 แสดงว่าตัวแปรคู่นั้นมีความสัมพันธ์เชิงเส้นตรงระหว่างกัน ถ้าค่า r มีค่าตั้งแต่ 0.80 ขึ้นไป ก็ไม่ดี เพราะอาจเป็นสาเหตุหนึ่งของการเกิดภาวะความสัมพันธ์ร่วมเชิงเส้นตรง (collinearity)

การตรวจสอบข้อมูล (Data Exploratory)

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "การตรวจสอบข้อมูล (Data Exploratory)"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ

เข้าสู่ระบบ

ลงทะเบียนผ่านเครือข่ายสังคม:

การตรวจสอบข้อมูล (Data Exploratory)

งานนำเสนอที่คล้ายกัน

งานนำเสนอเรื่อง: "การตรวจสอบข้อมูล (Data Exploratory)"— ใบสำเนางานนำเสนอ:

งานนำเสนอที่คล้ายกัน

เรื่องโครงการ

การติดต่อกลับ