ความคลาดเคลื่อนมาตรฐานในการพยากรณ์ (Standard Error of Estimate: SEE) ในการพยากรณ์ค่าของตัวแปรตาม Y ที่เกิดจากการกำหนดค่าของตัวแปรอิสระหรือตัวแปรต้น X จากสมการถดถอยที่ได้ จะมีประโยชน์ต่อการพยากรณ์มากเพียงใดนั้น ขึ้นอยู่กับข้อมูลที่รวบรวมมาว่ามีการกระจัดกระจายไปจากเส้นกราฟหรือสมการถดถอยมากน้อยเพียงใด ถ้าค่าของตัวแปรตาม Y แต่ละค่าแตกต่างไปจากเส้นกราฟถดถอยที่ประมาณขึ้นมามาก การพยากรณ์ค่าของตัวแปรตาม Y โดยใช้เส้นกราฟถดถอยก็จะเกิดความคลาดเคลื่อนมาก แต่ถ้าค่าที่รวบรวมมาแต่ละค่าอยู่บนเส้นกราฟถดถอยหรืออยู่ใกล้ๆ เส้นกราฟถดถอยมากเท่าใด การพยากรณ์ค่าของตัวแปรตาม Y โดยใช้เส้นกราฟถดถอยก็จะถูกต้องมากขึ้นเท่านั้น
ความแตกต่างระหว่างค่าของตัวแปรตาม Y ที่เกิดจากการพยากรณ์กับค่าที่ได้จากการรวบรวม เรียกว่า ความคลาดเคลื่อน (Error หรือ Residual) ใช้ตัวย่อว่า e โดยที่ ซึ่งค่าความคลาดเคลื่อนนี้จะใช้เป็นตัวพยากรณ์ค่าการกระจายของข้อมูลรอบๆ เส้นกราฟถดถอย สำหรับสถิติที่ใช้วัดการกระจายของข้อมูลรอบๆ เส้นกราฟถดถอย เรียกว่า ความคลาดเคลื่อนมาตรฐานในการพยากรณ์ (Standard Error of Estimate: SEE) ซึ่งเป็นส่วนเบี่ยงเบนมาตรฐานชนิดหนึ่งที่เป็นการเบี่ยงเบนของคะแนนพยากรณ์จากคะแนนที่รวบรวมมาได้
หลักการวิเคราะห์การถดถอยเชิงเส้น “Method of Least Square” Y=a+bX
ตัวอย่างที่ 1
เปิด Excel เพื่อทำการหาค่า a และ b หาสมการความสัมพันธ์ระหว่างน้ำหนักตัว(X) กับอัตราการใช้พลังงาน (Y) จากสมการ Y = a +bX ขั้นตอนการคำนวณ : หา a และ b ก่อน จากสูตร เปิด Excel เพื่อทำการหาค่า a และ b
b = 28.59359 a = 4.59
b = 28.59359 (สัมประสิทธิ์การถดถอย) a = 4.59 ดังนั้น สมการที่แสดงความสัมพันธ์ระหว่างตัวแปร X กับตัวแปร Y ซึ่งเป็นสมการแสดงความสัมพันธ์ระหว่างน้ำหนักตัวของเยาวชนกับอัตราการใช้พลังงาน ก็คือ b = 28.59359 (สัมประสิทธิ์การถดถอย) a = 4.59 Y = a + bX Y = 4.59 + 28.59X
อัตราการใช้พลังงานในแต่ละวัน (Y) ของเยาวชนคนหนึ่งที่มีน้ำหนักตัว 52 อัตราการใช้พลังงานในแต่ละวัน (Y) ของเยาวชนคนหนึ่งที่มีน้ำหนักตัว 52.5 กิโลกรัม (X) สามารถหาได้จากการแทนค่าในสมการแสดงความสัมพันธ์ดังนี้ Y = 4.59 + 28.59X = ? Y = 4.59 + 28.59(52.5) = 1506 กิโลแคลอรี่ต่อวัน
หลังจากที่ได้สมการเส้นตรง Y = 4. 59 + 28 หลังจากที่ได้สมการเส้นตรง Y = 4.59 + 28.59X ซึ่งแสดงความสัมพันธ์ระหว่างตัวแปร X กับตัวแปร Y แล้ว จะพบว่า b มีค่า 28.59 ซึ่ง b ก็คือค่าสัมประสิทธิ์การถดถอย โดยมีค่าเป็นบวก แสดงว่า เมื่อเยาวชนมีน้ำหนักตัวเพิ่มขึ้น อัตราการใช้พลังงานแต่ละวันก็จะมีค่าเพิ่มขึ้น โดยเฉลี่ย 28.59 กิโลแคลอรี
จากสมการถดถอย Y = 4.59 + 28.59X สามารถนำไปคำนวณหาค่าความคลาดเคลื่อน ของตัวแปร Y ได้ โดยแทนค่าลงในสมการและเขียนลงในตารางเพื่อเปรียบเทียบค่าที่ได้จากการ พยากรณ์กับค่าที่แท้จริง (Y) ดังนี้
คนที่เท่าไหร่มีค่าความคลาดเคลื่อนน้อยที่สุด/มากที่สุด น้ำหนัก (X) พลังงาน (Y) ความคลาดเคลื่อน 1 36.1 995 1036.689 -41.689 2 33.1 913 950.919 -37.919 3 40.3 1189 1156.767 32.233 4 42.4 1124 1216.806 -92.806 5 41.2 1204 1182.498 21.502 6 34.5 1052 990.945 61.055 7 42.0 1418 1205.37 212.63 8 54.6 1425 1565.604 -140.604 9 48.5 1396 1391.205 4.795 10 1256 50.63 11 51.1 1347 1465.539 -118.539 12 50.6 1502 1451.244 50.756 คนที่เท่าไหร่มีค่าความคลาดเคลื่อนน้อยที่สุด/มากที่สุด
ความคลาดเคลื่อน คนที่ น้ำหนัก (X) พลังงาน (Y) 1 36.1 995 1036.689 -41.689 2 33.1 913 950.919 -37.919 3 40.3 1189 1156.767 32.233 4 42.4 1124 1216.806 -92.806 5 41.2 1204 1182.498 21.502 6 34.5 1052 990.945 61.055 7 42.0 1418 1205.37 212.63 8 54.6 1425 1565.604 -140.604 9 48.5 1396 1391.205 4.795 10 1256 50.63 11 51.1 1347 1465.539 -118.539 12 50.6 1502 1451.244 50.756
เมื่อ a = 4.59, b = 28.59, N = 12 แทนค่า = 60.0216
จุดที่คลาดเคลื่อนน้อยที่สุด (48.5,1396) จุดที่คลาดเคลื่อนมากที่สุด (54.6,1425) เส้นกราฟถดถอย
หลักการวิเคราะห์การถดถอยเชิงเส้น “Method of Least Square” Y=a+bX