สหสัมพันธ์ (correlation)
ข้อมูลที่พบเห็น มักมีตัวแปรที่มากกว่าหนึ่งตัว ซึ่งตัวแปรเหล่านั้น อาจมีความเกี่ยวข้องสัมพันธ์กัน
มีความสัมพันธ์กัน ตัวอย่างเช่น รถยนต์เมื่อมีอายุการใช้งานนานขึ้น ก็จะเสียค่าใช้จ่ายในการบำรุงรักษามากขึ้น นั่นคือ อายุการใช้งานและค่าใช้จ่ายในการบำรุงรักษา มีความสัมพันธ์กัน
ผลการเรียนของนักศึกษา สัมพันธ์หรือขึ้นอยู่กับ สติปัญญาของนักศึกษา และ เวลาที่นักศึกษาใช้ในการทบทวนบทเรียน
ความรู้เรื่องความสัมพันธ์ในข้อมูล จะทำให้เข้าใจสิ่งต่าง ๆ ที่อยู่รอบตัวได้ดีขึ้น เช่น ทราบเหตุผลว่า ทำไมนักศึกษาแต่ละคนมีผลการเรียน แปรผันแตกต่างกัน หรือทราบว่า ค่าใช้จ่ายในการบำรุงรักษารถยนต์ แปรผันตามอายุการใช้งานของรถคันนั้นอย่างไร
จากหน่วยตัวอย่างแต่ละหน่วยที่สุ่มมา หากมีการสังเกตและจดบันทึกค่า ของตัวแปรมาตั้งแต่ 2 ตัวแปรขึ้นไป ก็สามารถนำข้อมูลที่ได้มาศึกษาว่า ตัวแปรเหล่านั้นมีความเกี่ยวข้องสัมพันธ์กันหรือไม่ ถ้ามีระดับความสัมพันธ์ มีมากน้อยเพียงใด และ ลักษณะความสัมพันธ์เป็นแบบใด การที่ตัวแปรมีความสัมพันธ์กันหมายความว่า ความรู้เกี่ยวกับตัวแปรหนึ่ง จะช่วยให้ทราบเรื่องราวเกี่ยวกับตัวแปรอื่น ที่สัมพันธ์กันได้
ความสัมพันธ์ในข้อมูลสองตัวแปร เมื่อสังเกตลักษณะสองลักษณะหรือสองตัวแปรจากแต่ละหน่วยตัวอย่าง การศึกษาข้อมูลของตัวแปรแต่ละตัวแยกกันจะไม่สามารถให้คำตอบเกี่ยวกับความสัมพันธ์ได้ แต่จำเป็นต้องนำข้อมูลของทั้งสองตัวแปรมาศึกษาพร้อมกันโดยการจัดระเบียบข้อมูล เพื่อให้เห็นความสัมพันธ์ได้ง่ายขึ้น ซึ่งอาจจัดระเบียบตารางหรือกราฟ ทั้งนี้ ขึ้นกับว่าข้อมูลนั้นเป็นข้อมูลเชิงคุณภาพหรือข้อมูลเชิงปริมาณ
GPA GMAT 3.44 632 2.36 399 2.80 444 3.59 588 482 3.13 426 3.30 563 2.66 420 3.01 471 3.40 553 2.68 414 2.79 490 3.50 572 2.48 533 2.89 431 3.78 591 2.46 509 2.91 446 3.00 2.63 504 2.75 546 3.48 528 2.44 336 2.73 467 3.22 541 464 506 3.47 552 2.13 408 3.12 473 3.35 520 2.41 469 3.08 440 3.39 543 2.55 529 3.03 419
สหสัมพันธ์ (correlation) แยกเป็นคำ 2 คำ คือ สห ซึ่งหมายถึง ร่วมกันหรือด้วยกัน และความสัมพันธ์ หมายถึง ความเกี่ยวข้องกัน เมื่อเหตุการณ์ 2 เหตุการณ์ที่โดยปกติมักเกิดขึ้นพร้อมกัน จะบอกว่าสองเหตุการณ์นั้นมีสหสัมพันธ์กัน เช่น คนผมสีดำและตาสีน้ำตาล คนผมสีทองและตาสีฟ้า นอกจากนี้ เมื่อมีการเปลี่ยนแปลงในเหตุการณ์หนึ่ง ก็มักเกิดการเปลี่ยนแปลงในอีกเหตุการณ์หนึ่งควบคู่กัน เช่น เมื่อเด็กสูงขึ้น เขาน่าจะมีน้ำหนักเพิ่มขึ้น
สัมประสิทธิ์สหสัมพันธ์ (correlation coefficient) พิจารณาแผนภาพการกระจายของข้อมูล 2 ชุด ในภาพที่ผ่านมา เห็นได้ว่าทั้งสองชุดต่างมี จุดศูนย์กลางและการกระจายด้านแกนนอน และแกนตั้งเหมือนกัน แต่ในชุดแรก จุดกระจัด กระจายไม่เกาะกลุ่มกัน ส่วนในชุดที่สอง จุดเกาะกลุ่มแนบแน่นเป็นแนวเส้นตรงมาก หรือสองตัวแปรมีความสัมพันธ์เชิงเส้นตรงสูงมาก นั่นคือ ระดับความสัมพันธ์ในแผนภาพทั้งสองนี้ ต่างกัน การจะวัดระดับความสัมพันธ์ จึงต้องใช้ค่าทางสถิติอีกค่าหนึ่งที่เรียกว่า สัมประสิทธิ์สหสัมพันธ์ (correlation coefficient)
สัมประสิทธิ์สหสัมพันธ์ เป็นตัววัดความสัมพันธ์ระหว่างตัวแปรในเชิงเส้นตรง ค่าของสัมประสิทธิ์สหสัมพันธ์บอกถึงระดับความสัมพันธ์ว่ามากหรือน้อย ซึ่งคือการเกาะกลุ่มของจุดรอบ ๆ แนวเส้นตรงว่าใกล้ชิดหรือกระจายห่างจากเส้น
สัญลักษณ์แทนค่าสัมประสิทธิ์สหสัมพันธ์ คือ r เมื่อรวบรวมข้อมูลของตัวแปร x และ y มาจำนวน n คู่ คือ (x1 , y1) , (x2 , y2) , … , (xn , yn) ก็จะคำนวณค่าสัมประสิทธิ์สหสัมพันธ์จากข้อมูลตามสูตรดังนี้ เมื่อ และ เป็นค่าเฉลี่ยของข้อมูล x และ y ตามลำดับ
ความสัมพันธ์ในข้อมูล เชิงคุณภาพ เมื่อตัวแปรทั้งสองตัวมีการวัดค่าเป็นค่าที่บอกประเภทของหน่วยตัวอย่าง ดังนั้น การที่จะศึกษาความสัมพันธ์โดยการนำข้อมูลจำแนกประเภทนั้นมาแจกแจงความถี่และจัดเรียงสรุปในรูปตารางแจกแจงความถี่แบบสองทาง หรืออีกชื่อหนึ่งที่นิยมเรียกในทางสถิติ คือ ตารางการณ์จร (Contingency table) โดยมีรูปแบบของตาราง คือ ประเภทหรือกลุ่มของตัวแปรหนึ่งจะอยู่ด้านแถวนอน และอีกตัวแปรหนึ่งอยู่ด้านแถวตั้ง จำนวนความถี่ของหน่วยตัวอย่างแต่ละประเภทที่นับได้จะบันทึกในแต่ละช่องของตาราง
ตัวอย่าง การสอบถามความเห็นของนักศึกษาต่อผลการสอนเป็นกิจกรรมหนึ่ง เพื่อไปสู่การปรับปรุงคุณภาพการเรียนการสอน จุดที่สนใจจุดหนึ่ง คือ ความพอใจของนักศึกษาในการเรียนวิชาหนึ่ง ขึ้นกับวิชานั้นว่าเป็นวิชาบังคับหรือวิชาเลือกหรือไม่ ในแบบสอบถามจึงให้นักศึกษาระบุว่าวิชาที่เรียนเป็นวิชาบังคับหรือวิชาเลือก นอกเหนือจากการให้นักศึกษาเสนอความเห็นเกี่ยวกับวิชานั้น โดยมี 3 ระดับให้เลือกคือ ดี พอใช้ และควรปรับปรุง เมื่อสอบถามนักศึกษาที่เรียนวิชาหนึ่งจำนวน 200 คน ได้ข้อมูลที่นำมาจำแนกนิสิตเป็นกลุ่ม ตามค่าของตัวแปรสองตัว คือลักษณะวิชา และความคิดเห็น ความถี่หรือจำนวนนักศึกษาในแต่ละกลุ่มแสดงในตารางการณ์จรขนาด 2x3
ตารางแสดงจำนวนนักศึกษา จำแนกตามลักษณะวิชาและความเห็นต่อวิชา ดี พอใช้ ควรปรับ ปรุง รวม วิชาเลือก 35 20 5 60 วิชาบังคับ 37 76 27 140 72 96 32 200
ตารางแสดงร้อยละของนักศึกษา จำแนกตามลักษณะวิชาและความเห็นต่อวิชา ดี พอใช้ ควรปรับปรุง รวม วิชาเลือก 17.5 10.0 2.5 30.0 วิชาบังคับ 18.5 38.0 13.5 70.0 36.0 48.0 16.0 100.0
ตารางแสดงร้อยละของนักศึกษาที่มีความเห็นต่าง ๆ ต่อวิชาที่เรียนแยกตามกลุ่มลักษณะวิชา ดี พอใช้ ควรปรับปรุง รวม วิชาเลือก 58.4 33.3 8.3 100.0 วิชาบังคับ 26.4 54.3 19.3 36.0 48.0 16.0
ความเห็นของนิสิตต่อวิชาที่เรียนแยกตามกลุ่มลักษณะวิชา
การหาค่าสัมประสิทธิ์สหสัมพันธ์ของข้อมูลเชิงคุณภาพ
Phi correlation ค่าของข้อมูลของตัวแปรทั้งสอง เป็น true dichotomous คือ ค่าของตัวแปรเกิดขึ้นได้เพียง 2 อย่างเท่านั้นตามธรรมชาติของตัวแปร ตัวแปรที่ 1 ตัวแปรที่ 2 1 a b a+b c d c+d
Point biserial correlation เมื่อตัวแปรตัวหนึ่งมีค่าอยู่ในมาตรอันตรภาคขึ้นไป ส่วนอีกตัวแปรหนึ่งเป็น true dichotomous