Statistical Tests คืออะไร?

ในการที่จะศึกษาข้อมูลของสังคมและสิ่งรอบตัวเราต่างๆเพื่อหาคำตอบและแก้ปัญหาต่างๆ หนึ่งในวิธีที่เป็นวิธีที่ถูกใช้กับแพร่หลายตั้งแต่อดีตจนปัจจุบันก็คือการใช้สถิติในการชี้วัด โดยค่าตัวเลขต่างๆที่ได้จากสถิตินั้นจะถูกนำมาใช้ในการตัดสินใจและคาดการณ์ผลลัพธ์ต่างๆ ซึ่งหลายๆสิ่งรอบตัวเราในชีวิตประจำวันล้วนพัฒนาโดยใช้สถิติเป็นข้อมูลอ้างอิง เช่น พยากรณ์อากาศ นโยบายต่างๆ การแสดงผลคาดการณ์เกี่ยวกับสุขภาพและร่างกาย หรือแม้แต่ ผลิตภัณฑ์และบริการ แต่ในทางกลับกันการเก็บข้อมูลจากประชากรทั้งหมดหรือกลุ่มเป้าหมายทุกคนไม่ใช่เรื่องที่ง่าย จึงทำให้นำไปสู่วิธี การสุ่มตัวอย่าง(Sampling) เพื่อลดเวลาและต้นทุนของหัวข้อนั้นๆที่ต้องการจะศึกษา โดยหลังจากได้ข้อมูลจากการสุ่มตัวอย่างแล้ว แต่ถึงแม้จะสุ่มข้อมูลจากประชากรเดียวกัน ก็สามารถที่จะสุ่มได้ตัวอย่างที่แตกต่างกันไป ทำให้ค่าสถิติไม่เหมือนกัน ทำให้ต้องมีการแจกแจงของตัวอย่าง (Distribution) เพื่อดูความน่าจะเป็นของค่าสถิติโดยดูจากค่า Parameter และสังเกตกากระจายตัว

Sampling คืออะไร?

Sampling หรือกาารสุ่มตัวอย่างนั้นคือ วิธีการเลือกปัจเจกบุคคลนั้นๆ หรือกลุ่มย่อยของประชากรเพื่อที่จะเก็บรวบรวมข้อมูลเพื่อนำไปสร้างสถิติ และนำไปใช้คาดการณ์ลักษณะนิสัยของประชากรทั้งหมด หรือแปลง่ายๆว่าเป็นตัวแทนของประชากรที่จะศึกษา โดยจะมีวิธีการเลือกกลุ่มตัวอย่างที่แตกต่างกันไปแล้วแต่จุดประสงค์ของหัวข้อหรือประเด็นนั้นๆ เพื่อที่จะไม่ต้องทำการวิจัยประชากรทั้งหมดเพื่อรวบรวมข้อมูลส่วนลึก

ประเภทของการสุ่มตัวอย่าง

การสุ่มตัวอย่างนั้นสามารถแบ่งออกมาได้เป็นสองประเภทคือ การสุ่มตัวอย่างโดยใช้ความน่าจะเป็น (Probability Sampling) และการสุ่มตัวอย่างโดยไม่ใช้ความน่าจะเป็น (Non-probability Sampling)

Probability Sampling

  • Probability Sampling: คือ วิธีการสุ่มตัวอย่างโดยนักวิจัยจะกำหนดคุณสมบัติต่างๆไว้และนำไปสุ่มเลือกจากประชากร เพื่อเพิ่มความแม่นยำของผลสำรวจที่จะออกมา โดยในตัวแปรที่ถูกกำหนดนั้น ทุกคนจะมีโอกาสที่เท่าๆกันในการที่จะมาเป็นส่วนหนึ่งของกลุ่มตัวอย่าง
    • Simple random sampling
      • การสุ่มตัวอย่างแบบง่าย คือ โดยวิธีนี้จะเป็นการสุ่มตัวอย่างโดยให้ทุกๆหน่วยในประชากรมีโอกาสจะถูกเลือกเท่าๆกัน
    • Cluster sampling
      • การสุ่มตัวอย่างแบบกลุ่ม คือ จะมีการแบ่งประชากรออกตามเพศ อายุ หรือ พื้นที่นั้นๆและสุ่มตัวอย่างประชากรจากเกณฑ์ที่เลือกไว้
    • Systematic sampling
      • การสุ่มตัวอย่างแบบเป็นระบบ คือ วิธีนี้จะเป็นการสุ่มตัวอย่างโดยมีรายชื่อประชากรมาเรียงเป็นระบบ โดยจะมีแบ่งสุ่มประชากรออกเป็นช่วงๆที่เท่าๆกัน
    • Stratified random sampling
      • การสุ่มตัวอย่างแบบชั้นภูมิ คือในวิธีนี้จะทำโดยแบ่งประชากรออกเป็นกลุ่มประเภทตามความเหมือนกัน โดยเกณฑ์ที่กำหนดไว้จะไม่มีการทับซ้อนกัน (overlap) และจะใช้เป็น Bin Range อย่างเช่น กลุ่มที่1คือผู้ที่มีเงินเดือน 15,000-20,000 บาท ส่วนกลุ่มที่สองจะเป็นผู้ที่มีเงินเดือน 21,000-25,000 บาท

Probability Sampling

  • Non-probability Sampling: คือการสุ่มกลุ่มตัวอย่างโดย ผู้วิจัยจะสุ่มเลือกผู้ที่จะเข้าร่วมการวิจัย ในวิธีนี้จะไม่มีการกำหนดคุณสมบัติที่ตายตัวและการคัดกรองในขั้นต้น จะเป็นการเลือกตัวอย่างโดยที่จะไม่คำนึงถึงโอกาสของประชากรแต่ละคนว่ามีมากหรือน้อยแค่ไหน
    • Convenience sampling
      • การสุ่มตัวอย่างตามความสะดวก คือ การสุ่มตัวอย่างโดยจะคำนึงถึงจำนวนของกลุ่มตัวอย่างที่ต้องการเป็นหลัก และสามารถใช้ประชากรจากไหนก็ได้มาเข้าร่วม
    • Consecutive sampling
      • ในวิธีนี้จะมีความคล้ายกับการสุ่มตัวอย่างตามความสะดวก แต่จะต่างโดยจะมีการสุ่มหาหาตามเกณฑ์ที่กำหนดจนครบจำนวนหรือการทำซ้ำหลายๆรอบนั่นเอง
    • Judgmental or Purposive sampling
      • การสุ่มตัวอย่างแบบเจาะจง คือ การสุ่มกลุ่มตัวอย่างที่ที่มีลักษณะหรือคุณสมบัติตามที่ผู้วิจัยได้กำหนด จะเป็นการเลือกผู้เข้าร่วมแบบค่อนข้างเจาะจงลงไป
    • Quota sampling
      • การสุ่มตัวอย่างแบบโควต้า คือ วิธีการที่กำหนดการสุ่มตัวอย่างคร่าวๆ เพื่อให้ได้คนครบตามโควต้าหรือจำนวนที่ตั้งไว้
    • Snowball sampling
      • การสุ่มตัวอย่างแบบอ้างอิงด้วยบุคคลและผู้เชี่ยวชาญ คือ จะมีการสุ่มเลือกตัวอย่างมาคนแรก จากนั้นผู้ที่เป็นตัวอย่างคนแรกก็จะทำการแนะนำหรือเลือกคนที่มีลักษณะใกล้เคียงกับที่ต้องการต่อไป จะมีรูปแบบที่เป็นทอดๆไปเรื่อยๆจนกว่าจะครบจำนวนที่ต้องการ

การแจกแจง (Distribution)

Distribution หมายถึงการนำค่าท่ีเป็นไปได้ทั้งหมดท่ีได้รับจากการสุ่มตัวอย่างหลายๆคร้ังมาแจกแจง แล้วนำมาแสดงออกมาเป็นแนวโน้ม

  • Gaussian Distribution / Normal Distribution
    • โดยในการแจกแจงปกติ ข้อมูลจะมีขนาดที่มาก เส้นมีลักษณะโค้งเป็นรูประฆังที่สมมาตร จะมีความโค้งพอดีเท่าๆกันอยู่สองฝั่ง
  • Student’s t Distribution
    • โดยจะเป็นการการแจกแจงความน่าจะเป็น ที่ใช้ในการประมาณ parameter ของประชากรเมื่อมีจำนวนตัวอย่างไม่มากพอ หรือในอีกกรณีที่ไม่ทราบค่าแปรปรวนของประชากร
  • Pareto Distribution
    • โดยส่วนมากจะนำมาใช้ในการอธิบายการกระจายของความมั่งคั่งในหมู่ประชากร
  • Left Skewed Distribution
    • โดยจะมีลักษณะกระจายที่เบ้ทางซ้าย ทางด้านซ้ายของ histogram ที่มีความถี่น้อยและน้อยที่สุด
  • Positively Skewed Distribution / Right Skewed Distribution
    • โดยลักษณะเด่นคือหางของกราฟหรือข้อมูลด้านขวามือจะมีความยาวกว่าเมื่อเทียบกับด้านซ้าย
  • Poisson Distribution
    • การแจกแจงปัวซง โดยปกติจะใช้กับปรากฏการณ์, เหตุการณ์ หรือการทดลองที่เกิดขึ้นในช่วงเวลาหนึ่ง
  • Triangular Distribution
    • ในการแจกแจงกระจายแบบสามเหลี่ยม ข้อมูลจะมีความหนาแน่นอยู่ตรงกลาง ข้อมูลจะมีสเกลที่ต่อเนื่องที่จะดูความน่าจะเป็นที่ตกลงระหว่างค่าสูงสุดและต่ำสุด
  • Exponential Distribution
    • การแจกแจงเอกซ์โพเนนเชียล จะมีข้อมูลแบบต่อเนื่องที่ลดลงหรือเพิ่มขึ้นอย่างกระทันหัน โดยจะใช้กับความน่าจะเป็นที่จะเกิดเหตุการณ์ต่อเวลาที่กำหนด

Significant keywords

  • สมมติฐานทางการวิจัย (Research Hypothesis) คือ การเขียนบรรยายคำตอบของการวิจัยโดนการคาดคะเน โดยสมมติฐานนั้นจะเสนอความเกี่ยวข้องกันและความแตกต่างของตัวแปรต่างๆ
  • สมมติฐานทางสถิติ (Statistical Hypothesis) คือ จะเป็นการนำสมมติฐานการวิจัยมาแปลงโดยใช้ภาษาคณิตศาสตร์ โดยจะใช้สัญลักษณ์โดยจะนำข้อมูลที่ได้จากกลุ่มตัวอย่างเพื่ออ้างอิงไปสู่กลุ่มประชากร โดยจะแบ่งออกมาเป็นสองแบบคือ สมมติฐานหลัก และ สมมติฐานแย้ง
    • สมมติฐานว่าง /สมมติฐานหลัก /สมมติฐานเพื่อใช้ทดสอบ (Null Hypothesis) คือสมมติที่แสดงให้เห็นว่าไม่มีความแตกต่างระหว่างตัวแปร โดนจะแทนด้วย H0
    • สมมติฐานแย้ง /สมมติฐานรอง (Alternative Hypothesis) คือสมมติฐานที่ตรงข้ามกับสมมติฐานหลักโดยจะแสดงถึงตวามแตกต่าง โดยจะแทนด้วย H1 , Ha
  • ค่าวิกฤต (Critical Value) คือ ค่าที่ใช้แบ่งเขตการยอมรับและการปฏิเสธ โดยการยอมรับจะเป็นการยอมรับ H0 ที่ได้ตั้งเอาไว้ ส่วนการปฏิเสธ คือการไม่ยอมรับของ H0 ซึ่งจะเป็นการมองว่าไม่ถูกต้อง
  • พารามิเตอร์ (Parameters) คือ ต่างๆของประชากรที่จะต้องการศึกษา
  • p-Value / Probability Value คือ ค่าที่จะแสดงถึงโอกาสในสมมติฐานนั้นๆที่มองเห็นในบริเวณปลายสุด ที่จะเกิดขึ้น โดยจะวัดเป็น%
    • โดยถ้า p-Value มีค่าสูงกว่าค่านัยสำคัญ (Alpha Level) ที่กำหนดไว้ : p-Value > 0.05 จะหมายความว่าสมมติฐานจะไม่ถูกหักล้าง และไม่มีนัยสำคัญทางสถิติ
    • แต่ถ้า p-Value มีค่าต่ำกว่าค่านัยสำคัญ : p-Value < 0.05 จะแปลได้ว่าสมมติฐานกลายเป็นถูกหักล้าง และมีนัยสำคัญทางสถิติ