تغییرناپذیری ساختار عاملی و سؤال‌های آزمون سراسری ریاضی (مورد مطالعه: گروه آزمایشی ریاضی و فنی 96-1395)

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری سنجش و اندازه‌گیری، دانشگاه تهران، تهران، ایران

2 استادیار دانشکده روان‌شناسی و علوم تربیتی دانشگاه تهران، تهران، ایران

3 دانشیار گروه سنجش و اندازه‌گیری، دانشگاه علامه طباطبائی، تهران، ایران

4 استادیار گروه برنامه‌ریزی درسی، دانشگاه خوارزمی، تهران، ایران

5 استادیار دانشکده روان‌شناسی و علوم تربیتی، دانشگاه تهران، تهران، ایران

10.22034/emes.2020.44338

چکیده

هدف از اجرای این پژوهش، بررسی تغییرناپذیری ساختار عاملی آزمون سراسری و پارامترهای سؤال (بارعاملی و آستانه) در استان‌ها بود. روش پژوهش توصیفی همبستگی است. برای بررسی هدف پژوهش از هر استان نمونه‌‌ای به حجم1000 نفر از شرکت‌کنندگان در آزمون ریاضی گروه آزمایشی ریاضی وفنی 1396 انتخاب شد. نتایج نشان داد عملکرد آزمودنی‌ها در تهران، اصفهان، خراسان رضوی، فارس، مازندران، یزد و البرز در بیشتر سؤال‌ها در مقایسه با سایر استان‌ها بهتر است. تعداد سؤال‌های تغییرپذیر در تهران و ایلام از سایر استان‌ها بیشتر است. روش بهینه‌سازی ترازبندی نشان داد 5/37% سؤال‌ها در عامل اول و16% درصد در عامل دوم برای تمامی‌استان‌ها دارای تغییرناپذیری تقریبی آستانه‌‌ها و83% سؤال‌ها در عامل اول و 71% در عامل دوم دارای تغییرناپذیری بارهای عاملی است. تعداد سؤال‌های تغییرپذیر در عامل دوم، بیشتر از عامل اول است، بنابراین برای مقایسه آزمودنی‌ها در استان‌ها بهتر است از سؤال‌های عامل اول استفاده شود. بررسی DIF در تعداد زیادی از گروه‌ها تنها با روش ترازبندی کافی نیست، اگر گروه خاصی در پژوهش موردنظر باشد لازم است روش‌های DIF دوگروهی استفاده شود.

کلیدواژه‌ها


عنوان مقاله [English]

Investigating the Invariance of the Factor Structure and the Items of the National Math Test of the Mathematics and Technology and Experimental Group 2016-2017

نویسندگان [English]

  • Molood Alimirzaie 1
  • Ali moghadam zadeh 2
  • Asghar Minaei 3
  • Balal ezanloo 4
  • keyvan salehi 5
1
2
3
4
5
چکیده [English]

The aim of this study was to investigate the invariance of the factor structure of the national test and the item parameters (factor and threshold) in the provinces. The research method is descriptive correlation. In order to investigate the purpose of the research, a sample of 1000 participants in the math test of the Mathematics and Technology experimental group of 1396 was selected from each province. The results showed that in most items, the performance of the examinees in Tehran, Isfahan, Khorasan Razavi, Fars, Mazandaran, Yazd and Alborz is better than most provinces. The number of non-invarince items in Tehran and Ilam is higher than other provinces. The alignment optimization method showed that 37.5% of the items in the first factor and 16% in the second factor for all provinces had approximate invariance of thresholds and 83% of the items in the first factor and 71% in the second factor had invariance in factor loadings. The number of non-invariance items in the second factor is higher than the first factor, so it is better to use the first factor items to compare the examinees in the provinces. Investigating DIF by using the alignment method alone is not enough in a large number of groups. If a specific group is involved in the study, it is necessary to use two-group DIF methods.

کلیدواژه‌ها [English]

  • Measurement invariance
  • Alignment optimization
  • Multiple group differential functioning
  • Higher education entrance exam
ایزانلو، بلال؛ بازرگان، عباس؛ فرزاد، ولی اله؛ صادقی، ناهید؛ کاوسی، امیر (1393). تفکیک ابعاد متعامد از خوشه‌های سؤال بر اساس هشت روش تعیین بعد در داده‌های دوارزشی: مورد آزمون ریاضی رشته ریاضی فیزیک کنکور 91-92. فصلنامه اندازه‌گیری تربیتی، 5(18)، 207-240.
چگینی، مریم؛ خدایی، ابراهیم؛ فرزاد، ولی‌اله؛ ایزانلو، بلال (1398). داده‌های گمشده در آزمون‌های سراسری ورود به دانشگاه: مبانی نظری و شواهد مبتنی بر داده‌های واقعی. مطالعات اندازه‌گیری و ارزشیابی آموزشی، 9(26)، 71-108.
سلیمی، جمال؛ پاسالاری، حامد (1396). نقش ویژگی‌های اجتماعی و تحصیلی دانش‌آموختگان دبیرستانی استان هرمزگان در موفقیت آنان در آزمون ورودی دانشگاه‌ها. مطالعات اندازه‌گیری و ارزشیابی آموزشی، 7(18)، 91-125.
شریفی یگانه، نگار (1391). ارزیابی کارکرد افتراقی جنسیتی سؤالات آزمون ریاضی با استفاده از دو روش مانتل-هنزل و نظریه سؤال-پاسخ. فصلنامه مطالعات اندازه‌گیری و ارزشیابی آموزشی، 1(2)، 53-76.
صفائی‌پور، مسعود؛ مودت، الیاس (1392). ارزیابی استان‌های ایران با تأکید بر شاخص‌های اجتماعی-اقتصادی و شاخص‌ ترکیبی توسعه انسانی با استفاده از تکینک TOPSIS و GIS. مطالعات ساختار و کارکرد شهری، 3(1)، 11-27.
گرامی‌پور، مسعود؛ رضایی، احمد؛ رمضان صدر، اعظم؛ نوروزی، لیلا (1395). کنش افتراقی سؤال در آزمون‌های سازمان سنجش آموزش کشور بر حسب ویژگی‌های جمعیت‌شناختی داوطلبان کنکور سراسری. فصلنامه اندازه‌گیری تربیتی، 7(26)، 122-110.
گرامی‌پور، مسعود؛ رمضانی صدر، اعظم؛ رضایی، احمد؛ نوروزی، لیلا؛ مختاریان، فرانک (1396). کنش افتراقی سؤال (DIF) و آزمون (DTF) مرتبط با جنسیت در آزمون‌های کنکور سراسری سازمان سنجش آموزش کشور. فصلنامه مطالعات اندازه‌گیری و ارزشیابی آموزشی، 7(19)، 35-63.
میرغفوری، سید‌حبیب‌الله؛ طحاری مهرجردی، محمدحسین؛ بابایی، حمید (1389). شناسایی وضعیت توسعه‌یافتگی و رتبه‌بندی استان‌های کشور از لحاظ دسترسی به شاخص‌های بخش کتابخانه‌ای. فصلنامه کتابداری و اطلاع‌رسانی، 13(3)، 243-270.
80 درصد قبولی‌های کنکور اهل کدام استان‌ها هستند؟، (1398، 20 مرداد)، دنیای اقتصاد، شماره 3558931.
Asparouhov, T., & Muthén, B. O. (2014). Multiple-group factor analysis alignment.Structural Equation Modeling, 21, 495–508. doi:10.1080/10705511.2014.919210.
Bollen, K. A. (1990). Overall fit in covariance structure models: two types of sample size effects. Psychol, Bull107(2), 256. Doi: 10.1037/0033-2909.107.2.256.
Chen, F. F. (2007). Sensitivity of goodness of fit indexes to lack of measurement invariance. Structural Equation Modeling, 34, 155–175. Doi: 10.1080/10705510701301834
Cheung, G.W., & Rensvold, R. B. (2002). Evaluating goodness-of-fit indexes for testing measurement invariance. Structural Equation Modeling, 9, 233–255. Doi: 10.1207/S15328007SEM0902_5.
Diana, G., & Tommasi, Ch. (2002). Cross-validation methods in principal component analysis: acomparison. Statistical Methods & Applications, 11, 71-82.
Drasgow, F., & Kanfer, R. (1985). Equivalence of psychological measurement in heterogeneous populations. Journal of Applied Psychology, 70, 662-680.
Flake, J. K., McCoach, D. B. (2017). An investigation of the alignment method with polytomous indicators under conditions of partial measurement invariance. Structural Equation Modeling: A Multidisciplinary Journal, 25, 56–70.
    doi:10.1080/10705511.2017.1374187
Fraser, C., & McDonald, R. P. (1988). NOHARM: Least squares item factor analysis. Multivariate Behavioral Research, 23, 267–269.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.
Horn, J. L., & McArdle, J. J. (1992). A practical and theoretical guide to measurement invariance in aging research. Experimental Aging Research, 18, 117-144.
Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling: A Multidisciplinary, 1(6), 1-55.
Jennrich R. I. (2006). Rotation to simple loadings using component lossfunctions: The oblique case. Psychometrika, 71, 173-191.
Kim, E. S., Cao, CH., Wang, Y., & Nguyen, D. T. (2017) Measurement Invariance Testing with Many Groups: A Comparison of Five Approaches. Structural Equation Modeling: A Multidisciplinary Journal, 24(4), 524-544, DOI: 10.1080/10705511.2017.1304822
Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
Meredith, W. (1993). Measurement invariance, factor analysis, and factorial invariance. Psychometrika, 58, 525–543.
Muthén, B., & Asparouhov, T. (2002). Latent variable analysis with categorical outcomes: Multiplegroup and growth modeling in Mplus. Mplus Web Note #4.
Muthén, L. K., & Muthén, B. O. (1998-2017). Mplus User’s Guide. Eighth Edition. Los Angeles, CA: Muthén & Muthén
Oliveri, M. E., & Von Davier, M. (2014) Toward Increasing Fairness in Score Scale Calibrations Employed in International Large-Scale Assessments. International Journal of Testing, 14(1), 1-21, DOI: 10.1080/15305058.2013.825265
Revelle, W. (2015). Psych: Procedures for personality and psychological research (1.5.8) [Computer software package and manual]. Evanston, IL: Northwestern University. Retrieved from https://cran.r-project.org/web/packages/psych.
Rock, D. A., Werts, C. E., & Flaugher, R. L. (1978). The use of analysis of covariance structures for comparing the psychometric properties of multiple variables across populations. Multivariate Behavioral Research, 13, 403-418.
Rosseel, Y. (2012). Lavaan: An R Package for Structural Equation Modeling.” Journal of Statistical Software48(2), 1–36. http://www.jstatsoft.org/v48/i02/.
Rutkowski, L., & Svetina, D. (2014). Assessing the hypothesis of measurement invariance in the context of large-scale international surveys. Educational & Psychological Measurement, 74, 31–57. Doi: 10.1177/ 0013164413498257.
Stout, W., Froelich, A., & Gao, F. (2001). Using resampling methods to produce an improved DIMTEST procedure. In A. Boomsma, M. A. J. van Duijn, & T. A. B. Snijders (Eds.), Essays on item response theory (pp. 357-376). New York, NY: Springer-Verlag.
Svetina, D., & Rutkowski, L. (2014). Detecting differential item functioning using generalized logistic regression in the context of large-scale assessments. Large-scale Assess Education, 2(4). https://doi.org/1186/10/s40536-014-0004-5