تأثیر حجم نمونه و طول آزمون بر نمرات همتراز شده و خطای همترازسازی: مورد مطالعه آزمون‌های ملی ایران

نوع مقاله: مقاله پژوهشی

نویسنده

عضو هیئت علمی گروه سنجش و اندازه‌گیری دانشگاه علامه طباطبائی

چکیده

هدف از انجام پژوهش حاضر ارزیابی تأثیر حجم نمونه و طول آزمون بر نمره‌های همتراز شده و خطای همترازسازی روش کرنل (KE) (با شیوه‌های مختلف هموارسازی رشته‌ای و PSE[2]) و همچنین مزایا و معایب این روش در مقایسه با تکنیک‌های همترازسازی کلاسیک بوده است. جامعه آماری و گروه نمونه پژوهش حاضر، داده‌های آزمون‌های ملی ایران (آزمون تولیمو و آزمون‌های جامع کنکورهای آزمایشی شرکت تعاونی سازمان سنجش آموزش کشور در سال 92-91) بوده است. آزمون تولیمو دارای 17 سؤال لنگر در هر فرم و 123 سؤال بود. در آزمون‌های جامع کنکورهای آزمایشی شرکت تعاونی سازمان سنجش آموزش کشور صرفاً از سؤال‌های مشترک درس‌های عمومی رشته‌های ریاضی- فیزیک، علوم تجربی و علوم انسانی استفاده شد. به‌منظور بررسی تأثیر حجم نمونه بر دقت نتایج همترازسازی، از مجموعه داده‌های مورد نظر به‌طور کاملاً تصادفی سه نمونه 200، 500 و 1000 نفری انتخاب و تحلیل شدند. برای بررسی تأثیر طول آزمون بر دقت نتایج همترازسازی از درس‌های عمومی آزمون‌های جامع کنکورهای آزمایشی سنجش نمونه‌ای 40 تایی از سؤال‌ها (از هر درس 10 سؤال) به‌طور کاملاً تصادفی انتخاب شد. بدین ترتیب در آزمون‌های جامع دو آزمون 100 و 40 سؤالی در حجم‌های نمونه مختلف مورد تحلیل قرار گرفته است. طرح همترازسازی مناسب در آزمون تولیمو طرح گروه‌های غیر همتا با آزمون لنگر (EAT[3]) و در آزمون‌های جامع طرح گروه‌های همسان بوده است. روش همترازسازی در آزمون‌های مورد نظر، روش میانگین، روش خطی، روش همصدک، روش قوس دایره‌ای (Circle arc) و روش کرنل (KE) بوده است. به‌طور کلی هرچه حجم نمونه آزمون‌شوندگانی که نمراتشان در تحلیل همترازسازی وارد می‌شود بیشتر باشد، خطای استاندارد همترازسازی کوچک‌تر خواهد بود. نتایج تحلیل‌ها به‌طور کلی نشان داد که همچنان که حجم نمونه افزایش یافته، برازش مربوط به هموارسازی کرنل نیز بهبود یافته است و بهبود هموارسازی کرنل با افزایش طول آزمون همراه بوده است. به‌طور کلی زمانی که حجم نمونه کوچک باشد، روش کرنل بزرگ‌ترین مزیت‌ها را بر سایر روش‌های همترازسازی کلاسیک دارد.




 

کلیدواژه‌ها


سرمد، زهره؛ بازرگان، عباس و حجازی، الهه (1384). روش‌های تحقیق در علوم رفتاری. تهران: نشر آگاه.

لرد، فردریک (1980). کاربردهای نظریه سؤال- پاسخ؛ ترجمه علی دلاور و جلیل یونسی. تهران: انتشارات رشد.

 

 

Brennan, R. L (2006). (Ed.). Educational measurement (4th ed.). Westport, CT: Praeger.

 Godfrey, K. E. (2007). A comparison of Kernel equating and IRT true score equating methods. Unpublished doctoral dissertation, University of North Carolina, Greensboro. Retrieved from ProQuest. (AAT 3273329).

 Grant, M. C.; Zhang, L.; Damiano, M. & Lonstein, L. (2006). An evaluation of the kernel equating method: Small sample equating in non-equivalent groups. Paper presented at the national conference of AERA/NCME, 2006.

  Hanson, B. A. & Béguin, A. A. (2002). Obtaining a common scale for IRT item parameters using separate versus concurrent estimation in the common item nonequivalent groups equating design. Applied Psychological Measurement, 26 (1), 3-24.

Kolen, M. J. & Brennan, R. L. (2004). Test Equating Methods and Practices. New York: Springer-Verlag.

Lee, Y., & von Davier, A. A. (2010). Equating through alternative kernels. In A. A. von Davier (Ed.), Statistical models for test equating, scaling, and linking (pp. 159-173). New York: Springer.

Lee, Y. H. (2007). Contributions to the statistical analysis of item response time in educational testing. Unpublished doctoral dissertation, Columbia University, New York.

Livingston, S. A., Dorans, N. J. & Wright, N. K. (1990). What combination of sampling and equating methods work best? Applied Measurement in Education, 3, 73-95.

Peterson, N. S and Cook L.L (1989). Problems related to the use of conventional and item response theory equating methods in less than optimal circumstances. Applied psychological measurement. 11, 225- 244.

R Development Core Team (2010). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.

Sinharay, S. & Holland, P. W. (2007). Is it necessary to make anchor tests mini-versions of the tests being equated or can some restrictions be relaxed? Journal of Educational Measurement, 44 (3), 249-275.

Von Davier, A. A., Holland, P. W., Thayer, D. T. (2004). The Kernel Method of Test Equating. New York: Springer-Verlag.