مقایسه روش‌های تخصیص وزن‌های بهینه به مؤلفه‌های آزمون‌های مرکب

نوع مقاله: مقاله پژوهشی

نویسندگان

1 *پژوهشگر سازمان سنجش آموزش کشور

2 دانشیار سازمان سنجش آموزش کشور

3 استادیار سازمان سنجش آموزش کشور

چکیده

یک مسئله مهم در تعیین نمره یک آزمون مرکب، نحوه ترکیب نمره بخش‌های مختلف آزمون یا اصطلاحاً خرده آزمون‌ها به منظور محاسبه نمره کل داوطلبان است. این وزن‌ها باید به گونه‌ای انتخاب شوند که ضمن در نظر گرفتن ویژگی‌های روان‌سنجی هر خرده آزمون و مؤلفه‌های تعیین‌کننده آنها، اختلاف نمره مشاهده شده هر داوطلب با نمره واقعی که بیانگر توانایی واقعی داوطلب است را حداقل نماید. به عبارت دیگر چارچوب تصمیم‌گیری بر مبنای ملاحظات مختلف نظیر روایی محتوا (اعتبار)، دفعات آزمون، پایایی و ... طراحی می‌شود.
برای به دست آوردن حداکثر پایایی در نمره مرکب روش‌های مختلفی در چند دهه اخیر پیشنهاد شده است. این روش‌ها به دو دسته کلی، روش‌های ضمنی و عینی تقسیم می‌شوند. روش‌های ضمنی شامل جمع کردن نمرات خام و مدل‌بندی سئوال- پاسخ و روش‌های عینی شامل وزنی کردن مؤلفه‌ها به وسیله میزان دشواری سئوالات، تخصیص وزن‌ها به نمرات مؤلفه‌ها بر مبنای ماکسیمم اندازه پایایی، و وزنی کردن مؤلفه‌ها بر اساس ماکسیمم کردن روایی نمرات مرکب است. در این مقاله، رویکرد به دست آوردن حداکثر پایایی را در دو نظریه کلاسیک آزمون‌سازی و نظریه سئوال- پاسخ معرفی و ضمن بیان نقاط ضعف و قوت هر روش، برآورد پایایی نمره مرکب و خطای استاندارد اندازه‌گیری در این روش‌ها برای داده‌های شبیه‌سازی شده بررسی خواهیم کرد

کلیدواژه‌ها


 

-     Bond, TG and Fox, CM (2007). Applying the Rasch model: Fundamental measurement in the human sciences (2nd Ed), Mahwah, NJ, USA: Lawrence Erlbaum.

-     Childs, R, Eligie, S, Gadalla, T, Traub, R and Jaciw, A. (2004). IRT-linked standard errors of weighted composites, Practical Assessment. Research and Evaluation, 9, (13).

-     Cronbach, L, Glesser, G, Nanda, H and Rajaratnam, N (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles, Chichester: Wiley.

-     Feldt, L and Brennan, R (1989). Reliability, Educational Measurement(3rd Edition, R Linn Ed), the American Council on Education, MacMillan, pp. 105-146.

-     Gill, T and Bramley, T (2008). Using simulated data to model the effect of inter-marker correlation on classification, Research Matters: A Cambridge Assessment Publication, 5, pp. 29-36.

-     Hambleton R and Swaminathan, H. (1983). Item response theory: Principles and applications, the Netherlands: Kluwer-Nijoff.

-     Hambleton, R, Swaminathan, H, and Rogers, J (1991). Fundamentals of Item Response Theory, Newbury Park, Ca, 12, pp. 177- 184.

-     Runder, L (2001). Informed test component weighting, Educational Measurement: Issues and Practice, 20, pp. 16-19.

-     Wang, M and Stanley, J (1970). Differential weighting: A review of methods and empirical studies, Review of Educational Research, 40, pp. 663-705.

-     Webb, N; Shavelson, R and Haertel, E. (2007). Reliability coefficient and generalizability theory, Handbooks of Statistics 26: Psychometrics (C Rao and S Sinharay Eds), pp. 81-120.

-     Wright, B and Masters G (1982). Rating scale analysis, Rasch Measurement, Chicago, IL, USA: MESA Press.

-     Wu, M and Adams, R (2006). Modelling mathematics problem solving item responses using a multidimensional IRT model, Mathematics Education Research Journal, 18, pp. 93-113.