نقش هموار‌سازی در تبدیل غیر‌خطی نمره‌های خام به نمره‌های مقیاس نرمال

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری سنجش و اندازه گیری، دانشکده روان‌شناسی و علوم تربیتی دانشگاه تهران

2 دانشیار گروه روش‌ها و برنامه‌های آموزشی دانشکده روان‌شناسی و علوم تربیتی دانشگاه تهران

3 دانشیار گروه سنجش و اندازه‌گیری دانشکده روان‌شناسی و علوم تربیتی دانشگاه علامه طباطبایی

4 استادیار دانشکده آموزش دانشگاه ساسکاچوان کانادا

چکیده

 آزمون‌های مرکب شامل چند خرده‌آزمون هستند که ممکن است به لحاظ محتوا و تعداد پرسش‌ها متفاوت باشند. برای تفسیر‌پذیری بهتر و مقایسه‌پذیر ‌کردن نمره‌ خرده‌آزمون‌ها، نمره‌ خام به‌دست‌ آمده از خرده‌آزمون‌ها به مقیاس مشترکی تبدیل می‌شود که به آن نمره مقیاس گفته می‌شود. یکی از روش‌های مرسوم تبدیل نمره‌های خام به نمره‌های مقیاس، تبدیل مقیاس نرمال است. در این تبدیل از فراوانی ‌تراکمی و رتبه‌ درصدی هر نمره برای ساختن نمره‌ مقیاس استفاده می‌شود. هدف این پژوهش، بررسی اثر به‌کارگیری روش پیش‌هموار‌سازی فراوانی نمره‌ها و پس‌هموارسازی آنها بر میزان خطای استاندارد اندازه‌گیری شرطی نمره‌های مقیاس است. برای بررسی این اثر از 10000 داده شبیه‌سازی شده و 10000 داده واقعی آزمون سراسری ایران در گروه آزمایشی ریاضی و فنی در سال 1395 بهره گرفته شد. همچنین از روش‌های هموارسازی دو جمله‌ای کرنل و هموارسازی اسپلاین به ترتیب برای هموار کردن فراوانی نسبی نمره‌ها و نمره‌های مقیاس استفاده شد. برای مقایسه نمره‌های مقیاس ساخته شده از خطای استاندارد اندازه‌گیری شرطی نمره‌ها بهره گرفته شد. نتایج پژوهش، نشان‌دهنده مقدار بالای ضریب پایایی برای همه روش‌ها بود. ضمن اینکه تحلیل نمودار و میانگین خطای استاندارد اندازه‌گیری شرطی نشان داد که در آن دسته از روش‌های تبدیل نمره‌های خام به نمره‌های مقیاس که از پیش‌هموار‌سازی فراوانی، استفاده شده است، میانگین خطای استاندارد اندازه‌گیری شرطی کمتر بوده و استفاده از پیش‌هموار‌سازی تا حد مطلوبی نوسان خطا برای سطوح مختلف نمره‌ها را کاهش داده است.

کلیدواژه‌ها


ACT. (2014). The ACT technical manual. Retrieved from www.act.org

Allen, M. J. & Wendy, Y. M. (1979). Introduction to Measurement Theory. California: Cole publishing company.

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (2014). Standards for educational and psychological testing. Washington, DC: American Psychological Association.

Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorridike (Ed.). Educational measurement (2nd ed., pp. 508-600). Washington, DC: American Council on Education. (Reprinted as 'W. A. Angoff, Scales, norms, and equivalent scores'. Princeton, NJ: Educational Testing Service, 1984.).

Brennan, Robert L. & Lee, Won-Chan (1999). Conditional Scale-Score Standard Errors of Measurement under Binomial and Compound Binomial Assumptions. Educational and Psychological Measurement, 59 (1), 5 – 24.

Brooks, G. P. & Johnson, G. A. (2003). TAP: Test Analysis Program. Applied Psychological Measurement, 27 (4), 303-304.

Brooks, G. P. & Johnson, G. A. (2014). TAP: Test Analysis Program version (14.7.4) [computer software]. retrieved from http://www.ohio.edu/people/brooksg/software.htm.

Chang, S. W. (2006). Methods in Scaling the Basic Competence Test. Educational and Psychological Measurement, 66 (6), 907-929.

De Boor, C. (2001). A Practical Guide to Splines (Revised Edition). New York: Springer. pp. 207–214.

Dorans N. J.; Pommerich, M. & Holland, P. W. (2007). A Framework and History for Score Linking. In Holland P. W. (Eds.). Linking and Aligning Scores and Scales (pp 5-30). New York: Springer.

Feldt, L. S. & Brennan, R. L. (1989). Reliability. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 105-146). New York, NY: Macmillan.

Feldt, L. S. & Quails, A. L. (1996). Estimation of measurement error variance at specific score levels. Journal of Educational Measurement, 33, 141-156.

Gulliksen, H. (1950). Theory of mental test. New York: John Wiley & sons.

Haertel, H. E. (2006). Reliability. In R. L. Brennan (Ed.), Educational measurement (4th ed., pp. 65-86). CT: American Council on Education and Praeger.

Iowa Assessment (2016). Iowa Test Of Basic Skills, Retrieved: www.itp.education.uiowa.edu

Kolen, M. J., Hanson, B. A. & Brennan, R. L. (1992). Conditional standard errors of measurement of scale scores. Journal of Educational Measurement, 29, 285-307.

Kolen, M. J. & Hanson, B. A. (1989). Scaling the ACT Assessment. In R. L. Brennan (Ed.), Methodology used in scaling the ACT Assessment and P-ACT+ (pp. 35-55). Iowa City, IA: American College Testing Program.

Kolen, M. J. (1991). Smoothing methods for estimating test score distributions. Journal of Educational Measurement, 28, 257-282.

Kolen, M. J. & Brennan, R. L. (2014). Test Equating, Scaling and Linking, 3rd Ed. New York: Springer.

Kolen, M. J.; Wang, T. & Lee, W. Chon (2012). Conditional Standard Errors of Measurement for Composite Scores Using IRT. International Journal of Testing, 12, 1-20.

Lee, W. C.; Brennan, R. L. & Kolen, M. J. (2000). Estimators of Conditional Scale-Score Standard Errors of Measurement: A Simulation Study. Journal of Educational Measurement, 37, 1–20. 

Lord, F. M. (1955). Estimating Test Reliability. ETS Research Bulletin Series, 1955, 1–17. 

Lord, F. M. (1965). A strong true-score theory with applications. Psychometrika, 30,239-270.

Lord, F. M. (1969). Estimating true-score distributions in psychological testing (An empirical Bayes estimation problem). Psychometrika, 34, 259-299.

Liu, C. (2011). A comparison of statistics for selecting smoothing parameters for log-linear pre-smoothing and cubic spline post-smoothing under a random groups design (Doctoral Dissertation). Available from ProQuest Dissertations and Theses database. (UMI No. 3461186).

Mood, M. A.; Gray bill, A. F. & Boes, C. D. (2008). Introduction to the Theory of Statistics. C.A: McGraw-Hill.

Moses, T. & Holland, P. W. (2009). Selection strategies for univariate log-linear smoothing models and their effect on equating function accuracy. Journal of Educational Measurement, 46, 159–176.

SAT (2015). SAT technical manual. Retrieved from collegereadiness.collegeboard.org.

Woodruff, D.; Traynor, A.; Cui, Z. & Fang, Y. (2013). A Comparison of Three Methods for Computing Scale Score Conditional Standard Errors of Measurement.  ACT Research report series, no.7.