کنش افتراقی سؤال (DIF) و آزمون (DTF) مرتبط با جنسیت در آزمون‌های کنکور سراسری سازمان سنجش آموزش کشور

نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار دانشکده روان‌شناسی و علوم تربیتی دانشگاه خوارزمی

2 کارشناسی ارشد تحقیقات آموزشی دانشگاه خوارزمی

3 دانشجوی دکتری رشته سنجش و اندازه‌گیری دانشگاه علامه طباطبایی

4 کارشناس پژوهشی سازمان سنجش آموزش کشور

چکیده

عملکرد آزمودنی با کنترل آماری توانایی ایشان در گروه های مختلف جنسیتی ممکن است متفاوت باشد. در این صورت، وقوع کنش افتراقی سؤال (DIF) / آزمون (DTF) مرتبط با جنسیت و به دنبال آن سوگیری سؤال/آزمون محتمل است. هدف اصلی از اجرای این پژوهش، مطالعه DIF/DTF و سوگیری جنسیتی در آزمون‌های کنکور سراسری ایران است. آزمون‌های تخصصی یک دفترچه آزمون در پنج گروه آزمایشی شرکت‌کننده در کنکورهای سراسری سال‌های 1387 تا 1390 به صورت خوشه‌ای تک مرحله‌ای انتخاب شدند. سپس برای مطالعه DIF از تحلیل رگرسیون لوجستیک و برای مطالعه DTF از رویکرد مبتنی بر IRT استفاده شد. نتایج نشان داد که به‌طور متوسط، حدود 14 درصد از پرسش‌های آزمون های مورد مطالعه دارای DIF جنسیتی با اندازه اثر ناچیز (0001/0>EF) هستند و حداکثر 2 درصد آنها بر اساس نقطه نظرات گروه‌های خبرگان نسبت به جنس مؤنث یا مذکر سوگیری دارند. همچنین یافته‌های تحلیل DTF نشان داد که به جز آزمون  خلاقیت‌های نمایشی گروه هنر که نسبت به زنان دارای سوگیری کمی است، سایر آزمون ها فاقد DTF هستند.  

کلیدواژه‌ها


عنوان مقاله [English]

Gender-related Differential Item Functioning and Differential Test Functioning in National Entrance Exams Organized by National Organization for Educational Testing

نویسندگان [English]

  • Masoud Geramipour 1
  • Azam Ramezani sadr 2
  • Ahmad Rezai 3
  • Leylah Norouzi 2
  • Faranak Mokhtarian 4
چکیده [English]

The performance measurement of examinees through exerting statistical control on their ability may reveal different results in different gender groups. In this case, gender-related differential item functioning and differential test functioning as well as item/test bias is likely to occur. The main purpose of this research was to investigate the gender-related DIF/DTF and gender-related bias throughout national entrance exams in Iran. Then, special tests of a test booklet in 5 experimental groups participating in national entrance exams were chosen from 2008 to 2011 through one-stage cluster sampling method. Next, logistic regression and item response theory were used to investigate DIF and DTF, respectively. The results showed that, on average, about 14% of investigated test items had gender-related DIF with negligible effect size (EF<0.0001) and about 2% of them were biased against females or males based on experts’ viewpoints. Concerning the DTF analysis, it was shown that except for Dramatic Creativity Test of Art Group, which was a bit biased against females, the other tests were not characterized with DTF. 

کلیدواژه‌ها [English]

  • Differential item/test functioning
  • gender-related DIF/DTF
  • item/test bias
  • University Entrance Exam
  • national entrance exam
آبکار، کبری (1391). بررسی ویژگی‌های روان‌سنجی سؤالات کنکور سراسری در رشته علوم تجربی سال 1389 از نظر تئوری سؤال و پاسخ (IRT). پایان‌نامه کارشناسی ارشد، دانشگاه آزاد اسلامی واحد تهران مرکز. 
  ترکاشوند، علی (1394). بررسی ویژگی‌های روان‌سنجی آزمون سراسری درس زیست‌شناسیبر اساس مدل چندگزینه‌ای  IRT. پایان‌نامه کارشناسی ارشد، دانشگاه خوارزمی.
 حبیبی، مجتبی (1392). بررسی عوامل مؤثر بر پیشرفت تحصیلی دانشجویان مقطع کارشناسی و پیش‌بینی آن بر اساس نمرات تراز کنکور: اعتباریابی بیرونی نمرات تراز کنکور با مطالعه موردی دانشگاه شهید بهشتی. طرح پژوهشی، وزارت علوم، تحقیقات و فناوری.
فلاحی‌سرشت، شیوا (1394). بررسی کارکرد افتراقی سؤالات (DIF) استعداد تحصیلی آزمون نیمه‌متمرکز دکتری سال 93 با کاربرد نظریه سؤال-پاسخ (IRT) و رگرسیون لجستیک. پایان‌نامه کارشناسی ارشد، دانشگاه علامه طباطبایی.
 گرامی‌پور، مسعود (1393). مبانی نظری و کاربرد نظریه‌های اندازه‌گیری در علوم رفتاری. تهران: انتشارات تمدن علمی.
 گرامی‌پور، مسعود و فلسفی‌نژاد، محمدرضا (1392). روش‌های آماری بررسی کنش افتراقی سؤال (DIF)  در آزمون‌های سرنوشت‌ساز. تهران: انتشارات جهاد دانشگاهی، واحد تربیت معلم.
معلمی اوره، مهرناز (1387). مقایسه دقت برآورد توانایی در سؤالات چندگزینه‌ای با به‌کارگیری مدل‌های سؤال- پاسخ دو و چندارزشی. پایان‌نامه کارشناسی ارشد، دانشگاه علامه طباطبایی.
میری، محمد (1394). بررسی و مقایسه ویژگی‌های روان‌سنجی بخش فیزیک آزمون سراسری ورود به دانشگاه بر اساس مدل‌های دو ارزشی IRT. پایان‌نامه کارشناسی ارشد، دانشگاه خوارزمی.
 مینایی، اصغر (1392). سنجش مقایسه پذیری سازه و تحلیل کارکرد افتراقی سؤال‌ها (DIF) و بلوک‌های (DTF) آزمون علوم پایه هشتم تیمز 2007 در بین دانش آموزان ایران و آمریکا. فصلنامه اندازه‌گیری تربیتی، 4 (11)، 109-146.
 نژادنجف، فیروز (1393). نقد و بررسی سؤالات کنکور سراسری درس دین و زندگی. رشد آموزش معارف اسلامی، 26، 48-53.
Amirian, S. M.R.; Alavi, S. M. & Fidalgo, A. M. (2014). Analyzing Gender Differences with an English Proficiency Test in EFL Context. Iranian Journal of Language Testing.
Aryadoust, V.; Goh, C. C. M. & Kim, L. O. (2011). An investigation of differential item functioning in the MELAB listening test. Language Assessment Quarterly, 8 (4), 361– 385.
Barati, H. & Ahmadi, A. R. (2010). Gender-based DIF across the subject area: A study of the Iranian National University Entrance Exam. The Journal of Teaching Language Skills (JTLS), 2 (3), 1-22.
Berberoglu, G. (1995). Differential item functioning (DIF) analysis of computation, word problem and geometry questions across gender and SES groups. Studies in Educational Evaluation, 21 (4), 439-456.
Breland, H.; Lee, Y. W.; Najarian, M. & Muraki, E. (2004). An analysis of the TOEFL CBT writing prompt difficulty and comparability of different gender groups (TOEFL Research Report No. 76). Princeton, NJ: Educational Testing Service.
Brown, I. & Kanyongo, Y. (2007). Differential Item Functioning and male-female differences in a large-scale mathematics assessment in Trinidad and Tobago.  Caribbean Curriculum, 14, 49–71.
Carlton, S. T. & Harris, A. M. (1992). Characteristics associated with differential item functioning on the Scholastic Aptitude Test: Gender and majority/minority group comparisons. Princeton, NJ: Educational Testing Service.
Chalmers, R. P.; Counsell, A. & Flora, D. B. (2015). It might not make a big DIF: Improved.
Differential Test Functioning statistics that account for sampling variability. Educational and Psychological Measurement, 1-27.
Doolittle, A. E. & Cleary, T. A. (1987). Gender-based differential item performance in mathematics achievement items. Journal of Educational Measurement, 24, 157-166.
 Doudeen, Hamzah M. & Annabi, Hanan A. (2008). Sex-Related Differential Item Functioning (DIF) Analysis of TIMSS. Dirasat, Educational Sciences, Volume 35.
Drasgow, F. (1984). Scrutinizing psychological tests: Measurement equivalence and equivalent relations with external variables are central issues. Psychological Bulletin, 95134-135.
 Drasgow, F. (1987). Study of the measurement bias of two standardized psychological tests. Journal of Applied Psychology, 72, 19-29.
 Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum Associates.
 Engelhard, G.; Hansche, L. & Rutledge, K. (1990). Accuracy of bias review judges in identifying differential item functioning on teacher certification tests. Applied Measurement in Education, 3, 347–360.
Ethington. A. (1990). Gender differences in mathematics: An international perspective. Journal for Research in Mathematics Education. 21 (1), 74-80.
 Fennema. E (1980). Sex-related differences in mathematics achievement: Where and why. In L.H. Fox. L. Brody, D. Tobin (Eds.). Women and the    mathematic mystique, (pp. 76-93). Baltimore: Johns Hopkins University Press.
 Fennema. E. & Carpenter. T. P. (1981). Sex-related differences in mathematics: Results from national assessment. Mathematics Teacher. 74, 554-559.
Finch, H. & Habing, B. (2007). Performance of DIMTEST- and NOHARM based statistics for testing unidimensionality. Applied Psychological Measurement, 31, 292–307.
Flora, D., Curran, P., Hussong, A., & Edwards, M. (2008). Incorporating measurement Nonequivalence in a cross-study latent growth curve analysis. Structural Equation Modeling, 15, 676-704.
Fraser, C., & McDonald, R. P. (1988). NOHARM: Least squares item factor analysis. Multivariate Behavioral Research, 23, 267-269.
Gallagher, A. (1998). Gender and antecedents of performance in mathematics testing. Teachers College Record, 100 (2), 297-314.
 Gallagher, A. M., & DeLisi, R. (1994). Gender differences in scholastic aptitude tests mathematics problem solving among high-ability students. Journal of Educational Psychology, 86, 204-211.
 Hanna. G. (1989). Mathematics achievement of girls and boys in grade eight: Results from twenty countries. Educational Studies in Mathematics, 20, 225-232.
 Harries, A. & Carlton, S. (1993). Patterns of gender difference on mathematics items on the scholastic aptitude test. Applied Measurement in Education, 6 (2), 151- 173.
 Husen, T. (1967). International study of achievement in mathematics: A comparison of twelve countries. Volume 11.  Stockholm: Almqvist & Wiksell.
 Innabi, H., & Dodeen, H. (2006). Content Analysis of Gender-related Differential Item Functioning of TIMSS Items in Mathematics in Jordan. School Science and Mathematics, 106 (8), 328-337.
 Le, Luc T. (2006). Investigating gender differential item functioning across Countries and Test Languages for PISA science items. International Journal of Testing, 9, 2, 122-133.
 O'Neill, K. A. & McPeek, W. M. (1993). Item and test characteristics that are associated with differential item functioning. In Holland, P. W. & Wainer, H. (Eds.), Differential item functioning, (pp. 255- 276). Hillsdale, N J: Lawrence Earlbaum.
 Pae, H. K. (2011). Differential item functioning and unidimensionality in the Pearson Test of English Academic. http://pearsonpte.com/research/Documents/Pae.pdf.
 Pae, T. & Park, G. P. (2006). Examining the relationship between differential item functioning and differential test functioning. Language testing, 23 (4), 475-496.
Park, G. P. (2008). Differential item functioning on an English listening test across gender. TESOL Quarterly, 42 (1), 115-123.
 Pattison. P. & Grieve, N. (1984). Do spatial skills contribute to sex differences in different types of mathematical problems? Journal of Educational Psychology, 76 (4). 677-689.
 Raju, N. S.; van der Linden, W. J. & Fleer, P. F. (1995). IRT-based internal measures of differential functioning of items and tests. Applied Psychological Measurement, 19, 353–368.
 Rudner, L.; Getson, P. & Knight, D. (1980). Biased item detection techniques. Journal of Educational Statistics, 5, 213-233.
 Russell, S. S. (2005). Estimates of Type I error and power for indices of differential bundle and test functioning. Ph.D. dissertation, Bowling Green State University, United States -- Ohio.
 Takala, S. & Kaftandjieva, F. (2000). Test fairness: A DIF analysis of an L2 vocabulary test. Language Testing, 17, 323–340.
 Wang, N. & Lane, S. (1996). Detection of gender-related differential item functioning in a mathematics performance assessment. Applied Measurement in Education, 9 (2), 175–199.
 Wood, R. (1976). Sex differences in mathematics attainment at GCE ordinary level. Educational Studies, 2. 141- 160.
 Zumbo, B. D. (1999). A Handbook on the Theory and Methods of Differential Item Functioning (DIF): Logistic Regression Modeling as a Unitary Framework for Binary and Likert-Type (Ordinal) Item Scores. Ottawa, ON: Directorate of Human ResourcesResearch and Evaluation, Department of National Defense.
 Zumbo, B. (2003). Does item-level DIF manifest itself in scale-level analysis? Implications for translating language tests. Language Testing, 20, 136–147.