کاربرد مدل‌های تشخیصی شناختی (CDM) در مطالعه کارکرد افتراقی سؤال‌های ریاضیات پایه هشتم تیمز 2007 در بین دختران و پسران

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشیار گروه سنجش و اندازه گیری (روانسنجی)، دانشگاه علامه طباطبائی، تهران، ایران

2 دانشجوی دکتری سنجش و اندازه گیری دانشگاه تهران

چکیده

بررسی سوگیری و کارکرد افتراقی سؤالات آزمون‌های مهمی چون ریاضیات در بین گروه‌های مختلف مورد توجه محقق زیادی در تعلیم و تربیت بوده است؛ اما اغلب آن‌ها ریاضیات را به‌عنوان یک سازه کلی مورد بررسی قرار داده‌اند. در این پژوهش تلاش شد از قابلیت­های مدل‌های تشخیصی شناختی (CDMs) به‌منظور بررسی دقیق­ و جزئی­تر کارکرد افتراقی سؤالات در آزمون ریاضیات پایه هشتم (سوم راهنمایی) تیمز 2007 و همچنین در بررسی تأثیر سؤال‌های دارای کارکرد افتراقی بر عملکرد دانش‌آموزان مورد استفاده قرار گیرد. جامعه آماری پژوهش همان جامعه آماری پایه هشتم در آزمون ریاضی تیمز 2007 است که در سال تحصیلی 1385-1386 به اجرا درآمد. در سال تحصیلی موردنظر تعداد 1475368 دانش‌آموز سوم راهنمایی در 29956  کلاس، مشغول به تحصیل بودند است. نمونه پژوهش حاضر بخشی از دانش‌آموزان ایرانی سال سوم راهنمایی شرکت‌کننده در تیمز 2007 است که به دفترچه­های شماره 1، 2، 3 و 14 آزمون تیمز 2007 پاسخ داده‌اند که تعداد آن‌ها برابر با 1137 است. برای تحلیل داده‌ها و پاسخگویی به سؤال‌های پژوهش از مدل غیر جبرانی DINA که دارای دو پارامتر حدس و لغزش است، استفاده شد. ابتدا ماتریس Q با استفاده از صفات مورد نیاز سوال ها تشکیل شد. برازش داده با مدل و برآورد پارامترها برای دو گروه دختر و پسر انجام شد سپس با استفاده از آزمون والد کارکرد افتراقی سوالات مورد بررسی قرار گرفت. نتایج نشان داد که از 44 سؤال مورد مطالعه، 26 سؤال لنگر و 18 سؤال (40%) سؤال دارای DIF است؛ که در آن از 18 سؤال دارای DIF، 12 سؤال دارای DIF یکنواخت و 6 سؤال غیریکنواخت است. از 18 سؤال داری DIF، 7 سؤال به نفع دانش آموزان دختر و 10 سؤال به نفع دانش‌آموزان پسر که در صفات موردنیاز برای پاسخگوی صحیح به این سؤالات به تسلط رسیده‌اند داری کارکرد افتراقی است. در این ‌بین 1 سؤال به نفع هیچ ‌یک  از دانش آموزانی که در صفات موردنیاز به تسلط رسیده‌اند دارای کارکرد افتراقی نیست این سوال تنها به نفع دانش آموزانی که درصفات به تسلط نرسیدند دارای کارکرد افتراقی است؛ و همین‌طور از 18 سؤال داری DIF، 9 سؤال به نفع دانش آموزان دختر و 7 سؤال به نفع دانش‌آموزان پسر که در صفات موردنیاز به تسلط نرسیده‌اند دارای کارکرد افتراقی است و 2 سؤال به نفع هیچ‌ یک از دانش آموزان  که در صفات موردنیاز به تسلط نرسیده‌اند کارکرد افتراقی نیست  و تنها به نفع دانش آموزانی که درصفات مورد نیاز به تسلط رسیدن دارای کارکرد افتراقی است. می‌توان نتیجه گرفت که آزمون والد در چارچوب مدل‌های (CDM) قادر است علاوه بر آزمون کارکرد افتراقی یکنواخت و غیریکنواخت در شناسایی کارکرد افتراقی در افرادی مسلط و غیر مسلط در صفات به‌کارگیری شود. آنچه از این نتایج و نتایج پژوهش‌های در این زمینه بر می­آید قالب سؤال می‌تواند تفاوت‌های جنسیتی را کاهش یا افزایش دهد، لذا پرورش‌دهندگان آزمون‌ها باید تلاش کنند تا سؤال‌ها را به‌گونه‌ای طراحی نمایند که تفاوت‌های جنسیتی را به حداقل برساند. با شناسی عوامل تأثیرگذار بر تفاوت­های جنسیتی، مربیان، معلمان سیاست گزاران تعلیم و تربیت کشور خواهند توانست برنامه‌های درسی جدید و خلاقانه طراحی و تدوین نمایند و یا برنامه‌های موجود را بهبود بخشید تا نظام و محیط آموزشی کشورمان بالنده و غنی گردد.

کلیدواژه‌ها


عنوان مقاله [English]

Application of Cognitive Diagnostic Models (CDM) Study of the Differential Item Functioning of TIMSS Eighth Grade Mathematics 2007 Among Females and Males

نویسندگان [English]

  • Asghar Minai 1
  • Jalil Younesi 1
  • Behrooz Kazemi Dana 2
1 Associate Professor of Assessment and Measurement (Psychometrics), Allameh Tabataba’i University, Tehran, Iran
2 Ph.D. Student of Assessment and Measurement (Psychometrics), University of Tahran, Tehran, Iran
چکیده [English]

Investigation of the bias and Differential Item Functioning of important tests like mathematics between different groups has appealed to many researchers in education; most of them, however, have examined mathematics as a general structure. Attempts were made in this research to make use of the capabilities of Cognitive Diagnosis Models (CDMs) for precise and more detailed investigation of the Differential Item Functioning in the mathematics test of the eighth grade (third grade of guidance school) (T. 2007), and also for investigation of the effects of the questions with Differential Item Functioning on students’ performance. The statistical population of the study is the same as the eighth grade statistical population in the 2007 TIMSS math test, which was conducted in the academic year 2006-2007. In the academic year in question, 1,475,368 third grade middle school students were studying in 29,956 classes. The sample of the present study was a part of the Iranian third year middle school students participating in the 2007 TIMSS, whose number is equal to 1137. For analyzing the data and responding to the research questions, the non-compensative model DINA, with the two parameters of guessing and slipping, was used. First, the q matrix was set using required attributes of the questions. Then, the data were fitted to the model, and the parameters were estimated for the two female and male groups. The Differential Item Functioning was then examined using the Wald test. The results demonstrated that of the 44 investigated questions, 26 were anchoring questions, and 18 (40%) were ones with DIF, where 12 out of the 18 questions with DIF had linear DIF, and 6 had nonlinear DIF. Of the 18 questions with Differential Item Functioning, 7 had Differential Item Functioning in favor of the female students who had achieved mastery over the attributes necessary for responding correctly to the questions, and 10 in favor of the male ones. One question here had Differential Item Functioning in favor of neither the group of females nor the group of males who had achieved mastery over the attributes necessary for responding correctly to the questions. Furthermore, of the 18 questions with DIF, 9 have Differential Item Functioning in favor of the female students who have not achieved mastery over the attributes necessary for responding correctly to the questions, and 7 in favor of the male ones, and 2 questions have Differential Item Functioning in favor of neither the group of females nor the group of males who have achieved mastery over the attributes necessary for responding correctly to the questions. It can be concluded that The Wald test is enabled in the Framework Cognitive Diagnosis Models (CDMs). In addition to the test linear DIF and nonlinear DIF To be used in identifying differential function in mastery and non -mastery Persons in attributes It is suggested by these results and those of the research in the area that question format can decrease or increase gender difference; test developers; therefore, should try to make the questions so that gender differences is minimized. By identifying the factors effective on gender differences, instructors, teachers, and educational policy-makers in the country will be able to design and formulate novel, creative curricula or improve current ones to make the educational environment and system of the country flourishing and rich.

کلیدواژه‌ها [English]

  • Differential Item Functioning (DIF)
  • Cognitive Diagnosis Models (CDMs)
  • TIMSS test
  • Non-compensatory Model. DINA Model
افضلی، افشین (1393). مدل‌سازی تشخیصی شناختی ریاضیات پایه اول دبیرستان بر اساس روش سلسله‌مراتبی صفات. رساله دکتری، دانشگاه علامه طباطبایی.
افضلی، افشین؛ دلاور، علی؛ فلسفی‌نژاد، محمدرضا؛ فرخی، نورعلی؛ برجعلی، احمد (1393). کاربرد مدل‌های تشخیصی شناختی در تعیین ماهیت تفاوت در عملکرد دانش‌آموزان دختر و پسر پایه اول دبیرستان در ریاضیات.مجلهدستآوردهایروان‌شناختی،4(2)، 89-104.
اکبری ورمزیار، شیرین (1393) برآورد پارامتر و شناسایی کنش افتراقی سؤالات آزمون‌های سرنوشت‌ساز با فرمت مختلط با استفاده از مدل‌های کلاسیک و نظریه‌های جدید اندازه‌گیری. رساله دکتری، دانشگاه علامه طباطبایی، دانشکده روان‌شناسی و علوم تربیتی، گروه سنجش و اندازه‌گیری.
امبرستون، سوزان؛ رایس، استیو (1388). نظریات جدید روان‌سنجی برای روان‌شناسان؛ ترجمه حسن پاشا شریفی، ولی‌الله فرزاد، مجتبی حبیبی، بلال ایزانلو. انتشارات رشد.
امینی، فاطمه (1385). بررسیرابطهمهارت‌هایعمومیوفعالیت‌هایآموزشیمعلمانونمراتکسب‌شدهدانش‌آموزانسالچهارم ابتداییایراندرآزمونبین‌المللیپیشرفتتحصیلیتیمز2007. پایان‌نامه کارشناسی ارشد.Tدانشگاه علامه طباطبایی، دانشکده روان‌شناسی و علوم تربیتی، گروه فناوری آموزشی.
رحیمی‌نژاد، عباس؛ خداپناهی، محمدکریم (1385). رابطه انگیزش پیشرفت و خودپنداشت با پیشرفت تحصیلی دانش‌آموزان پایه هشتم در درس علوم بر اساس تحلیل نتایج «تیمز_ار». فصلنامه روان‌شناسان ایرانی، 20(7) 207-218.
شولتز، دوان؛ شولتز، سیدنی (2005). نظریه‌های شخصیت؛ ترجمه یحیی سیدمحمدی (1386). انتشارات ویرایش.
صادقی، مریم (1392). کارکرد افتراقی (DIF) سؤال‌های آزمون ریاضی پایه چهارم و هشتم تیمز 2011 یا استفاده از مدل‌های IRT و کلاسیک. پایان‌نامه کارشناسی ارشد، دانشگاه آزاد اسلامی واحد تهران مرکز.
غفاری، زهرا (1393). کارکرد افتراقی سؤال‌های پایه هشتم آزمون ریاضی تیمز 2011 در بین دانش‌آموزان دختر و پیر با استفاده از رویکرد نظریه سؤال پاسخ (IRT). پایان‌نامه کارشناسی ارشد، دانشگاه آزاد اسلامی، واحد تهران.
فتوحی، لیلا (1387). بررسی کارکرد افتراقی سؤال در سؤالات کنکور کارشناسی ارشد رشته روان‌شناسی سال 1384. پایان‌نامه کارشناسی ارشد، دانشگاه علامه طباطبایی.
کریمی، عبدالعظیم (1388). مجموعه سؤال‌های علوم ریاضیات TIMSS. پژوهشگاه مطالعات آموزش‌وپرورش.
کریمی، عبدالعظیم (1389). مجموعه سؤال‌های قابل‌انتشار فیزیک و ریاضیات تیمز بین‌المللی پیشرفته 2008. مرکز ملی بین‌المللی تیمز و پرلز، پژوهشگاه مطالعات آموزش‌وپرورش.
گرامی‌پور، مسعود (1393). ارزیابی توان آماری تحلیل رگرسیون لجستیک در آشکارسازی کنش افتراقی سؤال‌های آزمون. فصلنامه مطالعات اندازه‌گیری و ارزشیابی آموزشی،4(8)، 187-211.
گرامی‌پور، مسعود؛ فلسفی‌نژاد، محمدرضا؛ دلاور، علی؛ فرخی، نورعلی (1391). مقایسۀ روش‌های تحلیل عاملی تأییدی (CFA) و نسبت درست‌نمایی مبتنی بر مدل پرسش – پاسخ (IRT) در ردگیری کنش افتراقی سؤالات آزمون‌های سرنوشت‌ساز.فصلنامۀاندازه‌گیری، 9(4)، 105- 122.
محسن‌پور، مریم؛ گویا، زهرا؛ شکوهی یکتا، محسن؛ کیامنش، علیرضا؛ بازرگان، عباس (1394).سنجشتشخیصی صلاحیت­های سواد ریاضی. فصلنامه نوآوری­های آموزشی، 14(4) 8-35.
ملاهادی، محسن (1388). ارزشیابی به‌وسیله آزمون‌های چندگزینه‌ای. مجله راهبردهای آموزشی، 2(4) 182-205.
مینائی، اصغر (1391). مدل پردازیتشخیصیشناختی (CDM) سؤال‌هایریاضیاتتیمز2007دردانش‌آموزانپایههشتمایرانبا استفادهازمدلیکپارچهباپارامتر پردازیمجدد (RUM) ومقایسهمهارت‌هایریاضیدانش‌آموزاندختروپسر. پایان‌نامه منتشرنشده دکتری، دانشگاه علامه طباطبایی، دانشکده روان‌شناسی و علوم تربیتی.
مینائی، اصغر (1392). سنجش مقایسه‌پذیری سازه و تحلیل کارکرد افتراقی سؤال‌ها (DIF) و بلوک‌های(DTF) آزمون علوم پایه هشتم تیمز 2007 در بین دانش‌آموزان ایران و آمریکا. فصلنامهاندازه‌گیریتربیتی، 11(4) 110-146.
مینائی، اصغر؛ غفاری، زهرا (1394). کارکرد افتراقی سؤال‌های پایه هشتم آزمون ریاضی تیمز 2011 در بین دانش‌آموزان دختر و پسر با استفاده از رویکرد نظریه سؤال – پاسخ (IRT). فصلنامهاندازه‌گیری، 21(6)، 22-39.
Birnbaum, A., Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Some latent trait models and their use in inferring an examinee’s ability. Addison-Wesley, Reading, MA.
Chiu, C. Y. (2013). Statistical Refinement of the Q-matrix in Cognitive Diagnosis. Applied Psychological Measurement37(8), 598-618.
Choi, K. M., Lee, Y. S., & Park, Y. S. (2015). What CDM Can Tell About What Students Have Learned: An Analysis of TIMSS Eighth Grade Mathematics. Eurasia Journal of Mathematics, Science & Technology Education, 11(6), 1563-1577.
Davier, M. (2005). A general diagnostic model applied to language testing data. British Journal of Mathematical & Statistical Psychology61(2), 287-307.
De La Torre, J. (2011). generalized DINA model framework. Psychometrika, 76(2) 79-199.
De la Torre, J., & Lee, Y. S. (2013). Evaluating the Wald test for item‐level comparison of saturated and reduced models in cognitive diagnosis. Journal of Educational Measurement50(4), 355-373.
Dindyal, J. (2008). An overview of the gender factor in mathematics in TIMSS-2003 for the Asia-Pacific region. ZDM, 40(6), 993-1005.
Embretson, S. E. & Reise, S. P. (2000). Item Response Theory for psychologists. Lawrence Erlbaum Associates.
Ercikan, K. & Koh, K. (2005). Examining the construct comparability of the English and French versions of TIMSS. International Journal of Testing5(1), 23-35.
Ercikan, K. & McCreith, T. (2002). Effects of adaptations on comparability of test items and test scores. In Secondary analysis of the TIMSS data (pp. 391-405)
Ercikan, K. (1998). Translation effects in international assessments. International Journal of Educational Research29(6), 543-553
George, A. C., & Robitzsch, A. (2014). Multiple group cognitive diagnosis models, with an emphasis on differential item functioning. Psychological Test & Assessment Modeling56(4), 405-432.
Haertel, E. H. (1989). Using restricted latent class models to map the skill structure of achievement items. Journal of Educational Measurement, 26(4), 301-321.
Hartz, S. M. (2002). A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality.
Henson, R. A., Templin, J. L., & Willse, J. (2009). Defining a family of cognitive diagnosis models using log-linear models with latent variables. Psychometrika74(2), 191-210.
Horn, J., & McArdle. J. (1992). A practical and theoretical guide to measurement invariance in aging research. Experimental Aging Research18(3), 117-144.
Hou, L., De La Torre, J., & Nandakumar, R. (2014). Differential item functioning assessment in cognitive diagnostic modeling: Application of the Wald test to investigate DIF in the DINA model. Journal of Educational Measurement51(1) 98-125.
Huber, P. J. (2011). Robust statistics (pp. 1248-1251). Springer Berlin Heidelberg.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement25(3), 258-272.
Lee, Y. S., Park, Y. S., & Taylan, D. (2011). A cognitive diagnostic modeling of attribute mastery in Massachusetts, Minnesota, and the US national sample using the TIMSS 2007. International Journal of Testing, 11(2), 144-177.
‏Leighton, J. P., & Gierl, M. J. (2007). Verbal reports as data for cognitive diagnostic assessment. Cognitive diagnostic assessment for education: Theory and applications, 146-172.
Penfield, R. D., & Algina, J. (2003). Applying the Liu‐Agresti Estimator of the Cumulative Common Odds Ratio to DIF Detection in Polytomous Items. Journal of Educational Measurement40(4), 353-370.
Ravand, H., & Robitzsch, A. (2015). Cognitive Diagnostic Modeling Using R. Practical Assessment, Research, and Evaluation: Vol. 20 , Article 11.
Robitzsch, A., Kiefer, T., George, A. C., & Uenlue, A. (2016). CDM: Cognitive diagnosis modeling. R package version3
Rupp, A. A., Templin, J., & Henson, R. A. (2010). Diagnostic measurement: Theory, methods, and applications. NY: Guilford Press.
Su, Y., & Wang, W. (2005). Efficiency of the Mantel, generalized Mantel–Haenszel, and logistic discriminant function analysis methods in detecting differential item functioning for polytomous items. Applied Measurement in Education18(4) 313-350.
Tay, L., Meade, A. W., & Cao, M. (2015). An overview and practical guide to IRT measurement equivalence analysis. Organizational Research Methods, 18(1), 3-46.
Templin, J. L. (2004). Generalized linear mixed proficiency models. Unpublished doctoral dissertation, University of Illinois at Urbana-Champaign.
Teresi, J. A., Ocepek-Welikson, K., Kleinman, M., Cook, K. F., et al. (2007). Evaluation measurement equivalence using the item response theoryloglikelihood ratio (IRTLR) method to assess differential item functioning .Quality Life Research, 16(l1), 43-68.
Tatsuoka, K. K. Corter, J. E., & Tatsuoka, C. (2004). Patterns of diagnosed mathematical content and process skills in TIMSS-R across a sample of 20 countries. American Educational Research Journal, 41(4), 901-926.
Wu, A. D., Li, Z., & Zumbo, B. D. (2007). Decoding the meaning of factorial invariance and updating the practice of multi-group confirmatory factor analysis: A demonstration with TIMSS data. Practical Assessment, Research & Evaluation12(3), 1-26.
Zheng, Y., Chiu, C. Y., & Douglas, J. A. (2016). NPCD: Nonparametric methods for cognitive diagnosis. R package version 1.0-5.
Zumbo, B. D. (1999). A handbook on the theory and methods of differential item functioning (DIF). National Defense Headquarters.