Образователни технологии
ИЗБОР НА ПОДХОДЯЩ МОДЕЛ ЗА ИЗСЛЕДВАНЕ НА ЗАДАЧИТЕ ОТ НВО ПО МАТЕМАТИКА СЛЕД VII КЛАС СПОРЕД МЕТОДИТЕ НА IRT
https://doi.org/10.53656/math2023-5-5-cho
Резюме. В статията, с методите на Item Response Theory, са анализирани измерителните качества на тестовите задачи с избираем отговор от НВО за VII клас за областите София-град и Плевен, проведено през 2021 година. След съгласуване с емпиричните данни е обоснован изборът на двупараметричния модел по тази методика. Направено е сравнение на получените данни и тези от Класическата теория на тестовете.
Ключови думи: Item Response Theory; вероятностно моделиране; тестови задачи с избираем отговор; трудност; разграничителна сила
1. Увод
Националното външно оценяване (НВО) на учениците от VII клас е важен елемент от тяхното образование. Анализирането на резултатите, получени вследствие от това оценяване, е важно за образователната система. Всяка година се правят класирания по двата изпита – български език и литература и математика. Сравняват се резултатите от тези класирания. Правят се изводи за нивото на успеваемост в различните населени места. Сравнява се трудността на изпитите в различни години. Всичко това се прави с методите на Класическата теория на тестовете (КТТ).
Публикацията в сп. „Математика и информатика“ (Tsonev 2022) с методите на КТТ изследва измерителните качества на задачите с избираем отговор от проведеното през 2021 година НВО по математика за VII клас, като са използвани данните от областите София-град и Плевен. Настоящата статия прилага по-съвременни методи за такова изследване, а именно методологията на IRT (Item Response Theory), описана в много източници, като например (Mcdonald 1999), (Hambleton 1991) и др. В този смисъл, статията е продължение на цитираната публикация.
По-долу, с методите на IRT, са анализирани измерителните качества на тестовите задачи с избираем отговор на проведеното през 2021 година НВО по математика за VII клас, като са използвани данните от областите Софияград и Плевен. Целият тест е достъпен на сайта на \(\mathrm{MOH}^{1}\). В резултат от анализа е направен извод за избор на подходящ IRT модел за изследване на задачите с избираем отговор в НВО по математика за VII клас.
Изследването на измерителните качества с помощта на КТТ е свързано с някои проблеми, като например:
– оценката на измерителните качества на задачите и на теста, като цяло зависи от конкретната група лица и конкретната група задачи, които участват в изследването;
– трудността и разграничителната сила на задачите зависятот изследваните лица;
– измерването на надеждността чрез разделяне на теста на две половини или чрез повторно провеждане на теста са, по същество, изкуствени.
Някои от ограниченията на класическата теория могат да бъдат преодолени, ако се приложи единна скала за представяне на трудността на тестовите задачи и постиженията на учениците в една и съща мерна единица. Такава възможност предлага IRT методологията, която на български език е известна като „Вероятностно моделиране“ (Bankov 2002) или „Теорията за отговор на тестов въпрос“ (Jalev 2014).
Тук ще разглеждаме и използваме IRTмодели, които са за задачи от вида „решена – нерешена“, т.е. не се дават бонуси за частичен напредък по задачата. В основата на IRT стои предположението, че вероятността един ученик да реши правилно дадена тестова задача, може да бъде изразена чрез една а бстрактна величина, наречена способност. Функцията, която пресмята тази вероятност, се нарича характеристична функция, а съответната ѝ графика – характеристична крива. На всяка задача се съпоставя една такава функция. Най -често разпространените методи за избор на характеристична функция са с един, два или три параметъра и се наричат съответно едно-, двуи трипараметрични модели.
Еднопараметричният модел на IRT, който за краткост ще означаваме с 1PL се определя от характеристичната функция \[ P_{i}(\theta)=\tfrac{e^{\theta-b_{i}}}{1+e^{\theta-b_{i}}} \] където \(i\) е номерът на задачата, \(P_{i}(\theta)\) е вероятността произволно избран ученик със способност \(\theta\) да реши \(i\)-тата задача, а \(b_{i}\) е трудността на задачата. Така вероятността ученик със способност \(\theta\) да реши задача с трудност \(b_{i}\), е равна на 0,5. Това дава възможност за способност на учениците \(\theta\) и трудност на задачите \(b_{i}\) да се използва една и съща скала, наречена скала на способностите (ability scale). Интервалът, в който обичайно се изменя \(b_{i}\),e \((-2 ; 2)\), като колкото е по-близка тази стойност до 2, толкова е по-висока трудността на \(i\)-тата задача. Графично това означава, че характеристичната крива на по-трудните задачи се разполага по-вдясно на чертежа.
Двупараметричният модел (2PL) зависи от още един параметър \(a_{i}\), който се нарича дискриминация на задачата и се определя с функцията: \[ P_{i}(\theta)=\tfrac{e^{1,7 a_{i}\left(\theta-b_{i}\right)}}{1+e^{1,7 a_{i}\left(\theta-b_{i}\right)}} \]
По-високите стойности на дискриминацията задават по-стръмни характеристични криви и по-добре разграничават учениците със способности, близки до \(b_{i}\). Най-често интервалът, в който приема стойности \(a_{i}, \mathrm{e}(0 ; 2)\). При трипараметричния модел (\(\mathbf{3 P L}\) ) се въвежда и параметър \(c_{i}\), който се счита за коефициент на налучкване. Характеристичната функция на този модел е:
\[ P_{i}(\theta)=c_{i}+\left(1-c_{i}\right) \tfrac{e^{\theta-b_{i}}}{1+e^{\theta-b_{i}}} \]
Графично стойността на параметъра \(c_{i}\) изобразява хоризонтална асимптота \(P=c_{i}\) на характеристичната крива при \(\theta \rightarrow-\infty\).
Някои от основните предимства на IRT моделите, които ги правят за предпочитане пред КТТ, са:
– оценката на параметрите \(a_{i}, b_{i}\) и \(c_{i}\) не зависи от контролната група лица, с която е правено изследването;
– статистическите свойства на задачите се изследват по-прецизно;
– тези статистически свойства се онагледяват с графиките на съответната функция \(P_{i}(\theta)\) (по-долу има примери на такива графики за конкретни задачи), което улеснява интерпретацията и разбирането им. На графиките хоризонталната ос е оста на способностите \(\theta\) (споменатата ability scale), а по вертикалната ос се нанася вероятността \(P_{i}(\theta)\) за правилно решаване на задачата, пресметната с някоя от функциите по-горе.
Данните в изследването са обработени с приложението jMetrik \({ }^{2}\), от което са получени трите параметъра \(a_{i}, b_{i}\) и \(c_{i}\), а графиките са начертани с приложението GeoGebra \({ }^{3}\).
2. Сравняване графиките на трите модела за параметризация
За изследването са използвани резултатите от проведеното НВО в края на VII клас по математика с 10 995 ученици от област София-град и 1845 ученици от област Плевен, които са се явили на изпит през 2021 година. Разглеждани са само първите 18 задачи с избираем отговор. Обработени са данните за всички 18 задачи за учениците от двете области, взети заедно. Използваният софтуер jMetrik оразмерява скалата на способностите така, че разпределението на способностите на всички ученици е със средна стойност 0 и стандартно отклонение 1.
След като се начертаят графиките на характеристичните криви за всяка задача според трите IRT модела, се забелязват няколко групи, в които могат да се класифицират задачите.
Фигура 1. IRT характеристични криви на задача 1
Фигура 2. IRT характеристични криви на задача 10
По отношение на 3PL модела повечето задачи са с висока стойност на параметъра на налучкване, но има и такива като задачи 1 (фиг. 1) и 10 (фиг. 2), при които този параметър е нисък. За някои задачи той е над 0,3, като например задачи \(2,4,10\) и 12. Например графиката 3PL на задача 2 (фиг. 3) показва, че този модел не може да разграничи учениците със способности, по-ниски от \(\theta \lt -0,5\), т.е. учениците с такива способности могат с вероятност около 0,4 да посочат правилния отговор на задачата поради ефекта на налучкването.
Задачи, в които 1PL моделът се различава съществено от другите два модела - задачи 1 (фиг. 1), 4, 10 (фиг. 2) и 12. Графиките на тези задачи по 2PL и 3PL моделите са по-стрьмни, защото при тях параметърьт \(a \gt 1\), т.е. задачите имат по-висока разграничителна сила.
Фигура 3. IRT характеристични криви на задача 2
Фигура 4. IRT характеристични криви на задача 9
Задачи, в които трите графики имат големи разлики – задачи 9, 18 и 14. Например в задача 9 (фиг. 4) моделът 1PL дава слаба разграничителна сила, а моделът 3PL може да разграничи само ученици със способности \(-1 \lt \theta \lt 0,5\).
Трите модела имат сходни графики – например задача 11 (фиг. 5), която има много добра разграничителна сила и нисък коефициент на налучкване.
Фигура 5. IRT характеристични криви на задача 11
3. Сравнение на трите модела спрямо параметъра \(\theta\) на способностите на учениците.
За да се избере подходящ IRT модел, се търси този, който има най-добро съгласуване с емпиричните данни. Ще приложим метод, който е описан на стр. \(66-67\) в книгата (Hambleton 1991). За всеки от трите модела всеки от учениците получава стойност на параметьра \(\theta\), който е число в интервала \((-3 ; 3)\). Този интервал се разделя на 12 равни части. След това за всяка задача и за всеки подинтервал се намира отношението на броя на учениците, които са отговорили вярно на въпроса, и броя на всички ученици в този подинтервал. Така на фигура 6 са изобразени графиките за задача 1 (наречени графики с остатъците).
Фигура 6. Графики с остатъците на задача 1 за трите IRT модела
Всяка точка \(A, B, C, \ldots\) има абсциса средата на интервал с дължина 0,5 и ордината частта от учениците, решили вярно задачата, които имат способност \(\theta\) в този интервал. За тази задача може да се забележи, че:
– има оптимална трудност;
– трите криви са близки по вид;
– липсват точки, съответстващи на ученици със способности по-малки от \(-2,5\) и по- големи от 2;
– и при трите модела точките са близко разположени до графиките; това показва добра съгласуваност и за трите модела;
– 1PL моделът има по-слаба разграничителна сила;
– графиките на 2PL и 3PL моделите малко по-добре се доближават до емпиричните данни, но при 3PL модела няма ученици със способности, по-малки от –2.
Фигура 7. Графики с остатъците на задача 2 за трите IRT модела
На фигура 7 са изобразени графиките с остатъците на задача 2. При нея се вижда, че:
– задачата е сравнително лесна;
– моделът 3PL дава висок коефициент на налучкване, което не се съгласува добре при учениците с ниски способности (точка А е далеч от кривата);
– моделите 1PL и 2PL се съгласуват добре с данните за учениците с по-ниски способности, като 2PL има малко по-добра разграничителна сила.
Фигура 8. Графики с остатъците на задача 4 за трите IRT модела
На фигура 8 са изобразени графиките с остатъците на задача 4. При нея се вижда, че:
– задачата е сравнително лесна и с добра разграничителна сила;
– добро съгласуване на данните, особено за 2PL модела.
На фигура 9 са изобразени графиките с остатъците на задача 18. При нея се вижда, че:
– задачата е лесна и с добра разграничителна сила;
– добро съгласуване на данните особено за 2PL модела;
– моделът 1PL дава теоретично по-силно представяне на учениците, отколкото са емпиричните данни;
– моделът 3PL дава високо ниво на налучкване по-сериозни разлики при учениците с по-ниски способности.
Фигура 9. Графики с остатъците на задача 18 за трите IRT модела
Подобни изводи могат да се направят за почти всички задачи с изключение на задача 17. При нея се наблюдават по-сериозни разлики в кривите и емпиричните резултати (фиг. 10). Тя е пример за това, че задача с недобри характеристики според Класическата теория на тестовете (в случая тя има слаба разграничителна сила), не се съгласува добре с моделите от IRT. Вижда се голямо разминаване, особено в 1PL и 2PL моделите, както и трудността при тях и тази при 3PL. За първите два модела може да се каже, че слабите ученици се представят по-добре, а силните ученици – по-зле, отколкото дава теоретичната крива. За тази задача 3PL има най-добра съгласуваност с емпиричните данни. Този модел обаче има добра разграничителна способност само за учениците с високи стойности на \(\theta\).
Фигура 10. Графики с остатъците на задача 17 за трите IRT модела
В заключение, изглежда, че трите модела дават добра съгласуваност с емпиричните данни. Сериозен недостатък на модела 3PL е, че липсват ученици със способност под –2, като в много от задачите той дава високи стойности на коефициента на налучкване и с това се различава съществено от другите два модела. При това, за ниски стойности на \(\theta\) този модел няма добра разграничителна сила и не се съгласува много добре с емпиричните данни. Моделът 1PL не отчита добре разграничителната сила на задачите. Следователно може да се каже, че 2PL моделът е за предпочитане за моделиране на данните с IRT.
4. Съпоставка на резултатите от КТТ и IRT
В таблици 1 и 2 са представени обобщените резултати на осемнадесетте задачи според КТТ и според двупараметричния 2PL модел на IRT. Задачите са подредени низходящо според съответния коефициент, получен от КТТ.
Коефициентът на корелация в таблица 1 е отрицателен, защото висока стойност на коефициента за трудност от КТТ всъщност означава, че задачата е решена от повече ученици, т.е. тя е лесна, докато това съответства на ниските стойности на параметъра от IRT. Абсолютната стойности на параметьра \(b\) от IRT. Абсолютната стойност на този коефициент е практически равен на 1. Следователно и двете теории класифицират по еднакъв начин трудността на задачите.
Според таблица 2 корелацията между разграничителната сила на задачите, която се дава от коефициентите rpbis и параметъра \(a\), също има висока стойност. Всички задачи, с изключение на задача 17 имат параметър \(a \gt 1\), което означава, че имат много добра разграничителна сила.
Две задачи правят впечатление:
– задача 17 има ниска разграничителна сила и по двете теории. Едно обяснение е дадено в (Tsonev 2022);
– задача 12 има по-добри показатели за разграничителна сила според IRT, отколкото според КТТ. Задачата е от най-лесните според двете теории. От фигура 11 може да се прецени, че 2PL добре се съгласува с емпиричните данни за всички ученици.
Фигура 11. Задача 12 и нейната 2PL графика с остатъците
5. Диаграма на задачите и респондентите (item-person-map)
За построяването на такива диаграми се използва, че трудността на задачите (параметърът \(b\) ) и способностите на учениците могат да се разположат върху една и съща скала (Ability scale).
Фигура 12. Диаграма на област София-град
Фигура 13. Диаграма на област Плевен
Разглеждат се резултатите от изследването с двупараметричния модел върху данните от областите София-град и Плевен, взети заедно. На фигурите 12 и 13 маркираният ред, означен с \(\theta / b\), е интервалът ( \(-2,2 ; 2\) ) от скалата на способностите. Интервалът е разделен на подинтервали с дължина 0,2. Под този ред са написани номерата на 18-те задачи, като всяка задача е поставена на мястото, където попада нейният параметър на трудност \(b\). Над маркирания ред е представен процентът ученици със способност \(\theta\) в съответния интервал с дължина 0,2, изобразени отделно за област София-град (фиг. 12) и за област Плевен (фиг. 13), като:
– на всеки символ “#” отговаря \(1 \%\) ученици;
– на всеки символ “.” отговаря под \(1 \%\) ученици.
Така, под маркирания ред е графиката на разпределението на трудността на задачите върху скалата на способностите, а над него е разпределението на способностите на учениците върху същата скала. Може да считаме, че тестът, съставен от представените задачи, е добре балансиран за съответните ученици, ако двете разпределения имат връх в близки стойности на маркирания ред и покриват почти едни и същ интервал от него. Графиките от фигури 12 и 13 дават възможност да се прецени доколко тестът, съставен само от 18-те задачи с избираем отговор, е „подходящ“ за съответната област.
Прилики между двете диаграми:
– учениците и в двете области се разпределят по целия интервал ( \(-2,2 ; 2\) );
– задачите са съсредоточени в средната третина на интервала; това означава, че липсват задачи за много-слабите и много-силните ученици;
– и задачите, и учениците имат сравнително добро „нормално“ разпределение;
– най-много задачи имат коефициент на трудност \(b=-0.2\), докато най-големият брой ученици са с малко по-ниски способности;
– липсват ученици със способност 1,6, която е малко под най-високата измерена способност 1,8;
– както показаха изследванията с КТТ (Tsonev 2022) задачите с номера 1, 3, 6 и 7 са най-трудни, а задачите с номера 2, 10, 12 и 18 са най-лесни, което много добре се съгласува с резултатите от КТТ.
Разлики в двете диаграми:
– пиковите стойности за област София-град са две – първата е в средата на разглеждания интервал, а втората е в десния край, където са учениците с най-високи способности;
– графиките над и под реда \(\theta / b\) се съгласуват по-добре за област Плевен, отколкото за област София;
– голяма част от учениците от област София имат способности, които надвишават максималното ниво на трудност на задачите \(b=0,4\).
Изводите, които могат да се направят, са, че в област София-град голяма част от учениците са отлично подготвени за решаването на задачите с избираем отговор, тези задачи не са ги затруднили в голяма степен и не биха били полезни, сами по себе си, за класиране след VII клас. За тази цел задачите с отворен отговор ще дадат повече възможности. За учениците в област Плевен може да се каже, че и само с тези 18 задачи те биха се диференцирали в много добра степен в гимназиите след VII клас.
6. Заключение
Две са основните цели на провежданите НВО по БЕЛ и математика – да подредят учениците след VII клас според техните постижения и да оценят доколко добре те са изучили учебния материал по тези два предмета.
В България изследването на тестовете се прави най-често чрез Класическата теория на тестовете. С помощта на методите на по-съвременната IRT може да се открият допълнителни характеристики, да се потвърдят или отхвърлят вече намерени свойства както на тестовите задачи, така и на способностите на учениците.
От направеното изследване върху резултатите от областите София-град и Плевен може да се каже, че:
– трите модела на параметризация според IRT добре представят характеристиките на задачите;
– моделът с два параметъра най-добре се съгласува както с емпиричните данни, така и с изводите от КТТ;
– в по-малките области на България, където конкуренцията при класирането за гимназиите е по-слаба, дори само първите 18 тестови задачи с избираем отговор могат да подредят учениците според техните постижения;
– за по-големите области тези задачи не са достатъчни за такава наредба;
– въпреки тези разлики, трудността на задачите се съгласува добре със способностите на учениците
В следващите изследвания на автора ще бъдат разгледани тестовите задачи със свободен отговор.
БЕЛЕЖКИ
1. Национално външно оценяване за VII клас, МОН, Retrieved 14.06.2023 from: https://web.mon.bg/upload/26732/NVO-MATH_7kl_18062021.pdf
2. jMetrik, Retrieved 14.06.2023 from: https://itemanalysis.com/jmetrikdownload/
3. GeoGebra, Retrieved 14.06.2023 from: https://www.geogebra.org/
ЛИТЕРАТУРА
БАНКОВ, К., 2002. Вероятностно моделиране за измерване на ученическите постижения, Математика и информатика, год. 45, кн. 4.
ДЖАЛЕВ, Л., 2014. Приложимост на Класическата тестова теория и Теорията за отговор на тестов въпрос: преглед на литературата по въпроса. Българско списание по психология, 1, брой 1 – 3.
HAMBLETON, R.K., SWAMINATHAN, H. & ROGERS, H.J., 1991. Fundamentals of Item Response Theory. Sage.
McDONALD, R.P., 1999. Test Theory: A Unified Treatment (1st ed.). New York: Psychology Press.
ЦОНЕВ, П., 2022. Някои изводи върху резултатите от националното външно оценяване по математика за VII клас, Математика и информатика год. 65, кн. 6, с. 587 – 601.
REFERENCES
BANKOV, K., 2002. Probabilistic Modeling for Measuring Student Achievement. Mathematics and Informatics, vol. 45, no. 4 [in Bulgarian].
JALEV, L., 2014. Applicability of Classical Test Theory and Test Question Answer Theory: A Literature Review. Bulgarian Journal of Psychology. no. 1 pp. 1 – 3. [in Bulgarian]
HAMBLETON, R.K., SWAMINATHAN, H. & ROGERS, H.J., 1991. Fundamentals of Item Response Theory. Sage.
McDONALD, R.P., 1999. Test Theory: A Unified Treatment (1st ed.). New York: Psychology Press.
TSONEV, P., 2022. Some conclusions on the results of the national external assessment in mathematics for grade VII. Mathematics and Informatics, vol. 65, no. 6, pp. 587 – 601. [in Bulgarian]