Концепция тестирования эффективности обучения основана на предположении что испытания должны быть

21.01.202306.03.2023 admin 0 Comments

Концепции тестирования и измерения

Существует множество важных концепций тестирования, и мы будем их приводить в ходе обсуждения оценки персонологами тех или иных характеристик людей. До того, как тот или иной способ тестирования получит право считаться научно приемлемым методом измерения индивидуальных различий, он должен пройти проверку по четырем специальным критериям. Эти критерии — стандартизация, нормы, надежность и валидность.

Стандартизация.Ключевым аспектом измерения личностных характеристик является стандартизация.Стандартизация подразумевает единообразие процедур проведения теста и подсчета результатов. Например, в случае применения шкал самооценки экспериментатор должен приложить максимальные усилия и убедиться, что все испытуемые читают и понимают отпечатанные инструкции, все отвечают на одни и те же вопросы, а также укладываются в заданные временные интервалы. Стандартизация также предполагает наличие следующей информации (обычно содержащейся в прилагаемом руководстве): при каких условиях тест можно или нельзя проводить, кто должен или не должен подвергаться тестированию (контрольная группа), процедуры обсчета теста, а также интерпретация полученных результатов.

Нормы.Стандартизация личностного теста включает также информацию о том, является ли данная конкретная «сырая (первичная) оценка» низкой, высокой или средней относительно других «сырых оценок» теста. Такая информация, называемая тестовыми нормами, служит стандартом, с которым сравниваются оценки испытуемых. Обычно сырые тестовые оценки переводятся в процентильные показатели, которые обозначают процентную долю испытуемых из выборки стандартизации, первичная оценка которых ниже или равна первичной оценке данного испытуемого. Например, вы можете использовать шкалу депрессии из тридцати вопросов и получить первичный тестовый результат 18 (то есть ваши ответы в 18 случаях совпали с признаками депрессии, перечисленными на листке с правильными ответами). Сам по себе показатель 18 ничего не значит до тех пор, пока вы не обратитесь к тестовым нормам и не убедитесь, что ваш результат соответствует 75 процентилям. Эта информация говорит о том, что вы в большей степени подавлены, чем 75 % из выборки ранее обследованных людей, образующих нормативную группу. Таким образом, тестовые нормы позволяют сравнивать оценки отдельных индивидуумов с оценками группы стандартизации, что в результате дает количественную оценку положения испытуемого относительно нормативной группы.

Надежность.Другое требование ко всем методам оценки личности заключается в том, что они должны быть надежными.Это означает, что повторное проведение того же самого теста или другой формы этого теста должно давать приемлемо сходные результаты или оценки. Таким образом, надежность имеет отношение к постоянству или стабильности метода оценки, которая обнаруживается при повторном обследовании данной группы людей. Количественно постоянство метода оценки определяется коэффициентом ретестовой надежности (Anastasi, 1988). Коэффициент ретестовой надежности равен обычной корреляции между результатами, полученными на одних и тех же испытуемых в каждом из двух случаев проведения теста. Ретестовая надежность дает нам оценку постоянства теста во времени. Хотя не существует каких-либо фиксированных величин приемлемого уровня надежности, коэффициенты надежности для большинства стандартизованных психологических тестов выше +0,70. Чем ближе величина коэффициента надежности к +1, тем более надежным является тест (то есть оценки испытуемых при повторном тестировании вплотную приближаются к оценкам при первом тестировании). Второй вид надежности определяют путем коррелирования параллельных форм теста. Для этого чаще всего тест делят на две сопоставимые части (например, на четные и нечетные пункты), потом по каждой половине рассчитывают суммарные баллы и между двумя рядами баллов по испытуемым рассчитывают допустимые коэффициенты корреляции. Полученный таким образом коэффициент называют коэффициентом внутренней согласованности.Внутренняя согласованность отражает внутреннее постоянство теста. Если обе части теста измеряют одно и то же свойство личности, то испытуемые, получившие высокие оценки по нечетным пунктам, должны также получить высокие оценки и по четным; а те, кто получил низкие оценки по нечетным пунктам, должны получить низкие оценки и по четным пунктам (что снова выразится в высокой положительной корреляции).

Третий тип надежности основывается на корреляции между двумя сопоставимыми вариантами одного и того же теста (состоящими из аналогичных вопросов), проведенного на одной и той же группе испытуемых. Если по этим разным формам теста получены примерно одинаковые оценки, тест обладает надежностью параллельных форм.В таком случае положительная корреляция между двумя взаимозаменяемыми формами будет означать, что пункты обоих вариантов теста измеряют одно и то же.

Наконец, надежность также касается того, насколько будут согласны между собой двое или более экспертов при подсчете результатов одного и того же теста. Этот тип надежности называется надежностью субъективных оценок.Надежность субъективных оценок должна обязательно учитываться, если тест предполагает субъективные интерпретации, подобные тем, что дают персонологи при оценке результатов проективных тестов. Этот тип надежности имеет особенно низкие значения в отношении любых качественных методов, таких как интервью, анализ сновидений и других форм свободных ответов, не поддающихся количественной оценке. Однако согласованность возрастает, когда эксперты пользуются руководствами, содержащими четкие правила оценки и инструкции для анализа подобных данных (Yin, 1984).

Валидность.Хотя надежность имеет очень большое значение, она, тем не менее, не является единственным решающим критерием оценки пригодности теста. Возможно, даже более важным является вопрос о том, измеряет ли тест именно то, что он предназначен измерять, а также предсказывает ли он именно то, что предполагалось предсказывать с его помощью. Эта проблема имеет отношение к кардинальному критерию достоинства оценочной техники — валидности.Психологи часто различают три типа валидности: 1) содержательная валидность, 2) критериальная валидность и 3) конструктная валидность.

Содержательная валидность. Чтобы считаться валидным, метод оценки должен включать такие пункты, содержание которых соответствует репрезентативной выборке измеряемой области поведения. Предположим, перед нами тест, измеряющий застенчивость. Для того чтобы быть валидным по содержанию, он должен состоять из вопросов, которые действительно раскрывают личностные аспекты застенчивости (например, «Является ли застенчивость основным источником вашего личностного дискомфорта?»), социальные аспекты застенчивости (например, «Смущаетесь ли вы, когда выступаете перед большой аудиторией?») и когнитивные аспекты (например, «Убеждены ли вы в том, что окружающие всегда осуждают вас?»). Валидный по содержанию тест застенчивости должен оценивать каждый из компонентов, входящих в понятие «застенчивость». Содержательная валидность почти всегда определяется путем соглашения экспертов о том, что каждый пункт теста фактически отражает аспекты переменной, или личностного качества, подлежащие измерению.

Критериальная валидность. Оценка личности обычно предпринимается с целью прогнозирования определенных аспектов поведения индивидуума. Предсказание поведения может касаться успешности обучения в аспирантуре, адекватности терапевтической программы, профессиональной успешности и многого другого, за очень небольшими исключениями. То, с какой точностью результаты теста предсказывают интересующий нас аспект поведения индивида в настоящем или будущем, определяется корреляцией оценок субъектов по данному тесту и показателей по некоему критерию, не зависящему от того, что должен предсказать тест. Например, предположим, что критерий — успеваемость в школе права — измеряется по среднему баллу успеваемости, тогда SAT будет считаться валидным, если он будет точно предсказывать средний балл успеваемости.

Различают два подтипа критериальной валидности. Первый получил название прогностическая валидность.Прогностическая валидность определяется способностью теста предсказывать поведение в будущем, соответственно критерию. Тест измерения интеллекта прогностически валиден, если он точно предсказывает оценки в школе. Второй подтип имеет название текущая валидность. Текущая валидность определяется величиной значимой корреляции результатов данного теста с другими имеющимися критериальными оценками. Например, если оценки пациента по тесту, измеряющему параноидные тенденции, положительно коррелируют с оценками выраженности параноидных тенденций, данными клиническими психологами, то мы можем говорить о наличии текущей валидности. Конечно, клиницисты в этом случае не должны знать заранее о результатах тестирования. Иначе имеющаяся у них информация может повлиять на оценки, которые они дают — это явление называется контаминацией критерия.

Конструктная валидность. Третий тип валидности, один из наиболее важных для оценки личности как целого, называется конструктная валидность. Она отражает степень репрезентации исследуемого психологического конструкта в результатах теста (Cronbach, Meehl, 1955). Абстрактная природа многих психологических конструктов — таких как самоактуализация, эго-идентичность, социальный интерес и вытеснение — усложняет тестирование и придает результатам неопределенность. Попросту говоря, для этих и других абстрактных концепций функционирования личности (или того, что мы иначе называем гипотетическими конструктами)не существует твердо установленных критериальных величин. Хотя иногда можно наблюдать примеры вытеснения, само вытеснение недоступно прямому наблюдению, оно не имеет физических проявлений. Далее, гипотетический конструкт, существование которого невозможно доказать на основании какого-либо поведенческого критерия, для психологии личности бесполезен, поскольку она использует для получения знаний эмпирический подход. Именно здесь и встает вопрос о конструктной валидности.

Конструктная валидизация — это процесс сбора доказательств того, что тест измеряет определенный гипотетический конструкт, выведенный из теории. Это сложный и трудоемкий процесс, требующий проведения многих исследований, в ходе которых подвергаются проверке корреляции между тестовыми оценками и теми величинами, которые предположительно связаны с рассматриваемой концепцией. Один путь валидизации заключается в установлении корреляций между тестовыми оценками исследуемого конструкта и показателями другого теста, который предположительно измеряет тот же самый конструкт. Эта процедура на практике известна как конвергентная валидизация (Campbell, Fiske, 1959). Предположим, перед нами новый тест, который, как мы думаем, измеряет конструкт самооценки. Если этот наш новый тест на самом деле измеряет самооценку, он должен положительно коррелировать с другой процедурой измерения самооценки, хорошо зарекомендовавшей себя и валидной. Если несколько разных измерений самооценки согласуются друг с другом и с нашим новым тестом, мы имеем некоторые доказательства конструктной валидности нашего нового теста самооценки.

Другой путь установления конструктной валидности — показать, что вновь разработанная измерительная процедура не коррелирует с показателями, для измерения которых данная процедура не предназначена, явно не связанными с концептуальным определением, данным теоретиком. Этот аспект валидизации известен на практике под рабочим названием дивергентная валидность (Campbell, Fiske, 1959). Например, если наш новый тест самооценки не коррелирует со значениями других тестов, разработанных для измерения концептуально отличных от представленных в нем качеств, мы получаем доказательства дискриминантной валидности (поскольку наша процедура измерения самооценки отличается от тех, что измеряют не самооценку, а нечто другое, так и должно быть). Это важный этап установления конструктной валидности оценочной процедуры.

Перечисление трудностей, сопряженных с демонстрацией конструктной валидности методов оценки, выходит далеко за пределы темы данной книги. Однако, поскольку мы сейчас рассматриваем различные типы подходов к оценке личности, мы должны помнить, что достоинство любого метода оценки определяется в конце концов его конструктной валидностью. Если данная методика содержит признаки слабой конструктной валидности, то в процессе ее использования мы можем получить результаты, не имеющие ничего общего с проверяемой концепцией.

Источник

Тестирование как средство оценки результатов обучения на уроке

Тестирование как средство оценки результатов обучения

Термин «тест» может использоваться для обозначения 1) метода педагогического измерения; 2) инструмента педагогического измерения.

Тест как метод предполагает технологию измерения, которая включает в себя разработку системы тестовых заданий с заданными качественными и количественными характеристиками для объективного и надежного оценивания учебных достижений испытуемых, стандартизированную процедуру проведения тестирования, методы статистической обработки, анализа и интерпретации полученных результатов.

Тест как инструмент измерения определяется как система заданий (в большинстве случаев возрастающей трудности) специфической формы, позволяющая качественно оценить структуру и эффективно измерить уровень знаний, умений и навыков учащихся.

Отличия теста от других форм контроля

Содержание теста подвергается четкому планированию. На стадии разработки теста проходит отбор содержания, которое будет подвергаться проверке, планируется форма заданий, их количество и расположение. Содержательный план теста анализируется экспертами.

Наличие статистических характеристик у тестовых заданий. Заранее известно, какова трудность предлагаемого задания, будет ли оно одинаково выполняться слабыми и сильными испытуемыми или нет (дифференцирующая способность) и др.

Наличие специальных шкал, которые соотнесены со стандартизированными нормами, для подведения результатов тестирования.

Наличие оценок точности измерения (ошибки измерения). С помощью статистических методов мы можем оценить ошибку измерения, а по результатам оценки принять или не принять результаты тестирования.

Отличительные особенности теста определяют преимущества теста перед традиционными формами контроля учебных достижений: объективность, надежность, точность, экономичность измерений.

Тест, предъявляемый испытуемому, состоит из инструкции и тестовых заданий. В инструкции даются указания из скольких частей состоит тест, какое количество времени дается на его выполнение, какой стратегии должен придерживаться испытуемый (например, если не знаете ответ на задание, приступайте к выполнению следующего), что надо сделать, чтобы записать правильный ответ. Если тест включает различные формы заданий, то при смене форм, перед каждым субтестом дается дополнительная инструкция по выполнению данной формы задания.

Далее, после инструкции, располагаются пронумерованные тестовые задания. Задания в тесте, в соответствии с теорией тестирования, должны располагаться по нарастанию трудности, т.е. в начале теста включаются легкие задания, потом более сложные. Эта стратегия объясняется тем, что слабым испытуемым дается возможность выполнить какое-то количество заданий. Если же тест начинать со сложных заданий, то может возникнуть ситуация, когда испытуемый не может справиться со сложным заданием, но и не выполняет и более простые, потому что у него не хватит времени, соответственно мы не можем измерить уровень его учебных достижений.

Тест всегда сопровождается подробной инструкцией для организаторов и наблюдателей тестирования. Данная инструкция должна обеспечить равные условия для всех, кто выполняет тест. Поэтому в этой инструкции четко оговариваются условия тестирования (требования, предъявляемые к помещению, где будет проходить тестирование, количество испытуемых в группе, время тестирования), форма заполнения тестовых бланков (данные испытуемого: имя, возраст, пол, школа и др.; как заносить правильные ответы и т.д.).

Классификация педагогических тестов

В отечественной и зарубежной тестологии предлагаются различные классификации педагогических тестов в зависимости от выбранного основания: цели тестирования, формы предъявления теста, однородности содержания, подход к разработке теста.

По целям использования: (классификация предложена Гронлундом, ее же придерживаются ЧелышковаМ.Б., Майоров А.Н.)

входное тестирование обеспечивает проверку знаний и умений в начале обучения;

формирующее и диагностическое тестирование предполагает контроль за формированием новых знаний и умений в процессе обучения;

тематическое, итоговое, рубежное тестирование обеспечивает определение итоговых достижений.

Входное тестирование проводится в начале обучения или следующего его этапа, для того чтобы определить степень владения необходимыми (базовыми) знаниями и умениями для изучения предлагаемой дисциплины, т.е. входное тестирование позволяет выявить готовность к усвоению новых знаний у учащихся. С помощью входного тестирования также определяют степень владения новым материалом до начала его изучения.

Использование входного тестирования тесно связано с повышением эффективности учебного процесса. Анализ его результатов помогает преподавателю выбрать правильную обучающую стратегию при работе на новом этапе. Входное тестирование дает возможность определить, есть ли слабые обучаемые, для которых новый материал давать еще рано, соответственно для них необходимо обеспечить повторение базовых знаний и устранение пробелов, прежде чем приступить к дальнейшему обучению. Это поможет избежать хронического отставания учащихся. Чтобы определить готовность обучаемых к новому этапу, предлагаются предварительные тесты (претесты), которые нацелены на проверку базовых (необходимых) знаний и умений.

Для сильных учащихся, предположительно уже имеющих некоторые знания из области дисциплины, которая только будет изучаться, предлагается также входной тест (претест). Но его содержание уже базируется на новом материале. Анализ результатов этого тестирования помогает преподавателю определить, как он будет работать с сильными учащимися. Если тест выполнен хорошо, то их следует перевести на более высокий уровень обучения, а если нет, то освоение нового материала и для сильных учеников будет проходить по плану. Таким образом, входное тестирование помогает педагогу выбрать наиболее эффективную стратегию обучения, при этом учитываются индивидуальные особенности учащихся.

Текущий контроль за формированием новых знаний и умений в процессе обучения можно проводить, используя формирующее и диагностическое тестирования.

Формирующий тест (т.е. помогающий формировать качественные знания) используется для определения качества усвоения материала по отдельному разделу или теме. Задания, включенные в тест, нацелены на проверку изучаемого или только что изученного материала или темы. Он выполняет функцию обратной связи между преподавателем и обучаемым. Если большинство тестируемых не справляется с формитующим тестом, то следовательно необходимо дополнительное повторение, детализация и закрепление изучаемого материала. Если несправившихся с тестом меньшинство, то освоение новых тем и разделов дисциплины продолжается по плану, а с отстающими (несправившимися) проводится индивидуальная дополнительная работа. Формирующий тест способствует своевременному выявлению и устранению пробелов в процессе обучения. В отличие от традиционных средств контроля формирующее тестирование эффективнее, так как экономит время и усилия преподавателя.

Формирующий тест может быть представлен в компьютерном варианте, что позволяет учащимся самостоятельно контролировать свои знания и умения. Формирующий тест зачастую сопровождается конкретными рекомендациями для исправления допущенных ошибок и обучающими модулями по каждой единице материала. Обучающие модули могут содержать определения, правила, формулы, алгоритмы выполнения заданий, фактический материал, примеры.

Диагностический тест, используемый в текущем контроле, направлен на выявление причин допущенных ошибок, на выяснение, почему возникли те или иные пробелы в знаниях учащихся, систематические ошибки. Диагностический тест состоит из заданий, на определенную конкретную область содержания, такие задания отличаются предельной детализацией, это помогает отследить на каком этапе возникают ошибки. Диагностический тест проводится после формирующего, когда определены систематические ошибки, устойчивые пробелы. Анализ результатов диагностического теста помогает установить причины ошибок и пути их устранения.

Итоговое тестирование проводится по окончании обучения и служит для оценки результатов обучения, т.е. определяет его эффективность: насколько реальные результаты совпадают с ожидаемыми, планируемыми, насколько они соответствуют стандарту. Итоговый тест охватывает достаточно широкую область содержания изученной темы, раздела, дисциплины, этапа обучения. В итоговый тест включаются задания на проверку знаний самых важных элементов содержания, сформированность необходимых навыков.

Тестирование является более качественным и объективным способом оценивания, его объективность достигается путем стандартизации процедуры проведения, проверки показателей качества заданий и тестов целиком.

Тестирование — более справедливый метод, оно ставит всех учащихся в равные условия, как в процессе контроля, так и в процессе оценки, практически исключая субъективизм преподавателя. По данным английской ассоциации NEAB, занимающейся итоговой аттестацией учащихся Великобритании, тестирование позволяет снизить количество апелляций более чем в три раза, сделать процедуру оценивания одинаковой для всех учащихся вне зависимости от места проживания, типа и вида образовательного учреждения, в котором занимаются учащиеся.

Тесты это более объёмный инструмент, поскольку тестирование может включать в себя задания по всем темам курса, в то время как на устный экзамен обычно выносится 2-4 темы, а на письменный — 3-5. Это позволяет выявить знания учащегося по всему курсу, исключив элемент случайности при вытаскивании билета. При помощи тестирования можно установить уровень знаний учащегося по предмету в целом и по отдельным его разделам.

Тест это более точный инструмент, так, например, шкала оценивания теста из 20 вопросов, состоит из 20 делений, в то время, как обычная шкала оценки знаний — только из четырёх.

Тестирование более эффективно с экономической точки зрения. Основные затраты при тестировании приходятся на разработку качественного инструментария, то есть имеют разовый характер. Затраты же на проведение теста значительно ниже, чем при письменном или устном контроле. Проведение тестирования и контроль результатов в группе из 30 человек занимает полтора два часа, устный или письменный экзамен — не менее четырёх часов.

Тестирование — это более мягкий инструмент, они ставят всех учащихся в равные условия, используя единую процедуру и единые критерии оценки, что приводит к снижению предэкзаменационных нервных напряжений.

Разработка качественного тестового инструментария — длительный, трудоемкий и дорогостоящий процесс.

Данные, получаемые преподавателем в результате тестирования, хотя и включают в себя информацию о пробелах в знаниях по конкретным разделам, но не позволяют судить о причинах этих пробелов.

Тест не позволяет проверять и оценивать высокие, продуктивные уровни знаний, связанные с творчеством, то есть вероятностные, абстрактные и методологические знания.

Широта охвата тем в тестировании имеет и обратную сторону. Учащийся при тестировании, в отличие от устного или письменного экзамена, не имеет достаточно времени для сколько-нибудь глубокого анализа темы.

Обеспечение объективности и справедливости теста требует принятия специальных мер по обеспечению конфиденциальности тестовых заданий. При повторном применении теста желательно внесение в задания изменений.

В тестировании присутствует элемент случайности. Например, учащийся, не ответивший на простой вопрос, может дать правильный ответ на более сложный. Причиной этого может быть, как случайная ошибка в первом вопросе, так и угадывание ответа во втором. Это искажает результаты теста и приводит к необходимости учета вероятностной составляющей при их анализе.

Аванесов В.С. Научные проблемы тестового контроля знаний. М.: Исследовательский центр.-1994.- с.112

Аванесов В.С. Тесты: теория и методика их разработки. Управления школой.-1999.-№29.-с.8-14

Источник

Как делать своими руками…

Концепция тестирования эффективности обучения основана на предположении что испытания должны быть

Концепции тестирования и измерения

Тестирование как средство оценки результатов обучения на уроке

Добавить комментарий Отменить ответ

Концепции тестирования и измерения

Тестирование как средство оценки результатов обучения на уроке

Вам также понравится

Левофлоксацин при ковиде для чего назначают

К чему снятся враги во сне мужчине

Как понять что сом беременный аквариумный

Добавить комментарий Отменить ответ