Валидность теста
РУБРИКА: \ СЛОВАРЬ \ ТЕМАТИЧЕСКИЙ СЛОВАРЬ

СЛОВАРИ-ХРЕСТОМАТИИ

 

Валидность (методики исследования, теста)

 

«… В тестировании – свойство любого измерительного инструмента, прибора или теста, при котором он измеряет то, что предназначен измерять. … В области тестов было разработано большое число процедур оценки валидности инструментов тестирования …»  (Ребер, 2000, С. 114)

См. там же «в. выборки», «в. априорная», «в. внутреняя», «в. дефиниционная», «в. дифференциальная», «в. инкрементная», «в. конвергентная и дискриминантная», «в. конгруэнтная», «в. консенсуальная», «в. конструктная», «в. критериальная», «в. номологическая», «в. очевидная», «в. присущая», «в. прогностическая», «в. синтетическая», «в. содержательная», «в. текущая», «в. факторная», «в. эмпирическая»….

 

«… важнейший критерий доброкачественного теста, характеризующий точность измеряемого свойства; оценка адекватности теста исследуемой проблеме.определяется корреляцией его результатов с другим критериями измеряемого свойства (например, валидность тестовая способностей определяется корреляцией результатов по тесту с успешностью выполнения соответствующей деятельности). Проверка валидности теста называется валидацией (валидизацией). Допускаются разные типы валидации и валидности теста: 1) содержательная  (content); 2) по критерию (эмпирическая, criterion-related); понятийная (конструктная, construct); 4) дискриминантная (discriminant) и др. …» (В.И. ЛубовскийБПС, 2003, С. 67)

«… (англ. Valid – действительный, пригодный, имеющий силу) – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним…» (Бурлачук, 2008, С. 50-51)

«… Известны стандартные процедуры, позволяющие классифицировать и выделить три категории валидности: по содержанию, по связи с критериями и по конструкции теста.

Известны стандартные процедуры, позволяющие классифицировать и выделить три категории валидности: по содержанию, по связи с критерия­ми и по конструкции теста.

Валидность по содержанию, определяемая путем системати­ческого контроля содержания, должна показывать, насколько полно охватывает тест представительную выборку по совокуп­ности измеряемых параметров. Сфера тестологического иссле­дования должна постоянно изучаться и анализироваться, с тем, чтобы тест был наполнен адекватными задачами. В основном данный тип валидности применяется в тестах достижения. Для тестов способностей и тестов личности этот тип валидности малоприемлем и неадекватен.

Валидность по связи с критериями определяется с единствен­ной, крайне важной для практики целью: оценить индивидуаль­ную прогностичность теста. Для этого результаты выполнения теста сопоставляются с непосредственными и независимыми оценками того, что должен предсказывать тест. Это один из принципиальных вопросов использования тестов. Речь идет о сопоставлении между собой двух форм валидности: диагности­ческой и прогностической.

В настоящее время не возникает сомнений в диагностической ценности тестов. Однако использование результатов тестирова­ния, т. е. диагностической информации, для предсказания ре­зультатов нетестовой деятельности в будущем более, чем про­блематично. Критерии диагностической валидности очевидны: они определяются самим содержанием и процедурой теста, и можно с определенной вероятностью ответить на вопрос о том, что за функция определяется в подобной ситуации. Прогнози­рование же уровня выполнения в будущем какого-либо вида деятельности (к тому же непосредственно самой тестовой процедурой не исследуемого) в известном смысле напоминает га­дание и имеет низкую вероятность.

Для увеличения прогностической валидности употребляется процедура, позволяющая достигнуть достаточной чистоты теста. При этом добиваются его независимости от различного рода влияний, таких, как содержание задач, оценочных критериев, влияния знаний, способностей испытуемого. Для валидности данного типа используют как общие, так и специфические кри­терии, однако, несмотря на широкое применение общих, предпочтение в последнее время отдается специфическим критери­ям. Они используются в частных случаях, но обеспечивают бо­лее высокий уровень валидности, так как основаны на тестирова­нии конкретными задачами, имеющими конкретные цели.

Возможны критерии валидности, являющиеся объединением обоих видов критериев. Синтетическая валидность, таким обра­зом, представляет собой комплексную характеристику, включа­ющую в себя в определенной пропорции оба отмеченных выше аспекта.

Конструктивная валидность дает информацию о степени из­мерения тестом теоретически (конструктивно) выделяемой чер­ты. Наиболее часто данный тип валидности характеризует тесты интеллекта, вербальные, скоростные, нейротицизма, тревож­ности. Конструктивная валидность требует постепенного накоп­ления информации об изменчивости оценок. Фиксируются и ана­лизируются данные, проливающие свет на отдельные черты и природу изучаемого явления, а также условия, воздействующие на его развитие и проявление. Специфика определения валидности по конструкции зависит от нескольких факторов, и в первую очередь таких, как возрастные различия и степень связи с дру­гими, ранее использованными тестовыми испытаниями. Особое место в процедуре определения конструктивной валидности за­нимает факторный анализ, когда статистические процедуры применяются для идентификации результатов психологических ис­следований.

Практика психологического тестирования требует фиксиро­вать еще одну разновидность валидности, выражаемую двумя противоположными характеристиками. Важное значение имеют данные не только о высокой корреляции теста с некоторыми другими переменными, с которыми он теоретически должен кор­релировать. Существенно также, чтобы тест не был тесно свя­зан с теми параметрами, с которыми он не должен коррелиро­вать. В соответствии с этим различают конвергентную и дискриминантную валидность.

Отношение между тестовыми оценками и различными крите­риями валидности определяется и анализируется несколькими путями. Наиболее простая процедура оценки валидности кон­кретного теста по его связи с исходными данными результатов испытаний – составление таблицы ожиданий. Наличие информации об общем распределении оценок измерений позволяет с определенной степенью точности рассчитать вероятность получения оценки конкретного тестового испытания.

Количественно валидность чаще всего оценивается с помо­щью величины, коэффициента корреляции между тестовой оцен­кой и критерием деятельности (внешним критерием). Известны основные факторы, влияющие на величину коэффициента ва­лидности. К ним относятся: характер группы испытуемых, ее специфичность; гомогенность выборки (однородность); преселекция (предварительный отбор); различного рода изменения во времени.

Для интерпретации результатов тестирования большое зна­чение имеет также форма отношения между тестом и внешним критерием. Как правило, между ними предполагается прямоли­нейная связь, которую оценивают с помощью коэффициента корреляции Пирсона. Однако этот коэффициент корректен лишь до тех пор, пока исследуемая функция изменяется линейно и монотонно. На практике данное условие выполняется, к сожа­лению, далеко не всегда, поскольку комплексный характер при­чинно-следственных отношений между явлениями, значительное количество действующих факторов, учет которых возможен так­же не во всех случаях, сильно отклоняют измеряемые зависи­мости от прямолинейной формы. Как следствие этого величина коэффициента валидности оказывается невысокой.

Величину валидности пытаются выражать при помощи (в терминах) стандартной ошибки измерения, по прямой аналогии с ошибкой измерения надежности теста.

С учетом того, что в различных выборках и подгруппах ис­пытуемых валидность сильно зависит от личностных характе­ристик, в тестологии вводится понятие уравнивающих переменных. Установлено, что предсказуемая ошибка теста имеет го­раздо меньшую величину, чем ошибка индивидуальной оценки. Поэтому при использовании предсказуемой валидности, полу­ченной на нескольких конкретных выборках в случае объедине­ния их даже в общую группу, коэффициент валидности может иметь очень малую величину. Однако перекомбинация индиви­дуальных особенностей в некоторое число идентифицированных характеристик (например, половые и возрастные параметры) позволяет повысить валидность теста по одним и понизить по другим, не имеющим высокой ценности, показателям.

Для предсказания практического критерия, как правило, ис­пользуется не один тест, а целый их набор, батарея тестов. Од­на из основных проблем, возникающих в этом случае, – пробле­ма объединения оценок различных тестов в некую обобщенную характеристику испытуемого. Решение этой проблемы идет тре­мя путями: составлением уравнения множественной регрессии, определением множественных показателей границ и использованием клинических оценок.

Уравнение регрессии определяет величину предсказуемого критерия для каждого индивида на основании его оценок, по­лученных при выполнении заданий всей батареи тестов. Коэф­фициенты при членах уравнения оценивают вклад отдельной индивидуальной особенности, измеряемой конкретным тестом. Тес­ты, имеющие высокую корреляцию с критерием, будут наиболее весомыми. Валидность батареи тестов определяется вычислени­ем корреляции между критерием и батареей. Она будет обла­дать максимальной предсказательной ценностью в том случае, если каждый отдельный тест имеет оптимальный вес для предсказывания критерия в своих баллах. Эта оптимальность от­дельных весов определяется из уравнения регрессии.

Процедура определения многофакторных показателей гра­ниц в основном направлена только на фиксацию минимальной оценки для каждого теста. В соответствии с этим каждый испы­туемый, получивший хотя бы по одному тесту оценку ниже минимальной, исключается из выборки.

Ни одна статистическая процедура и формула не в состоя­нии полностью отразить многообразие индивидуальных оценок. Поэтому часто в практике тестирования используются кли­нические оценки, представляющие собой не что иное, как каче­ственное описание сущности изучаемого феномена. В данном случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Из приведенного обзора методических требований тестоло­гии видно, что уровень разработанности ее статистических ас­пектов достаточно высок. В большей степени это относится к этапам конструирования и апробации тестовых испытаний. Тех­ника нормировки, стандартизации и определения надежности с формально-математической точки зрения безупречна. Исклю­чение в этом отношении составляет, пожалуй, только проблема определения валидности теста (особенно двух ее видов: по свя­зи с внешними критериями деятельности и прогностическая ва­лидность). Эта проблема появилась с момента зарождения тес­тологии и имеет общеметодологический научно-теоретический характер. Именно этот недостаток психологического тестирова­ния, не устраненный и по настоящее время, часто сводит на нет результативность исследований, опирающихся на метод тестов».

 

(«Психологическая диагностика: Проблемы и исследования» /

Под ред. К.М. Гуревича. – М.: Педагогика, 1981, С. 30-33)

Яндекс цитирования Get Adobe Flash player