Валидность теста

Валидность (методики исследования, теста)

«… В тестировании – свойство любого измерительного инструмента, прибора или теста, при котором он измеряет то, что предназначен измерять. … В области тестов было разработано большое число процедур оценки валидности инструментов тестирования …» (Ребер, 2000, С. 114)

См. там же «в. выборки», «в. априорная», «в. внутреняя», «в. дефиниционная», «в. дифференциальная», «в. инкрементная», «в. конвергентная и дискриминантная», «в. конгруэнтная», «в. консенсуальная», «в. конструктная», «в. критериальная», «в. номологическая», «в. очевидная», «в. присущая», «в. прогностическая», «в. синтетическая», «в. содержательная», «в. текущая», «в. факторная», «в. эмпирическая»….

«… важнейший критерий доброкачественного теста, характеризующий точность измеряемого свойства; оценка адекватности теста исследуемой проблеме. … определяется корреляцией его результатов с другим критериями измеряемого свойства (например, валидность тестовая способностей определяется корреляцией результатов по тесту с успешностью выполнения соответствующей деятельности). Проверка валидности теста называется валидацией (валидизацией). Допускаются разные типы валидации и валидности теста: 1) содержательная (content); 2) по критерию (эмпирическая, criterion-related); понятийная (конструктная, construct); 4) дискриминантная (discriminant) и др. …» (В.И. Лубовский – БПС, 2003, С. 67)

«… (англ. Valid – действительный, пригодный, имеющий силу) – комплексная характеристика методики (теста), включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним…» (Бурлачук, 2008, С. 50-51)

«… Известны стандартные процедуры, позволяющие классифицировать и выделить три категории валидности: по содержанию, по связи с критериями и по конструкции теста.

Известны стандартные процедуры, позволяющие классифицировать и выделить три категории валидности: по содержанию, по связи с критериями и по конструкции теста.

Валидность по содержанию, определяемая путем систематического контроля содержания, должна показывать, насколько полно охватывает тест представительную выборку по совокупности измеряемых параметров. Сфера тестологического исследования должна постоянно изучаться и анализироваться, с тем, чтобы тест был наполнен адекватными задачами. В основном данный тип валидности применяется в тестах достижения. Для тестов способностей и тестов личности этот тип валидности малоприемлем и неадекватен.

Валидность по связи с критериями определяется с единственной, крайне важной для практики целью: оценить индивидуальную прогностичность теста. Для этого результаты выполнения теста сопоставляются с непосредственными и независимыми оценками того, что должен предсказывать тест. Это один из принципиальных вопросов использования тестов. Речь идет о сопоставлении между собой двух форм валидности: диагностической и прогностической.

В настоящее время не возникает сомнений в диагностической ценности тестов. Однако использование результатов тестирования, т. е. диагностической информации, для предсказания результатов нетестовой деятельности в будущем более, чем проблематично. Критерии диагностической валидности очевидны: они определяются самим содержанием и процедурой теста, и можно с определенной вероятностью ответить на вопрос о том, что за функция определяется в подобной ситуации. Прогнозирование же уровня выполнения в будущем какого-либо вида деятельности (к тому же непосредственно самой тестовой процедурой не исследуемого) в известном смысле напоминает гадание и имеет низкую вероятность.

Для увеличения прогностической валидности употребляется процедура, позволяющая достигнуть достаточной чистоты теста. При этом добиваются его независимости от различного рода влияний, таких, как содержание задач, оценочных критериев, влияния знаний, способностей испытуемого. Для валидности данного типа используют как общие, так и специфические критерии, однако, несмотря на широкое применение общих, предпочтение в последнее время отдается специфическим критериям. Они используются в частных случаях, но обеспечивают более высокий уровень валидности, так как основаны на тестировании конкретными задачами, имеющими конкретные цели.

Возможны критерии валидности, являющиеся объединением обоих видов критериев. Синтетическая валидность, таким образом, представляет собой комплексную характеристику, включающую в себя в определенной пропорции оба отмеченных выше аспекта.

Конструктивная валидность дает информацию о степени измерения тестом теоретически (конструктивно) выделяемой черты. Наиболее часто данный тип валидности характеризует тесты интеллекта, вербальные, скоростные, нейротицизма, тревожности. Конструктивная валидность требует постепенного накопления информации об изменчивости оценок. Фиксируются и анализируются данные, проливающие свет на отдельные черты и природу изучаемого явления, а также условия, воздействующие на его развитие и проявление. Специфика определения валидности по конструкции зависит от нескольких факторов, и в первую очередь таких, как возрастные различия и степень связи с другими, ранее использованными тестовыми испытаниями. Особое место в процедуре определения конструктивной валидности занимает факторный анализ, когда статистические процедуры применяются для идентификации результатов психологических исследований.

Практика психологического тестирования требует фиксировать еще одну разновидность валидности, выражаемую двумя противоположными характеристиками. Важное значение имеют данные не только о высокой корреляции теста с некоторыми другими переменными, с которыми он теоретически должен коррелировать. Существенно также, чтобы тест не был тесно связан с теми параметрами, с которыми он не должен коррелировать. В соответствии с этим различают конвергентную и дискриминантную валидность.

Отношение между тестовыми оценками и различными критериями валидности определяется и анализируется несколькими путями. Наиболее простая процедура оценки валидности конкретного теста по его связи с исходными данными результатов испытаний – составление таблицы ожиданий. Наличие информации об общем распределении оценок измерений позволяет с определенной степенью точности рассчитать вероятность получения оценки конкретного тестового испытания.

Количественно валидность чаще всего оценивается с помощью величины, коэффициента корреляции между тестовой оценкой и критерием деятельности (внешним критерием). Известны основные факторы, влияющие на величину коэффициента валидности. К ним относятся: характер группы испытуемых, ее специфичность; гомогенность выборки (однородность); преселекция (предварительный отбор); различного рода изменения во времени.

Для интерпретации результатов тестирования большое значение имеет также форма отношения между тестом и внешним критерием. Как правило, между ними предполагается прямолинейная связь, которую оценивают с помощью коэффициента корреляции Пирсона. Однако этот коэффициент корректен лишь до тех пор, пока исследуемая функция изменяется линейно и монотонно. На практике данное условие выполняется, к сожалению, далеко не всегда, поскольку комплексный характер причинно-следственных отношений между явлениями, значительное количество действующих факторов, учет которых возможен также не во всех случаях, сильно отклоняют измеряемые зависимости от прямолинейной формы. Как следствие этого величина коэффициента валидности оказывается невысокой.

Величину валидности пытаются выражать при помощи (в терминах) стандартной ошибки измерения, по прямой аналогии с ошибкой измерения надежности теста.

С учетом того, что в различных выборках и подгруппах испытуемых валидность сильно зависит от личностных характеристик, в тестологии вводится понятие уравнивающих переменных. Установлено, что предсказуемая ошибка теста имеет гораздо меньшую величину, чем ошибка индивидуальной оценки. Поэтому при использовании предсказуемой валидности, полученной на нескольких конкретных выборках в случае объединения их даже в общую группу, коэффициент валидности может иметь очень малую величину. Однако перекомбинация индивидуальных особенностей в некоторое число идентифицированных характеристик (например, половые и возрастные параметры) позволяет повысить валидность теста по одним и понизить по другим, не имеющим высокой ценности, показателям.

Для предсказания практического критерия, как правило, используется не один тест, а целый их набор, батарея тестов. Одна из основных проблем, возникающих в этом случае, – проблема объединения оценок различных тестов в некую обобщенную характеристику испытуемого. Решение этой проблемы идет тремя путями: составлением уравнения множественной регрессии, определением множественных показателей границ и использованием клинических оценок.

Уравнение регрессии определяет величину предсказуемого критерия для каждого индивида на основании его оценок, полученных при выполнении заданий всей батареи тестов. Коэффициенты при членах уравнения оценивают вклад отдельной индивидуальной особенности, измеряемой конкретным тестом. Тесты, имеющие высокую корреляцию с критерием, будут наиболее весомыми. Валидность батареи тестов определяется вычислением корреляции между критерием и батареей. Она будет обладать максимальной предсказательной ценностью в том случае, если каждый отдельный тест имеет оптимальный вес для предсказывания критерия в своих баллах. Эта оптимальность отдельных весов определяется из уравнения регрессии.

Процедура определения многофакторных показателей границ в основном направлена только на фиксацию минимальной оценки для каждого теста. В соответствии с этим каждый испытуемый, получивший хотя бы по одному тесту оценку ниже минимальной, исключается из выборки.

Ни одна статистическая процедура и формула не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто в практике тестирования используются клинические оценки, представляющие собой не что иное, как качественное описание сущности изучаемого феномена. В данном случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Из приведенного обзора методических требований тестологии видно, что уровень разработанности ее статистических аспектов достаточно высок. В большей степени это относится к этапам конструирования и апробации тестовых испытаний. Техника нормировки, стандартизации и определения надежности с формально-математической точки зрения безупречна. Исключение в этом отношении составляет, пожалуй, только проблема определения валидности теста (особенно двух ее видов: по связи с внешними критериями деятельности и прогностическая валидность). Эта проблема появилась с момента зарождения тестологии и имеет общеметодологический научно-теоретический характер. Именно этот недостаток психологического тестирования, не устраненный и по настоящее время, часто сводит на нет результативность исследований, опирающихся на метод тестов».

(«Психологическая диагностика: Проблемы и исследования» /

Под ред. К.М. Гуревича. – М.: Педагогика, 1981, С. 30-33)