статистические показатели валидности эмпирической теста. Если в случае с валидностью содержательной оценка производится качественными методами экспертами, устанавливающими соответствие заданий теста содержанию предмета
измерения, то эмпирическая валидность измеряется всегда с помощью статистического коррелирования.
В качестве меры валидности наиболее часто на практике применяются разные виды корреляционного анализа связи между индивидуальными оценками по тесту и оценками по валидизации критерию (либо связь между результатами валидизируемого теста и эталонной
методики. В большинстве случаев распределение тестовых оценок в репрезентативной выборке валидизации близко к нормальному. Оценки по критерию чаще бывают дихотомическими, ранговыми (см. ШКАЛЫ ИЗМЕРИТЕЛЬНЫЕ) или распределяются по закону, отличному
от нормального. Если оба ряда переменных (тестовые и критериальные оценки) носят континуальный характер, используют коэффициент корреляции произведения моментов Пирсона (см. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ). В зависимости от шкалы представления переменных
в сравниваемых рядах применяются те или иные методы корреляционного анализа (см. КОРРЕЛЯЦИЯ КАЧЕСТВЕННЫХ ПРИЗНАКОВ, КОРРЕЛЯЦИЯ БИСЕРИАЛЬНАЯ, КОРРЕЛЯЦИЯ РАНГОВАЯ).
Наряду с. В. к., определяемыми традиционным способом, существуют и некоторые другие меры количественной оценки валидности теста, в частности с помощью j-коэффициента, предложенного Э. Примовым (E.S. Primoff, 1975). j-коэффициент является одним
из методов характеристики синтетической валидности (см. ВАЛИДНОСТЬ КРИТЕРИАЛЬНАЯ). Процедура его определения предусматривает наличие перечня элементов сложной деятельности или способности, выраженных языком профессиональных или других специальных
действий и экспертной оценки относительной значимости этих элементов для осуществления данной сложной деятельности. Окончательный анализ проводится на базе корреляции оценок теста и отдельных элементов реальной деятельности с учетом их удельных
весов. Статистическая обработка основана на применении уравнения множественной регрессии. Для каждого элемента деятельности его корреляция с деятельностью в целом умножается на «вес» в тесте, и полученные произведения суммируются по всем элементам
деятельности.
В. к. являются важными, но далеко не определяющими и не исчерпывающими характеристиками валидности методики. Еще раз (см. ВАЛИДНОСТЬ) следует отметить, что о валидности судят не как о чем-то количественном, а как об «адекватной», «удовлетворительной»,
«недостаточной» и т. д. Таким образом, В. к. являются лишь элементом в сложном процессе характеристики - валидности теста.
Приблизительность отдельно вычисленного В. к. обусловлена многими факторами. Во-первых, условии валидности теста не представляется возможным определить полностью. Всегда остается множество неучтенных факторов, ситуаций, условий и т. д. Во-вторых,
логика критериальной валидизации предполагает валидность самого критерия. Проверка такой валидности представляет собой весьма трудную проблему. К тому же очень часто тесты валидизируются относительно доступного, а не наиболее соответствующего
критерия. Так, тесты общих способностей сопоставляются не с критериями психологических качеств мышления, нейрофизиологическими и психологическими коррелятами задатков и способностей, а с показателями успеваемости, успеха в какой-либо конкретной
деятельности, которые сами по себе являются сложными и, помимо интеллекта, зависят от множества других факторов. В-третьих, условия валидизации по критерию предполагают, что выборка полностью репрезентативна в популяции, для которой позже
будут делаться заключения. В реальной ситуации это требование осуществить трудно, и репрезентативность выборки валидизации всегда требует дополнительной проверки статистическими и качественными методами. На практике обычно весьма сложно охватить
адекватное число случаев, особенно при определении валидности прогностической.
Наибольшая сложность интерпретации В. к. с т. з. определяемой реальной валидности теста заключается в следующем. Критериальная валидизации опирается, как правило, на круг внешних для психологии социально-прагматических критериев. Это оправдывается
тем, что важнейшая цель валидизации — определение практической ценности разрабатываемой методики. Критерии в этом случае выступают как показатели, обладающие непосредственной ценностью для определенных областей практики, напр.: «успеваемость»,
«производительность», «преступность», «состояние здоровья» и т. д. При ориентации на эти категории в ходе валидизации решаются сразу две задачи: собственно задача измерения валидности и оценка прагматической эффективности психодиагностической
методики. Если получен значимый коэффициент корреляции, то можно считать, что с той или иной степенью достоверности решены с позитивным результатом сразу две эти задачи. Но если корреляции не обнаружено, то остается неопределенность: либо
невалидна сама процедура (тестовый балл не отражает, напр., стрсссоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психическим свойством и социально ценным показателем (стрессоустойчивость не влияет
на процент аварийных ситуаций).
Наряду с перечисленными теоретическими и методическими сложностями применения и интерпретации В. к. необходимо помнить и об обеспечении статистической значимости рассчитываемых коэффициентов. Делая выводы о валидности теста с привлечением В. к.,
нужно быть уверенным в том, что данный коэффициент не появился в результате случайных отклонений и выборке. Установив значимость корреляции между тестовыми показателями и критерием, необходимо оценить величину стандартной ошибки тестовых оценок.
Применяемый при этом статистический показатель ошибки измерения указывает на допустимые пределы ошибки в индивидуальных показателях вследствие ограниченной надежности теста. Аналогично ошибка в оценке указывает на допустимые пределы возможной
ошибки в прогнозируемой величине индивидуального критериального показателя как результат ограниченной валидности теста.
Ошибка оценки находится по формуле
Особенности интерпретации К. в. как статистических мер аналогичны другим мерам связи.