Надежность и валидность теста

Валидность – это один из базовых критериев в психодиагностике тестов, методик, определяющий их качество, близкое к понятию достоверности. Применяется, когда нужно узнать насколько хорошо методика измеряет именно то, на что она ориентирована, соответственно то, насколько лучше отображается исследуемое качество, тем большая валидность данной методики.

Вопрос о валидности возникает сперва в процессе разработки материала, потом после применения теста или методики, если необходимо узнать, соответствует ли степень выраженности определяемой характеристики личности и методом измерения этого свойства.

Понятие валидности выражается корреляцией результатов, которые получились в результате применения теста или методики с другими характеристиками, которые также исследуются, и ее можно также аргументировать комплексно, с помощью разных приемов и критериев. Используются разные виды валидности: концептуальная, конструктивная, критериальная, содержательная валидности, со свойственными методами установления их степени достоверности. Иногда критерий достоверности является обязательным требованием к проверке психодиагностических методов, если они вызывают сомнения.

Чтобы психологическое исследование имело реальную ценность, оно должно быть не только валидным, а еще и надежным одновременно. Надежность позволяет экспериментатору быть уверенным в том, что исследуемое значение очень близко к истинному показателю. А валидный критерий важен тем, что он указывает, что изучается именно то, что экспериментатор предполагает. Важно обратить внимание на тот факт, что данный критерий может предположить надежность, но надежность предположить валидность не может. Надежные значения могут быть не валидными, но валидные обязаны быть надежными, в этом вся суть успешного исследования, тестирования.

Что такое надежность

В ходе проверки надежности теста проводится оценка постоянства полученных результатов при повторном проведении испытания. Расхождения данных должны отсутствовать или же быть незначительными. В противном случае невозможно относиться к результатам теста с доверием. Надежность теста — это критерий, который свидетельствует о точности измерений. Существенными считаются следующие свойства тестов:

воспроизводимость результатов, полученных по итогам исследования;
степень точности методики измерения или соответствующих приборов;
устойчивость результатов на протяжении определенного периода времени.

В трактовке надежности можно выделить следующие основные составляющие:

надежность измерительного инструмента (а именно грамотности и объективности тестового задания), которая может быть оценена путем расчета соответствующего коэффициента;
стабильность изучаемого признака на протяжении длительного периода времени, а также предсказуемость и плавность его колебаний;
объективность результата (то есть его независимость от личных предпочтений исследователя).

[Править]Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Факторы надежности

На степень надежности может повлиять целый ряд негативных факторов, наиболее существенными из которых являются следующие:

несовершенство методики (неверная или неточная инструкция, нечеткая формулировка заданий);
временная нестабильность или постоянные колебания значений показателя, который подвергается исследованию;
несоответствие обстановки, в которой проводятся первоначальные и повторные исследования;
меняющееся поведение исследователя, а также нестабильность состояния испытуемого;
субъективный подход при оценке результатов теста.

[Править]Вычисление Кронбаха

Кронбаха определяется как

где — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента .

Альтернативный способ вычисления выглядит следующим способом:

где N — число элементов в шкале, — средняя дисперсия для выборки, — среднее значение для всех ковариаций между компонентами выборки.

В настоящее время Кронбаха считают при помощи SPSS, STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel

Способы оценки надежности теста

При определении надежности теста могут быть использованы следующие методики.

Метод повторного тестирования является одним из самых распространенных. Он позволяет установить степень корреляции между результатами исследований, а также временем, в которое они были проведены. Данная методика отличается простотой и эффективностью. Тем не менее у испытуемых, как правило, повторные исследования вызывают раздражение и негативные реакции.

Метод проверки внутренней согласованности не берет во внимание постоянство получаемых при повторном исследовании результатов. Он устанавливает взаимосвязь ответов, которые были даны в рамках одного эксперимента. Вопросы теста делятся на два перечня (по определенному принципу), после чего рассчитывается коэффициент корреляции между результатами.

Метод эквивалентных форм заключается в использовании двух или более тестов с разными формулировками заданий, но с одинаковой сутью, формой и степенью сложности выполнения. О надежности теста свидетельствуют одинаковые или приближенные результаты, которые были получены с использованием одного и того же измерительного прибора или вычислительной формулы. Если же итоги сильно расходятся, то, скорее всего, они были искажены намеренно или же испытуемый не очень ответственно подошел к процессу опроса.

[Править]Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему).

Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Что такое валидность

Валидность теста — это критерий, который определяет достоверность измерения. Можно сказать, что это пригодность того или иного инструментария к оценке определенной психологической характеристики. Стоит отметить, что валидность, надежность теста — это взаимодополняемые критерии, по отдельности они являются несущественными.

Валидность может рассматриваться с точки зрения теоретического и прагматического аспекта. В первом случае речь идет о методе оценки или же измерительном инструменте. Что касается второго понимания валидности, то оно касается цели проведения исследовательских мероприятий. Стоит отметить, что данный критерий может существенно отличаться для одного и того же теста, в зависимости от круга испытуемых. Наивысшая оценка может колебаться в районе 80%.

Валидность психологического теста может оцениваться в соответствии с количественными или качественными показателями. В первом случае речь идет о проведении математических расчетов. Качественная оценка производится описательно, на основании логических выводов.

Валидность это в психологии

В психологии понятие валидности обозначает уверенность экспериментатора в том, что он измерял именно то, что хотел с помощью определенной методики, показывает меру соответствия результатов и самой методики относительно поставленных задач. Валидное измерение – это то значение, которое измеряет именно то, для чего было создано. Например, методика, направлена на определение темперамента, должна измерять именно темперамент, а не нечто другое.

Валидность в экспериментальной психологии очень важный аспект, является важным показателем, который обеспечивает достоверность результатов, и с ним иногда больше всего возникает проблем. Совершенный эксперимент должен обладать безупречной валидностью, то есть он должен демонстрировать, что экспериментальный эффект вызван модификациями независимой переменной и полностью соответствовать действительности. Полученные результаты без ограничений можно обобщать. Если речь идет о степени данного критерия, то предполагается, что результаты будут соответствовать поставленным задачам.

Проверка на валидность осуществляется тремя способами.

Оценивание содержательной валидности, проводится, чтобы узнать уровень соответствия использованной методики и реальной действительности, в которой выражается исследуемое свойство в методике. Существует здесь также такой компонент, как очевидная, еще ее называют лицевая валидность, она характеризует степень соответствия теста к ожиданиям оцениваемых. В большинстве методик считается очень важным, чтобы участник оценки видел очевидную связь содержания процедуры оценки и действительности того объекта оценки.

Оценивание конструктной валидности исполняется для получения степени обоснованности, что тест реально вычисляет те конструкты, которые заданные и научно обоснованные.

В конструктной валидности имеются два направления. Первый называется конвергентной валидизацией, с его помощью проверяется ожидаемая связь результатов методики с характеристиками из других методик, которые измеряют исходные свойства. Если для измерения какой-то характеристики необходимо несколько методик, то рациональным решением было бы проведение экспериментов минимум двух методик, чтобы при сопоставлении результатов обнаружив высокую положительную корреляцию, можно было утверждать о валидном критерии.

Конвергентная валидизация определяет вероятность вариации оценки теста с ожиданиями. Второй подход, называется дискриминантная валидизация, в ней заключается, что методика не должна измерять никаких характеристик, с которой теоретически не должно быть корреляции.

Проверка на валидность, также бывает критериальной, она, руководствуясь статистическими методами, определяет степень соответствия результатов к заранее определенным внешним критериям. Такими критериями могут быть: непосредственные меры, независимые от результатов методики или значение социально-организационных значимых показателей деятельности. В критериальной валидности также выделяют прогностическую, она применяется при потребности прогнозирования поведения. И если получается, что этот прогноз осуществляется со временем, значит методика прогностически валидна.

Виды валидности теста

Выделяют следующие основные разновидности валидности теста:

конструктивная валидность теста — это критерий, применяемый при оценке теста, имеющего иерархическую структуру (используется в процессе исследования сложных психологических явлений);
валидность по критерию подразумевает сопоставление результатов тестирования с уровнем развития у испытуемого той или иной психологической характеристики;
валидность по содержанию определяет соответствие методики изучаемому явлению, а также круг параметров, которые она охватывает;
прогностическая валидность — это качественный показатель, который позволяет оценить перспективное развитие параметра.

Содержательная валидность (логическая).

Содержательная валидность означает, что тест является валидным по мнению специалистов.

Содержательную валидность следует отличать от очевидной (лицевой, внешней) валидности – валидности с точки зрения испытуемого, которая играет важную роль в процессе тестирования, поскольку определяет отношение испытуемого к обследованию. В одних случаях они могут совпадать, а в других внешняя валидность используется для маскировки содержательной валидности. Пример: тест «Домино»

Валидность по содержанию заключается в том, что в тесте должны быть представлены все и в правильной пропорции ключевые аспекты той выборки поведения, той психологической области, для диагностики которой он предназначен. Пример: агрессивность(физическая, вербальная, косвенная и т.п.)

Предположим, мы разрабатываем тест для диагностики успешности изучения программы по истории за курс средней школы. Для обеспечения валидности по содержанию мы должны включить в него вопросы по всем периодам, начиная с первобытности и до современности, а не только предположим, по истории средних веков. Кроме того, должны быть представлены вопросы по различным сторонам жизни людей, а не только по военным сражениям или культуре.

Работа по созданию теста начинается с анализа диагностируемой области и составления так называемой матрицы-спецификации, в которой записывается, какого типа и сколько вопросов должно быть в тесте, что и позволяет обеспечить его валидность по содержанию. В нашем примере теста освоения курса истории в матрице-спецификации, например, по горизонтали будут расположены периоды истории (первобытность, рабовладение и т.д.), а по вертикали – различные аспекты данной эпохи (экономические занятия, политическое устройство, военные сражения, культура и т.п.), на пересечении – необходимое количество заданий теста. Пример: опросник Баса-Дарки

Матрицу-спецификацию может создать только эксперт в соответствующей области. В нашем примере таким экспертом является высоко квалифицированный преподаватель истории. Именно он, а не психолог, разрабатывающий тест по истории, определяет сколько и каких именно заданий нужно включить в тест, а психолог после этого займётся работой над проверкой надёжности и валидности теста.

Валидность по содержанию не измеряется, а закладывается уже в процессе разработки теста. Поэтому содержательная валидность не имеет количественного выражения и не может быть представлена как коэффициент корреляции; в руководстве, как правило, приводится матрица-спецификация. Для определения содержательной валидности используют экспертные методы, то есть отбираются компетентные эксперты, организуется процедура экспертизы, во время которой эксперты должны оценить содержание заданий теста по их соответствию измеряемому психическому свойству, объявленному в качестве содержания валидизируемого теста. С этой целью экспертам предъявляется спецификация теста (где указываются темы, задачи обучения и значения каждой темы и задачи) и список заданий. Если задание соответствует спецификации, то эксперт обозначает его как соответствующее содержанию теста, если нет – бракует. С целью получения итоговой оценки содержательной валидности производится обобщение суждений отдельных экспертов по всем заданиям. Эти итоги о валидности по содержанию включаются в руководство к тесту.

Для критериально-ориентированных тестов в руководстве должны быть сведения об области знаний, навыках или учебных задачах, освоение которых измеряется тестом, а так же сведения о числе заданий по каждой из задач обучения. Анализируются типичные ошибки и применяемые ими методы работы. Так как выполнение тестов в этом случае оценивается с точки зрения усвоенного материала и навыков, в первую очередь необходимо, чтобы эти тесты были валидны по содержанию.

Критериальная валидность

(эмпирическая валидность или валидность по критерию)

Определяет способность теста служить предсказателем определённой психической особенности или формы поведения человека и предполагает учет независимых показателей и признаков, по которым можно судить о валидности теста. На практике это означает соответствие результатов диагностики реальному поведению, результатам практической деятельности, наблюдаемым действиям и реакциям испытуемого.

Критериями для оценки эмпирической валидности могут быть:

— поведенческие показатели – реакции, действия и поступки в различных ситуациях;

— достижения в различных видах деятельности (учебной, трудовой, спортивной и т.п.);

— данные о выполнении контрольных проб и заданий;

— данные по другим методикам, валидность или связь с которыми считается твердо установленной.

Тест будет эмпирически валидным, когда будет установлено, что испытуемый ведет себя в жизни именно так, как предсказывает тест.

«Валидность по критерию показывает, насколько по результатам теста можно судить об интересующем нас аспекте поведения индивида в настоящем и будущем. Чтобы определить её, выполнение теста соотносится с критерием, т.е. непосредственной и независимой мерой того, что должен предсказывать тест» (А. Анастази).

Пример: если нас интересует, насколько клинический тест позволяет предсказать диагноз, мы должны сравнить результаты теста с медицинским заключением, полученным на основании независимых исследований собственно медицинскими средствами, т.е. с данными «Истории болезни». Если нас интересует, насколько данный тест позволяет предсказывать успешность дальнейшего обучения школьника в высших учебных, то мы должны сопоставить результаты по нему с результатами последующей учёбы в институте и т.д.

Для большинства тестов валидность по критерию (чаще её называют критериальной валидностью) является самым важным показателем, ибо она даёт возможность психологу и «потребителю» психодиагностической информации чётко знать, какие именно аспекты поведения и в какой мере тест предсказывает, с какими внешними параметрами он связан. Например, психолог имеет два теста по интеллекту. Один из них обладает более высокой валидностью по математическим субтестам, а другой – по словарным. Перед ним же стоит задача отобрать наиболее способных абитуриентов, среди всех поступающих на физико-математический факультет. Естественно, что он должен отдать предпочтение первому.

Эмпирически критериальная валидность проявляется в сравнимости результатов измерений, полученных изучаемым методом, с результатами, полученными другими методами, валидность которых не вызывает сомнения. Если отсутствуют методы, валидность которых вызывает сомнения, то должна быть теоретически обоснована связь измеряемых признаков с исследуемым качеством.

Чтобы это доказать, проверяется, коррелируют ли результаты теста с результатами других существующих тестов, прогнозирующих ту же выборку поведения, чья валидность уже доказана. Наличие взаимосвязи между данными двух тестов является показателем того, что новый тест диагностирует приблизительно ту же реальность, что и существующий. Проверке на критериальную валидность могут быть подвегнуты все задания (пункты) теста.

Вообще, пользователь должен ориентироваться не на название теста, а на показатели критериальной валидности: по ним и только по ним он может определить, что же действительно измеряет тест и для решения каких задач он может быть применён.

Поскольку коэффициент критериальной валидности это не что иное как коэффициент корреляции между результатами теста и данными по тому параметру, который мы собираемся оценить или предсказать (т.е. критерию), то он интерпретируется также, как и любой другой коэффициент корреляции.

Например, коэффициент критериальной валидности, равный 1.00, говорит о том, что между результатами по тесту и по критерию существует абсолютно прямая зависимость. Чем выше результат по тесту, тем выше результат по критерию и наоборот. Результаты по тесту с таким коэффициентом валидности полностью отражают действительное положение обследуемого среди других по измеряемому параметру. Ошибки в прогнозе были бы связаны только с надёжностью теста Если бы тест по интеллекту истории из нашего примера имел такой невероятно высокий коэффициент критериальной валидности, то он был бы идеальным инструментом для оценки знаний по истории учеников выпускных классов, — более точного инструмента для оценки знаний не существует в принципе.

Коэффициент критериальной валидности, равный -1.00, говорит о том, что между результатами по тесту и по критерию существует абсолютная обратная зависимость. Чем выше результат по тесту, тем ниже результат по критерию и наоборот. Такой тест также является идеальным инструментом для оценки и предсказания, но по методу «от противного».

Коэффициент критериальной валидности, равный 0.00, говорит о том, что между результатами по тесту и по критерию не существует никакой связи. Тест с такой критериальной валидностью абсолютно бессмысленен. Его эффективность не превышает эффективности простого отгадывания.

Обычно, коэффициент валидности тестов колеблется в пределах от 0.30 до 0.80, наиболее часто он равен 0.40-0.60. Например, критериальная валидность наиболее авторитетного в системе образования США теста DAT находится именно в таком диапазоне. Таким образом, критериальную валидность, равную 0.40-0.60, можно считать своего рода стандартом.

Коэффициент валидности, равный, например, 0.47, говорит о том, что 47% индивидуальных различий результатов по тесту связаны с тем фактором, который данный тест измеряет, а 53% — со всеми другими. Таким образом, например, от 40 до 60% индивидуальных различий в успешности обучения школьников связаны с тем фактором, который измеряется DAT, или по другому – этот тест охватывает от 40 до 60% факторов, с которыми связаны различия между школьниками в успеваемости.

Существует несколько вариантов получения коэффициента критериальной валидности.

1. В первом случае результаты всех обследуемых, участвующих в валидизации, сопоставляются с данными по выбранному критерию и просто вычисляется коэффициент корреляции между ними.

Для измерения этого свойства теста вычисляют коэффициент корреляции (r) тестового результата с внешним критерием. В качестве критерия может служить любой независимый показатель, измеряющий ту же психологическую характеристику, что и валидизируемый тест.От выбора критерия зависят качественная и количественная оценка валидности, поэтому вопрос о выборе критерия является в этом виде валидности основным.

Условно выделяют три группы критериев:

а) экспертные; б) экспериментальные; в) «жизненные».

а) Экспертные критерии предполагают использовать экспертные оценки. Этому методу уделяется значительное внимание, в связи с низкой надёжностью и трудностью организации экспертиз, экспертные критерии валидности используются редко. При валидности тестов, предназначенных для школьников, в качестве экспертов обычно используются учителя, но их оценки в значительной степени подвержены искажениям (симпатиям и антипатиям, переносу отношений с родителей на ученика, с успеваемости на качества личности и т.п.)

б) Экспериментальные критерии предполагают использование результатов одновременно тестирования испытуемых другим тестом, предположительно измеряющим то же психическое свойство. Коэффициент корреляции между результатами двух независимых измерений называется эмпирической валидностью.Его величина зависит от степени совпадения содержания теста, сравнимости единиц измерения, характера выборок стандартизации, надёжности тестов. Поэтому максимальные коэффициенты эмпирической валидности имеют параллельные тесты, он равен коэффициенту надёжности около 1 (если бы были абсолютно надёжны параллельные формы, то эмпирическая валидность была равна 1, так как по другим критериям они идентичны).

в) Если к моменту проверки валидности теста подходящего экспериментального критерия нет, то в качестве него используются характеристики реального поведения, которые связаны с измеряемым психологическим свойством. Эти характеристики реального поведения называют «жизненными» критериями. Например, в качестве «жизненных» критериев для тестов интеллекта используют показатели успешности обучения, экстравертированности – успешность административной деятельности, тревожности – частоту заболеваний нервозом, технических способностей – по конечным результатам профессионального обучения и т.п. Однако успешность обучения, поведения и деятельности редко зависят только от одного – единственного свойства психики, а как правило, от комплекса психических свойств. Поэтому использование «жизненных» критериев преимущественно используется для валидизации тестов, таких, как MMPI, 16PF и др., представляющих собой многопрофильные батареи тестов. Валидность теста по отношению к «жизненному» критерию называют иногда практической валидностью.

Типы критериев валидности

Валидность теста — это один из показателей, который позволяет оценить адекватность и пригодность методики для изучения того или иного явления. Можно выделить четыре основных критерия, которые могут повлиять на нее:

критерий исполнителя (речь идет о квалификации и опыте исследователя);
субъективные критерии (отношение испытуемого к тому или иному явлению, что отражается на конечном результате теста);
физиологические критерии (состояние здоровья, усталость и прочие характеристики, которые могут оказать существенное влияние на конечный результат тестирования);
критерий случайностей (имеет место в определении вероятности наступления того или иного события).

Критерий валидности представляет собой независимый источник данных о том или ином явлении (психологическом свойстве), исследование которого проводится посредством тестирования. До тех пор, пока не будет проведена проверка полученных результатов на соответствие критерию, о валидности судить нельзя.

Психометрические свойства методик психодиагностики

Психометрической основой любой методики являются шкалы. Понятие «шкала» трактуется в широком и узком значении: в первом случае шкала – это конкретная методика, во втором случае – это измерительная шкала, фиксирующая исследуемые признаки. Каждому элементу методики соответствует определенный балл или индекс, который формирует выраженность того или иного психического явления.

Измерительные шкалы разделяют на:

Метрические: интервальные, шкалы отношений.
Неметрические: номинативные, порядковые.

Название шкалы	Пояснение, примеры
Номинативная (шкала наименований)	На основе общего свойства или символа относит наблюдаемое явление к соответствующему классу. Шкала наименований самая распространенная в исследовательских психодиагностических методиках. Эта шкала используется, например, в тест-опросниках. Отрицание или утверждение испытуемого сравнивается с ответами в ключе. Также номинативная шкала может предполагать выбор одного или нескольких признаков из предложенных.
Порядковая	Разделяет сумму признаков на элементы, исходя из принципа «больше – меньше». Таким образом, она расставляет результаты в порядке возрастания или убывания. Порядковая шкала используется в тесте цветового выбора. Испытуемому предлагается выбрать один из квадратов на белом фоне, после чего выбранная фигура откладывается в сторону, и процедура повторяется. Результат: расставленные по степени привлекательности для испытуемого цвета. Каждой фигуре присваивается свой порядковый номер.
Интервальная	Элементы упорядочены не только по принципу выраженности измеряемого признака, но и на основе распределения признаков по размеру, что выражается интервалами между числами, приписываемыми степени выраженности измеряемого признака. Интервальные шкалы часто используются при стандартизации первичных тестовых показателей.
Отношений	Упорядочивает элементы по числовому значению, соблюдая между ними пропорциональность. Объекты разделены согласно измеряемому свойству. Числа, которые приравниваются к классам объектов, пропорциональны степени выраженности исследуемых свойств. Используется, например, при определении порогов чувствительности анализаторов. Часто применяется в психофизике.

После определения используемой шкалы для формирования теста, нужно определить коэффициент психометрических свойств методики.

К ним относятся:

Репрезентативность.
Стандартность.
Надежность.
Валидность.

Репрезентативность – это свойство, которое распространяется на выборку испытуемых. Оно может характеризовать как популяцию, так и генеральную совокупность. Репрезентативность имеет два параметра: качественный и количественный. Качественный параметр характеризует выбор испытуемых и способы построения выборки.

Количественный параметр – это объем выборки, выраженный в числах.

В психологических исследованиях это свойство определяет, насколько возможно обобщение результатов. Например, изучаются отношения мужчин и женщин. Если взять испытуемых разного возраста (школьников, студентов, взрослых, пенсионеров), то репрезентативность такой выборки будет низкой.

Однако, если испытуемые будут примерно одного возраста и сферы деятельности (только школьники, студенты, взрослые, пенсионеры обоих полов), то репрезентативность будет высокой. В психодиагностике репрезентативность используется для того, чтобы обозначить возможность применения методики на всю генеральную совокупность.

Стандартность – это упрощение методики, приведение частей ПДМ и процедуры применения к единым нормам. ПДМ должны быть универсальны и применимы разными специалистами в различных ситуациях. При отклонении структуры ПДМ от стандартов, её результаты будет невозможно сравнить с результатами других исследований. Нестандартизованные методики используются в основном для научных исследований.

С их помощью изучаются новые психические явления. Но такой методикой нельзя пользоваться в психодиагностических целях. Ещё один важный параметр ПДМ – надежность. Она характеризует точность, устойчивость и стабильность результатов, полученных с помощью конкретной методики.

Высокая надежность методики исключает действие посторонних факторов и существенно приближает эксперимент к «чистому». Критерий надежности и валидности – это разные понятия. Причем надежность трактуется шире, чем валидность: надежность > валидность.

Например, в выходной день человек получает возможность провести время либо на рыбалке, либо на охоте. Если он решает идти на охоту, но берёт с собой удочку, то его выбор не будет валиден. Однако, если человек пошел на охоту с ружьем, и оно дало осечку, значит, выбранный метод ненадежен.

Основные требования к критериям

Внешние критерии, которые влияют на показатель валидности теста, должны отвечать следующим основным требованиям:

соответствие именно той сфере, в которой проводится исследование, релевантность, а также смысловая связь с диагностической моделью;
отсутствие каких-либо помех или резких разрывов в выборке (суть состоит в том, что все участники эксперимента должны соответствовать заранее установленным параметрам и находиться в схожих условиях);
исследуемый параметр должен быть надежным, постоянным и не подвергаться резким перепадам.

[Править]См. Также Дискриминативность

Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.

Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно «максимального» или «минимального» результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.

Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.

Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя граница «отсечения групп» составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности. Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из «высокопродуктивной» и «низкопродуктивной» групп.

Психометрический парадокс — явление, возникающее при использовании опросников личностных; его сущность состоит в том, что вопросы (утверждения), имеющие высокий показатель дискриминативности (см. Дискриминативность заданий теста), являются неустойчивыми по отношению к повторяемости результата, и, наоборот, стабильность ответа часто отмечается у тех вопросов, которые обладают низкой дискриминативностью.

П. Айзенбергом (1941) было показано, что вопросы, которые позволяют отличать больных неврозом от других больных или здоровых, являются ненадежными; иначе говоря, мала вероятность получения того же самого ответа при повторном обследовании. В то же время с помощью вопросов, определяемых как надежные, различение изучаемых групп не достигалось или было неудовлетворительным. Позднее изучению этого явления, получившего название П. п., были посвящены работы Л. Голдберга (1963) и М. Новаковской (1975).

П. п. не может быть объяснен без психологического анализа процесса формирования ответов на вопросы личностных опросников. Согласно М. Новаковской, вопросы, оставаясь формально неизменными, подвержены семантическим (психологическим) преобразованиям как в плане интериндивидуальном, так и интра-индивидуальном. Интериндивидуальная изменчивость обусловлена двумя причинами: различия в выраженности измеряемой черты (свойства) у разных обследуемых и различия в понимании значения вопросов. Интраиндивидуальная изменчивость обусловлена вариабельностью значения, трудностью принятия решения об ответе и флуктуацией выраженности черты (последний источник изменчивости можно не учитывать, если интервал между повторными исследованиями невелик).

Для психологической интерпретации П. п. М. Новаковская предлагает различать три детерминанты ответов: выраженность черты у обследуемого; значение, придаваемое вопросу; степень легкости принятия решения об ответе. Она подчеркивает также необходимость отличать вопросы однозначные от многозначных, которые в известном смысле могут быть Уподоблены проективным стимулам.

М. Новаковская предлагает различать два вида П. п. — типа Л и типа В — и исходить из следующих гипотез их возникновения. Парадокс типа Л возникает при вопросах, поддающихся различному истолкованию (многозначных), а также в том случае, когда трудно принять решение об ответе. Такие вопросы имеют высокий показатель дискриминативности при значительной вариабельности ответа. Парадокс типа В возникает при однозначных вопросах, для которых легко подобрать ответ. Сюда же должны быть отнесены т. н. односторонние диагностические вопросы или те вопросы, для которых только один тип ответа является диагностически значимым. Подобные вопросы характеризуются слабой дискриминативностью и незначительно выраженной вариабельностью.

Необходимо учитывать П. п. при конструировании (адаптации) личностных опросников.

Примеры похожих учебных работ

18.Характеристика малоформализованных методов: наблюдение, беседа, интервью, анализ …

… по методу обозначающему: числовой метод графический метод шкала прилагательных графический метод дополняет числовой метод: чертят … Определена жестко заданная тактика проведения интервью, вопросы задаются в строго определенной последовательности. …

12.Понятие валидности, надежности, достоверности в психодиагностике

… тест признавался валидным. Таким образом, эмпирические методы обоснования валидности … значения. Это значение колеблется в определённых границах. Колебание данного значения … последовательность теста внутри себя, меру адекватности подбора вопросов. …

Критерии валидности, применяемые к качественным исследованиям.

… вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста … пор придают меньшее значение гуманитарному знанию …

Психодиагностические методы в психологии

… вариант дифференциации методов: Организационные методы (в эту группу входят метод наблюдения и метод эксперимента) Вспомогательные методы (сюда относят метод экспертных оценок, различные методы опроса, метод самонаблюдения, метод тестов, анализ …

Способы установления валидности

Проверка валидности тестов может осуществляться несколькими способами.

Оценка очевидной валидности подразумевает проверку соответствия теста его предназначению.

Оценка содержательной валидности — это проверка методики на наличие в ней всех составляющих, необходимых для всестороннего исследования того или иного явления или фактора.

Оценка конструктивной валидности проводится в том случае, когда для изучения определенного сложного показателя проводится ряд экспериментов. Она включает в себя:

конвергентную валидизацию — проверку взаимосвязи оценок, полученных с использованием различных комплексных методик;
дивергентную валидизацию, которая состоит в том, чтобы методика не подразумевала оценки посторонних показателей, не касающихся основного исследования.

Оценка прогностической валидности подразумевает установление возможности предвидения перспективного колебания изучаемого показателя.

[Править]Значение Кронбаха

Альфа Кронбаха в целом будет возрастать по мере увеличения взаимных корреляций переменных, и, поэтому, считается маркёром внутренней согласованности оценки достоверности результатов тестов. Так как максимальное взаимные корреляции между переменными по всем пунктам присутствуют, если измеряется одно и то же, альфа Кронбаха косвенно указывает на степень того, насколько все пункты измеряют одно и то же. Таким образом, альфа наиболее целесообразно использовать, когда все пункты направлены на измерение одного и того же явления, свойства, феномена. Однако, следует заметить, что высокое значение коэффициента указывает на наличие общего основания у набора вопросов, но не говорит о том, что за ними стоит один единственный фактор — одномерность шкалы следует подтверждать дополнительными методами Когда измеряют гетерогенную структуру, альфа Кронбаха часто будет низким. Таким образом, альфа не подходит для оценки надежности умышленно гетерогенной инструментов (например, для оригинала MMPI, в данном случае имеет смысл проводить отдельные измерения для каждой шкалы).

Считается, что профессионально разработанные тесты должны иметь внутреннюю согласованность на уровне не менее 0.90.

Коэффициент альфа может применяться и для решения другого типа задач. Так, с его помощью можно измерять степень согласованности экспертов, оценивающих тот или иной объект, стабильность данных при многократных измерениях и т.д

Выводы

Валидность и надежность тестов — это взаимодополняемые показатели, которые дают наиболее полную оценку справедливости и значимости результатов исследований. Зачастую они определяются одновременно.

Надежность показывает, насколько результатам теста можно доверять. Имеется в виду их постоянство при каждом повторном проведении аналогичного испытания с одними и теми же участниками. Низкая степень надежности может говорить о намеренном искажении или безответственном подходе.

Понятие валидности теста связано с качественной стороной эксперимента. Речь идет о том, соответствует ли выбранный инструмент оценке того или иного психологического явления. Здесь могут быть применены как качественные показатели (теоретическая оценка), так и количественные (расчет соответствующих коэффициентов).

Валидность методики это

Валидность методики определяет соответствие того, что изучается данной методикой, тому для изучения чего именно она предназначена.

Например, если психологическая методика, которая основана на осведомленном самоотчете, назначена для исследования некого качества личности, такого качества, которое не может быть верно, оцененным самим человеком, то такая методика не будет валидной.

В большинстве случаев ответы, которые дает испытуемый на вопросы о наличии или отсутствии развитости в нем этого качества, может выражать то, как сам испытуемый воспринимает себя, или каким бы ему хотелось быть в глазах других людей.

Валидность также является основным требованием к психологической методике изучения психологических конструктов. Существует масса разных видов данного критерия, и нет пока единственного мнения о том, как правильно назвать эти виды и неизвестно каким именно видам методика обязана соответствовать. Если же методика оказывается невалидной внешне или внутренне, не рекомендуется ее использовать. Существуют два подхода к валидизации методики.

Теоретический подход выявляется в том, чтобы показать насколько действительно методика измеряет именно то качество, которое, как придумал исследователь, и обязана измерять. Это доказывается через составление с родственными показателями и теми, где связей не могло бы быть. Поэтому для подтверждения теоретического валидного критерия нужно определить степень связей с родственной методикой, имеется в виду конвергентный критерий и отсутствие такой связи с методиками, которые имеют иную теоретическую базу (дискриминантная валидность).

Оценивание валидности методики может быть количественной или качественной. За прагматическим подходом оценивается эффективность и практическая значимость методики, и для ее проведения используется независимый критерий извне, как показатель встречаемости данного качества в повседневной жизни. Таким критерием, например, может быть успеваемость (для методик на достижения, тестов на интеллект), субъективные оценки (для личностных методик), специфические способности, рисование, моделирование (для методик специальных особенностей).

Для доказательства валидности внешних критериев, выделяется четыре типа: критерии исполнения – это критерии такие, как количество выполненных заданий, время, потраченное на обучение; субъективные критерии получают вместе с опросниками, интервью или анкетами; физиологические – частота пульса, давление, физические симптомы; критерии случайности – используются, когда к цели имеет касательство или влияние определенного случая или обстоятельств.

При выборе методики исследования имеет теоретическое и практическое значение определение охвата изучаемых характеристик, как важной составляющей валидности. Информация, которая содержится в названии методики практически всегда не является достаточной для суждения об области ее применения. Это просто имя методики, но под ним всегда кроется еще много чего. Хорошим примером будет методика корректурной пробы. Здесь в сферу изучаемых свойств включаются концентрация внимания, устойчивость и психомоторная скорость процессов. Такая методика дает оценку выраженности этих качеств в личности, хорошо соотноситься со значениями, полученными из других методов и обладает хорошей валидностью. Вместе с тем полученные в результате проведения корректурной пробы значения подвержены большему влиянию других факторов, относительно которых методика будет неспецифичной. Если применить корректурную пробу, чтобы измерить их, то валидность будет невысокая. Выходит,что определяя область применения методики, валидный критерий отображает уровень обоснованности результатов исследования. При небольшом количестве сопровождающих факторов, которые имеют влияние на результаты, достоверность оценок, полученных в методике будет выше. Еще достоверность результатов определяется с помощью набора измеряемых свойств, их важностью при осуществлении диагностики сложной деятельности, существенностью отображения в материале методики предмета измерения. Например, для удовлетворения требований достоверности и надежности, методика, назначенная на профотбор, должна иметь анализ большого круга различных показателей, которые наиболее важные при достижении успеха в профессии.

Психологический тест и валидность

Психологический тест – задание, сформулированное на основе определённых стандартов, результатом которого является получение данных о психофизиологических показателях состояния человека и свойств его личности, навыков, знаний и способностей.

Валидность определяет качество теста, то есть степень соответствия исследуемого свойства психики или поведения к тесту, при помощи которого они определяются. Качественные тесты имеют показатель валидности восемьдесят процентов. Важно учитывать состав испытуемого материала, его характеристики: от этого тест может быть достоверным или патологически невалидным.

Валидность теста очень важна потому, что она определяет собственно тест как измерительный инструмент и даёт возможность считать его пригодным для применения в обычной практике.

Угрожающие факторы

Валидность в психологии – это свойство качественной методики, но могут возникнуть факторы, искажающие теоретически правильно построенную ПДМ. Побочные факторы сильнее проявляются в работе с плохо организованными стимулами или новыми, неясными ранее для испытуемого задачами.

Трудность составляет изучение неуравновешенных и неуверенных в себе индивидов. Главными угрозами высокой валидности являются особые характеристики тестируемого и ситуационные явления.

Достоверность результатов снижают:

ошибки испытуемого;
ошибки специалиста;
ошибки, вызванные условиями или неправильного проведения диагностики.

Если диагностика не предполагает обязательного нахождения специалиста в помещении, то его присутствие может исказить результаты исследования. Комментарии и интерпретация тестовых задания тоже снижают достоверность полученных данных.

Испытуемый, заинтересованный в намеренных погрешностях тестирования или представлении себя в выгодном свете перед руководством, искажает результаты диагностики. Не меньшую опасность представляет психофизиологическое состояние тестируемого. Например, индивид сильно голоден, утомлен или страдает от мигрени.

Посторонний шум, голос, возможность обсуждать тестовые задания с другими испытуемыми, снижают точность результатов. Это относится к ошибкам условий и процедуры диагностики.