Показывает в какой мере психическое свойство отражено в методике
Валидность
Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.
Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности.
Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.
1. Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»
2. Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.
3. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.
4. Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.
Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.
Надежность
О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:
1. При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.
2. Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.
3. При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.
Существуют различные методы оценки надежности:
Ретестовый метод — повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.
ТЕСТ ИНТЕРВАЛ РЕТЕСТ
За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.
Надежность взаимозаменяемых форм — повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.
ТЕСТ А ИНТЕРВАЛ ТЕСТ А’
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.
Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.
Требования к построению параллельных форм:
параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;
должны содержать одинаковое количество заданий со сходной степенью трудности;
эквивалентность параллельных форм необходимо проверять ретестовым методом.
Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.
Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно — остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.
Со стороны взаимодействия испытуемого с тестом, причины недостоверности результатов могут быть следующие:
1. у респондента может не быть четкого представления о том, о чем его спрашивают;
2. на респондента влияет фактор социальной желательности, то есть респондент пытается представить себя в наивыгодном свете, отвечает, ориентируясь на общепринятые нормы. Во избежании влияния такого фактора в опросники вводятся шкалы лжи;
3. респондент не способен оценить те черты, о которых его спрашивают;
4. позиционный стиль ответов, то есть через некоторое время испытуемый начинает отвечать в одном ключе, поймав какую-то нить (например, «да, да, да…»). Чтобы этого не происходило, вводят прямые и обратные вопросы;
5. респондент отвечает случайным образом. Чтобы избежать случайных ответов, вводят дублирующие друг друга вопросы (очень близкие синонимы).
Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности . Например, методика «Кольца Ландольта» предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью «Колец Ландольта», вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.
Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.
Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»
Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.
Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.
Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.
Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.
4. Надежность
О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:
При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.
Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры .
При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.
Существуют различные методы оценки надежности:
Ретестовый метод – повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.
ТЕСТ
ИНТЕРВАЛ
РЕТЕСТ
За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.
Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.
ТЕСТ А
ИНТЕРВАЛ
ТЕСТ А’
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.
Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.
Требования к построению параллельных форм:
параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;
должны содержать одинаковое количество заданий со сходной степенью трудности;
эквивалентность параллельных форм необходимо проверять ретестовым методом.
Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста .
Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.
5. Виды психологических тестов
Тесты интеллекта
Понятие интеллекта. Проблемы тестирования интеллекта. [14] Тесты интеллекта, или тесты общих способностей, предназначены для измерения уровня интеллектуального развития человека. Понятие интеллекта еще со времен первых интеллектуальных тестов претерпевало различные изменения со стороны подходов к тестированию интеллекта как психической реальности. Еще в 20-х гг. возникла кризисная ситуация в психологии интеллекта. Встал вопрос о существовании термина «интеллект» в статусе психологической категории.
Интеллект традиционно исследовался в рамках двух основных направлений: тестологического и экспериментально-психологического. Суть тестологического направления заключается в том, что под интеллектом понимается то, что измеряют тесты интеллекта, а именно совокупность познавательных способностей.
Кризис в этом направлении заключается в том, что понятие »интеллект»’ было подменено понятием «способность к учению». Неотестологические теории интеллекта признают IQ-концепцию, где за IQ стоят внутренние когнитивные процессы: восприятие, память, мышление и т.д. (см. ниже).
Экспериментально-психологическое направление как реакция на неконструктивность тестологических теорий представлено теориями Ж.Пиаже (идея генетического объяснения интеллекта на основе учета закономерностей его онтогенетического развития) и Л.С.Выготского (влияние социально-культурных факторов на развитие интеллекта).
Кроме вышеназванных существует структурный подход к исследованию интеллекта (8) как пример отечественного исследования, направленного на изучение интеллекта как психической реальности.
Полученные с помощью тестов интеллекта результаты выражаются количественно в виде коэффициента интеллекта (IQ).
Итак, под интеллектом как объектом измерения в психодиагностике понимается структура познавательных свойств человека, возникающая на основе наследственно закрепленных задатков, формирующаяся во взаимодействии с ними.
Понятие IQ [15] Тесты интеллекта состоят из нескольких субтестов, направленных на измерение интеллектуальных функций (логического мышления, смысловой и ассоциативной памяти, др.). Например, в Гамбургской версии теста Векслера для исследования интеллекта у детей (версия 1983 года), когда весь тест проведен, его результаты представляются в виде 11-балльных значений, по одному значению на каждый субтест (11 субтестов). Количественная информация по тесту представляется в виде профиля результатов, состоящего из результатов по каждому субтесту, выраженных в балльных значениях. Мерой оценки теста в целом может быть сумма этих значений или среднее значение данных всех субтестов. Как правило, тестологи ограничиваются тем, что представляют результаты субтестов в виде баллов. Векслер предложил общий результат представить в виде значения IQ.
IQ – количественный показатель интеллектуального развития. Он высчитывается по формуле:
умственный возраст
IQ = –———————————— *100
хронологический возраст
По мере развития математико-статистического аппарата интеллектуальных тестов количественный показатель IQ был заменен стандартным IQ показателем. Векслер первым вводит шкалу стандартных IQ.
Валидность как свойство психологического текста
Валидность методики означает соответствие ее тому, что с ее помощью изучается. «Валидность теста — важнейший критерий его доброкачественности, характеризующий точность измерения исследуемого свойства, а также насколько тест отражает то, что он должен оценивать; насколько отдельные составляющие его пробы адекватны исследуемой проблеме». Иными словами, валидность означает соответствие того, что измеряется, тому, что предполагается измерить. Рассмотрим подробнее.
Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.
Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности. Например, методика «Кольца Ландольта» предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью «Колец Ландольта», вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.
Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.
1) Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»
2) Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.
3) Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.
4) Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.
Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности (см. общее значение понятия валидности выше), так и практической.
Требование надежности
Требование надежности — прежде всего требование внутренней согласованности частей методики и воспроизводимости результатов при повторном исследовании. «Надежность свидетельствует о свойстве метода приводить к одним и тем же результатам при использовании этого метода разными людьми или при повторном применении данного метода одним и тем же человеком с целью оценивания одного и того же психологического свойства».
О высокой надежности метода говорят в том случае, когда метод точно измеряет то свойство, для измерения которого он предназначен. В качестве критериев точности можно отметить следующие:
1) При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.
2) Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования.
В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.
3) При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.
Существуют различные методы оценки надежности:
Ретестовый метод — повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.
За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.
Надежность взаимозаменяемых форм — повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.
Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм.
Требования к построению параллельных форм:
параллельные формы должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;
должны содержать одинаковое количество заданий со сходной степенью трудности;
эквивалентность параллельных форм необходимо проверять ретестовым методом.
Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).
За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.
Валидность и надежность. Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно — остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.
Дискриминативность
Дискриминативность — это способность отдельных заданий теста и теста в целом дифференцировать обследуемых относительно »максимального» и «минимального» результатов теста. Дискриминативность измеряется показателем дельта Фергюсона и принимает максимальное значение при равномерном (прямоугольном) распределении показателей (d=1).
Точность информации измеряется тем, насколько дробной шкалой являются применяемые метрики, или, другими словами, насколько чувствителен инструмент. Таким образом, это степень приближения результатов измерения к истинному значению измеряемой величины.
Конечно, каждый исследователь должен стремиться получить наиболее точные данные. Однако создание инструмента, обладающего нужной степенью точности, в ряде случаев достаточно трудное дело. Всегда необходимо решить, какая мера точности является допустимой. При определении этой меры исследователь пользуется всем арсеналом теоретических представлений об объекте.
При помощи тщательного конструирования теста можно обеспечить соответствующий уровень дискриминативности, а это именно то, в чем тесты значительно выигрывают по сравнению с другими формами испытаний. В общем, было обнаружено, что в оценке может быть использовано около девяти градаций, а в опросах, вероятно, наиболее эффективно использовать 3 (или пять) градации: ниже среднего, средний уровень и выше среднего. Подобно этому, шкалы ранжирования редко содержат более девяти градаций. Это означает, что испытуемые разбиваются в лучшем случае на девять групп.