Опытно-экспериментальная работа

Тебе дано бесстрастной мерой

Измерить все, что видишь ты.
(А. Блок. «Возмездие»)

Опытно-экспериментальная работа составляет значительную часть большинства диссертационных педагогических исследований. Всегда ли она обязательна? Она не предусматривается, естественно, в исследованиях по истории педагогики. Но в них проводится эмпирическое исследование «на поле» исторических фактов, публикаций, архивных материалов и т.п. То же относится к исследованиям по методологии педагогики, отчасти по сравнительной педагогике. Иногда исследование может быть построено на обобщении педагогического опыта. Но в большинстве случаев необходимы опытная работа или эксперимент, или и то и другое вместе.

Можно посоветовать начинающему исследователю включаться в опытно-экспериментальную работу как можно раньше. Это не призыв «сломя голову» бросаться экспериментировать неизвестно зачем, неизвестно что и неизвестно как. Но прежде, чем Вы организуете и проведете именно ту опытную работу и именно те эксперименты, которые подтвердят или опровергнут Вашу гипотезу, Вам необходимо приобрести первоначальные умения планирования и организации опытно-экспериментальной работы, анализа и обобщения ее результатов. Кроме того, этот предварительный этап позволит Вам подобрать нужные педагогические, методические подходы, отработать инструментарий, подготовить педагогов – участников основного этапа опытно-экспериментальной работы.

Вопросы организации изучения и обобщения педагогического опыта, опытной работы и педагогического эксперимента достаточно подробно описаны в вышеупомянутых книгах В.И. Загвязинского,

А.А. Кыверялга и М.Н. Скаткина и других авторов, поэтому на них здесь мы останавливаться не будем. Кстати, объем и характер опытно-экспериментальной работы в педагогических кандидатских диссертациях обычно не вызывает существенных возражений. Сомнения и возражения чаще всего относятся к интерпретации ее результатов, применявшимся критериям оценки и методикам статистической обработки данных.

Интерпретируя результаты опытно-экспериментальной работы в кандидатской диссертации, необходимо иметь в виду одно существенное обстоятельство, связанное со спецификой педагогики. Личность человека, начиная с ребенка, формируется десятилетиями. В ее формировании участвуют десятки, сотни людей: родители, родственники, товарищи, все школьные учителя и т.д. Поэтому говорить о существенном влиянии тех или иных серьезных педагогических инноваций, например, какой-либо дидактической системы на воспитание и развитие учащихся, строго говоря, можно было бы, если бы они проверялись с I по XI класс в школе во всех предметах. И тогда, казалось бы, оценивать их эффективность.

Но и это не все. Выпускник школы в 17 лет – еще не окончательно сложившаяся личность. Следовало бы еще получить отдаленные результаты организованных педагогических воздействий – лет так через десять. Но с тех пор, когда был бы начат такой эксперимент и когда он был бы окончен, изменятся многие социально-исторические условия жизни общества, изменится социальный заказ школе, и полученные результаты уже вряд ли кому-то будут нужны. Мы специально «сконструировали» такой крайний, предельный вариант, чтобы подчеркнуть определенную условность результатов всех педагогических экспериментов в силу особой специфики педагогической науки как, в некотором смысле, науки о будущем.

Кроме того, условность результатов опытно-экспериментальной работы в педагогических исследованиях вызывается еще и тем, что как бы ни выравнивались начальные условия в контрольных и экспериментальных группах учащихся, как бы ни подбирался «одинаковый» состав педагогов, учащихся, допустим, в эксперименте, педагогический процесс все равно будет иметь личностную обусловленность. Учитель или сам исследователь, преподающий в контрольном и экспериментальном классе, как бы ни стремился быть объективным, все равно будет иметь внутренние, часто неосознаваемые симпатии или антипатии как к тому или иному методу обучения, так и к тому или иному ученическому классу. Ведь каждый школьный класс имеет свое неповторимое индивидуальное «лицо» – все, кто работал в школе, в каком-либо другом учебном заведении, это хорошо знают. Поэтому для получения действительно достоверных результатов исследования, строго говоря, необходимо привлечение огромных контингентов учащихся и педагогов.

У аспиранта, соискателя есть всего 3-4 года для того, чтобы провести и закончить диссертационное исследование и, как правило, весьма ограниченные возможности привлечения широкой педагогической общественности к опытно-экспериментальной работе по теме своей диссертации. Естественно, все это понимают. Но диссертанту надо быть предельно осторожным в интерпретации полученных результатов. Когда автор диссертации, проведя эксперимент по одному разделу курса физики, допустим, в X классе, утверждает, что за счет этого повысилась эффективность формирования у учащихся научного мировоззрения, или, в другом случае, после изучения всего трех тем специального предмета у учащихся ПТУ было сформировано умение самостоятельно определять стратегические цели своей трудовой деятельности – такие утверждения вызывают, по меньшей мере, недоумение. И уж совсем нелепым выглядит утверждение, которое встретил автор в одной диссертации о том, что после проведения эксперимента уровень общей культуры студентов повысился на 17% (?!).

Самый сложный и острый вопрос для любого педагогического опытно-экспериментального исследования: по каким критериям производится оценка педагогических явлений, процессов? Критерии эффективности важнейшая проблема вообще в любой деятельности. Из-за ошибочного выбора критериев неоднократно происходили крушения целых социальных институтов и экономических систем. Часто приводится такой классический пример неправильного выбора критерия и вызванных этим последствий: в двадцатые годы нашего столетия пожарным, чтобы они вроде бы «меньше спали», была установлена заработная плата, пропорциональная числу потушенных за месяц пожаров. В итоге дело кончилось тем, что пожарные сами стали устраивать поджоги!

Поэтому, приступая к опытно-экспериментальной части своего исследования, диссертант должен самым серьезным образом подойти к подбору критериев оценки эффективности предполагаемых педагогических инноваций. Еще до проведения основного эксперимента, основного этапа опытной работы необходимо точно определить и проверить «работоспособность» критериев оценки эмпирических данных, по предварительным результатам прикинуть, какой контингент обучаемых, сколько классов, групп или школ необходимо будет включить в опытно-экспериментальную работу, чтобы получить статистически достоверные окончательные результаты.

Критерии должны удовлетворять, в частности, следующим признакам:

1.Критерии должны быть объективными (настолько, насколько это возможно в педагогике), позволять оценивать исследуемый признак однозначно, не допускать спорных оценок разными людьми.

2. Критерии должны быть адекватными, валидными, т.е. оценивать именно то, что экспериментатор хочет оценить. Сегодня, в связи с повсеместным распространением и утверждением педагогики развития личности это требование тем более актуально, что мы весьма посредственно умеем оценивать уровень знаний и умений учащихся, но практически совершенно не умеем оценивать уровень развития тех или иных способностей, их личностных качеств, а часто даже и не знаем, какие способности, качества надо оценивать. Особенно остро требование адекватности критериев стоит перед исследователями, занимающимися проблемами воспитания молодежи.

3. Критерии должны быть нейтральными по отношению к исследуемым явлением. Так, если в ходе эксперимента в одних классах, допустим, изучается какая-то новая тема, а в других – нет, то в качестве критерия сравнения нельзя брать знание учащимися материала этой темы.

Совокупность критериев с достаточной полнотой должна охватывать все существенные характеристики исследуемого явления, процесса. Для педагогики это требование особенно актуально, поскольку любая педагогическая, любая учебная деятельность – чрезвычайно сложный многоплановый процесс, который, как правило, нельзя оценить каким-то одним показателем. Для многих педагогических исследований этот момент оставляет желать лучшего. Так, в связи с введением аттестации учителей некоторые специалисты предлагают для учителей математики, физики разработать систему тестов, позволяющих оценивать их умение решать математические и физические задачи – это и будет якобы критерием квалификации учителя. Наверное, это должен быть лишь один из многих критериев, поскольку, помимо профессионально-математической подготовки, подготовки по физике учитель в том числе должен еще владеть и педагогическим, методическим мастерством, что в данном случае остается без внимания [9].

Рассмотрим теперь некоторые типичные ошибки в определении критериев оценки эффективности педагогических инноваций, предлагаемых в кандидатских диссертациях. Характерно, что грамотно и относительно строго построенные критерии в разных работах весьма разнообразны, диссертанты нередко проявляют большую изобретательность в этом деле. В то же время примерно в половине диссертационных работ встречаются практически одни и те же недостатки в выборе критериев оценки.

В частности, вполне очевидно, что оценить уровень сформированности тех или иных знаний, умений, каких-то качеств личности учащихся, студентов, слушателей можно лишь в процессе каких-либо определенных действий, совершаемых этими учащимися, студентами, слушателями, когда они могут активно проявить эти знания, умения, качества личности. Поэтому, например, такой «критерий», как результаты анкетирования студентов по окончании эксперимента «какая музыка вам нравится больше – эстрадная или классическая?» (изучалось воспитание эстетического вкуса у студентов) вряд ли может о чем-то говорить. Ведь студенты, зная, какой ответ от них хотят получить, могут просто «подыграть» преподавателю, экспериментатору. Или же «критерий» – ответы школьников на вопрос «Понравились ли занятия по основам информатики и вычислительной техники?». Ведь, во-первых, школьники опять же могут «подыграть» спрашивающему, а во-вторых, наверное, не всегда учение может и должно нравиться – так же, как горькое, но необходимое лекарство для больного.

Еще один типичный случай – изучалась подготовка студентов педагогического вуза к ведению профориентационной работы со школьниками – уровень готовности студентов к этой работе оценивался преподавателями кафедры педагогики по итогам теоретических занятий. Это оценка чисто умозрительная. Диссертант мог бы, наверное, попробовать оценить уровень такой готовности студентов хотя бы в процессе их педагогической практики в школе, которая предполагала бы какие-то их практические действия в этом направлении.

Или же «критерий» – ответ на вопрос, нередко обращаемый к учителям – участникам опытно-экспериментальной работы: «Надо ли применять такие занятия?». Положительный ответ на него позволяет, возможно, судить о готовности тех или иных разработок к внедрению в практику обучения и воспитания, но вряд ли может выступать основным критерием эффективности результатов научного исследования.

Наиболее часто встречаются случаи, когда диссертант в качестве критерия выделяет определенные уровни сформированности каких-то качеств личности учащихся (например, моральной ответственности, эстетической культуры, гуманистических отношений и т.п.), или уровни овладения какой-либо деятельностью (профессионального мастерства, управления педагогическим коллективом и т.д.). Как правило, выделяется три таких уровня: низкий, средний и высокий. Или выделяется большее число градаций, допустим: нулевой, низкий, средний, достаточный, высокий и т.д. Естественно, в силу сложности педагогических явлений, процессов выделение каких-то уровней в качестве критерия оценки вполне правомерно. Но беда в том, что выделяя чисто умозрительно, субъективно подобным образом уровни: низкий, средний, высокий, экспериментатор сам же произвольно и оценивает, относит учащихся к тому или иному уровню. Таким образом, ни о какой объективности критерия и достоверности результатов здесь речь идти не может.

Другое дело, если вводятся уровни качественно, принципиально отличные один от другого. Например, для оценки овладения учащимися знаниями нередко используются 4 уровня, предложенные В.П. Беспалько [10]: I уровень – знания – знакомства – узнавание объектов, явлений, процессов, свойств при повторном восприятии ранее усвоенной информации; II уровень – знания-копии – предполагает репродуктивное воспроизведение и применение полученной информации; III уровень предполагает продуктивные действия по применению полученной информации в процессе самостоятельной деятельности; IV уровень – знания -трансформации – предполагает возможность творческого применения полученной информации посредством самостоятельного конструирования собственной деятельности.

При грамотном построении оценочных процедур в этом случае знания каждого учащегося вполне однозначно могут быть отнесены к тому или иному определенному уровню. Или же, скажем, в диссертации Д.В. Татьянченко выделяются уровни управления уроком: стихийный, эмпирический, научный с четким обоснованием их качественных отличий. Тогда каждый урок того или иного учителя также относительно объективно может быть однозначно отнесен к определенному уровню. То же в диссертации Л.В. Коняхиной – выделены уровни восприятия и оценки художественных произведений писателей учащимися: констатации, комментария, рассуждения, обобщения (о качественных отличиях этих уровней можно судить по их названиям). Кроме того, как видим, во всех этих случаях оценка осуществляется не умозрительно, а по выполнению испытуемыми каких-то конкретных действий, а сами уровни логически выстраиваются по какому-то единому основанию классификации (см. ниже).

Критерии оценки педагогических явлений могут быть качественными и количественными. Они, естественно, дополняют друг друга. Исследователь, как правило, не ограничивается только качественными критериями и стремится использовать в целях объективности получаемых результатов какие-то количественные критерии оценки, используя тем самым определенные величины.

О величинах и шкалах их измерения стоит поговорить особо. Понятие «величина» определяется следующим образом: величина есть мера некоторого множества, относительно элементов которого имеют смысл утверждения – больше, меньше или равно. Естественно, не на всяких множествах может быть задана величина, мера. Например, утверждение, что ученик Иванов равен ученице Петровой (не путать с равноправием!) смысла не имеет, так как каждый человек – неповторимая личность. Но, например, утверждение, что рост, вес ученика Иванова больше (меньше, равен) роста, веса ученицы Петровой, имеет уже вполне определенный смысл; рост и вес здесь выступают величинами.

Величина задается той или иной шкалой измерений, оценки. Шкала измерения – то числовая система, в которой отношения между различными свойствами изучаемых явлений, процессов переведены в свойства того или иного числового ряда.

Шкалы измерений делятся на 4 основных класса [11]:

– шкала отношений – самая мощная шкала. Она позволяет оценивать, во сколько раз один измеряемый объект больше (меньше) другого объекта, принимаемого за эталон, единицу. Одновременно здесь возможно и сравнение: на сколько один объект больше (меньше) другого. Шкалами отношений измеряются почти все физические величины – время, линейные размеры, площади, объемы, сила тока, мощность и т.д. В педагогических измерениях шкала отношений будет иметь место, например, когда измеряется время выполнения того или иного задания, количество ошибок или количество правильно решенных задач. В последнем случае, естественно, можно говорить о том, что ученик Иванов правильно решил, к примеру, в два раза больше задач, чем ученик Петров, но утверждение, что знания ученика Иванова в два раза больше знаний ученика Петрова, будет неправомерным.

В отдельных случаях, в том числе в исследованиях по трудовому и профессиональному обучению, применяются оценки и в мерах физических величин – величина допускаемых ошибок в миллиметрах при, допустим, токарной обработке деталей, величина силы нажатия учащимся на слесарный инструмент в ньютонах (килограммах), величина электрической активности мышц в милливольтах и т.п. На шкалы отношений распространяется весь основной аппарат математической статистики. Здесь не возникает никаких проблем с обоснованием достоверности различий между контрольными и экспериментальными группами, классами;

– шкала интервалов – довольно редко применяющаяся и менее мощная. Примером ее является шкала температур по Цельсию, Реомюру или Фаренгейту. Шкала Цельсия, как известно, была установлена следующим образом: за ноль была принята точка замерзания воды, за 100 градусов точка ее кипения, и, соответственно, интервал температур между замерзанием и кипением воды поделен на 100 равных частей – градусов. Здесь уже утверждение, что температура в 30^оС в три раза больше, чем 10^оС, будет неверным. Справедливо говорить лишь об интервалах температур – температура в 30^оС на 20^оС больше, чем температура в 10^оС. В педагогических исследованиях, в частности, к таким шкалам интервалов можно условно отнести дихотомическую шкалу, которая содержит только два значения: да – нет, лучше – хуже, мальчик – девочка и т.д. В такой шкале имеется только один интервал деления (0-1 или 1-2, плюс-минус и т.д.), поэтому ее можно рассматривать как предельный случай интервальной равномерной шкалы, просто «равномерность» не с чем сравнивать;

– шкала порядка или шкала рангов – самая слабая шкала – шкала, относительно значений которой уже нельзя говорить ни о том, во сколько раз измеряемая величина одного объекта больше (меньше) другого, ни на сколько она больше (меньше). Такая шкала только упорядочивает расположение объектов, приписывая им те или иные ранги. Например, так построена шкала твердости минералов Мооса: взят набор 10 эталонных минералов для определения относительной твердости методом царапания. За 1 принят тальк, за 2 – гипс, за 3 – кальцит и так далее до 10 – алмаз. Любому минералу соответственно однозначно может быть приписана определенная твердость. Если исследуемый минерал, допустим, царапает кварц (7), но не царапает топаз (8) – соответственно его твердость будет равна 7. Аналогично построены шкалы силы ветра Бофорта и землетрясений Рихтера. Шкалы порядка широко используются в педагогике, психологии, медицине и других науках, не столь «точных», как, скажем, физика и химия. В частности, повсеместно распространенная шкала школьных отметок в баллах (пятибалльная, двенадцатибалльная и т.д.) условно может быть отнесена к шкале порядка. Именно условно, поскольку оценка знаний, умений в баллах обладает определенной субъективностью.

Если в шкале Мооса тому или иному минералу может быть однозначно приписано строго определенное значение твердости, то оценка знаний одного и того же учащегося у разных учителей (экзаменаторов) может быть разной. Разная «цена» отметок будет и в разных школах, в разных регионах – в зависимости от уровня предъявляемых требований и, соответственно, возможностей учителей школы, контингента учащихся и т.п. В школах некоторых стран применяется и другая оценка успеваемости учащихся (как итоговая): порядковое место, которое данный ученик занимает в данном классе (выпуске). Это тоже шкала порядка;

– шкала наименований. Она фактически уже не связана с понятием «величина» и используется только с целью отличить один объект от другого: номера автомобилей, телефонов, применение цифр или букв алфавита для перечисления пунктов в аконах, положениях и т.п.

Теперь, когда мы совершили небольшой экскурс в теорию измерений, рассмотрим вопрос о применении шкал измерений в педагогических исследованиях.

Наиболее распространенная мера педагогических оценок шкала оценки знаний и умений учащихся в баллах. Школьные оценки (отметки) – удобный аппарат для практики обучения, который выполняет не только оценивающие, но и определенные воспитательные функции стимулирования одних учащихся, определенного «наказания» других и т.д.

В педагогических исследованиях используются также и другие шкалы балльных оценок. Например, выделив какие-либо уровни сформированности у учащихся определенных качеств личности или овладения той или иной деятельностью, диссертант приписывает этим уровням соответствующие значения баллов: «1», «2», «3» и т.д., или «0», «1», «2»…, что принципиально безразлично. Но использование балльной шкалы оценок как критерия оценки для педагогических исследований нежелательно, хотя и не исключено. И дело здесь не только в известной необъективности отметок, о чем уже говорилось, но и в свойствах самой шкалы порядка. В той шкале ничего нельзя сказать о равномерности или неравномерности интервалов между соседними значениями оценок. Мы не вправе, к примеру, сказать о том, что знания учащегося, оцененные на «5»,настолько же отличаются от знаний, оцененных на «4», как знания, оцененные на «4», отличаются от знаний, оцененных на «3». С тем же успехом можно было бы приписывать баллам значения не «1», «2», «3», «4», «5», а, допустим «1», «10», «100», «1000», «10000». И поэтому совершенно неправильно использование так широко применяемой в диссертациях величины среднего балла (по классу, группе учащихся и т.д.), поскольку усреднение предполагает сложение значений величины, а операция суммы на таком множестве (шкале) не может быть корректно (грамотно) определена. Соответственно не могут быть определены и все остальные арифметические и алгебраические действия.

Поэтому, например, утверждение о том, что знания учащихся в экспериментальных классах в среднем на 0,5 балла выше, чем в контрольных, будет неправомочным, некорректным. Тем более некорректно утверждение, встреченное автором в одной из диссертаций, что эффективность экспериментальной методики в 2,6 раза выше контрольной (была произведена оценка по 10-балльной шкале).

Чтобы продемонстрировать, что может получиться с использованием «среднего» балла, приведем такой гипотетический пример. Пусть исследовалась сравнительная эффективность двух каких-либо методов обучения, А и В. В обеих группах учащихся – контрольной и экспериментальной – было по 80 человек. Оценки производились по двум шкалам – пятибалльной и десятибалльной (ведь количество баллов в шкале устанавливается произвольно). При этом будем предполагать, что оценки по десятибалльной шкале могут быть пересчитаны в оценки по шкале пятибалльной: оценки «10» и «9» будут отнесены к «5», «8» и «7» – к «4» и так далее. Пусть оценки по десятибалльной шкале распределились следующим образом (в числителе будет указано количество учащихся, получивших соответствующую оценку в группе, обучавшейся методом А, в знаменателе – методом В): «10»20/0; «9»0/30; «8»30/0; «7»0/30; «6»20/0; «5»0/30; «4»10/0; оценки «3», «2», «1» не получил никто. Соответственно «средний балл» составит 7,50 (метод А) и 7,25 (метод В). Казалось бы, можно сделать вывод, что метод А лучше метода В. Соответственно оценки по пятибалльной шкале, в том же порядке: «5»20/30; «4»30/30; «3»20/20; «2»10/0; «1»0/0.

«Средний балл» в этом случае составит 3,750 в группе, обучавшейся методом А, и 4,125 в группе, обучавшейся методом В. Таким образом мы получили как бы противоположный «результат» – метод В лучше метода А.

Заметим, что этот «парадокс» никак не связан со статистической достоверностью различий – он будет иметь место и при очень больших выборках данных (числе учащихся). Просто это свойство слабой шкалы измерений. Сказанное будет относиться и к любым другим критериям оценки, использующим шкалу порядка.

В принципе, шкалу балльных оценок так же, как и другие шкалы порядка, можно использовать в педагогических исследованиях, если Вы убеждены в объективности выставляемых оценок. Но в этом случае необходимо использовать специальные непараметрические критерии различий, например критерий знаков. (О статистических критериях достоверности различий мы поговорим немного ниже.) Но эти критерии слабые и для установления достоверных различий необходимо получение значительно больших массивов данных.

По этим соображениям целесообразно использовать такие способы оценки, которые позволяют применить шкалу отношений или шкалу интервалов, а не шкалу порядка. Например, использовать тесты – серии коротко и точно сформулированных вопросов, заданий, на которые учащийся должен дать краткие и однозначные ответы, в правильности (или неправильности) которых нельзя сомневаться. Точно так же могут быть построены письменные контрольные работы, результаты обработки анкет (процент учащихся, давших положительные ответы на тот или иной вопрос) и т.д.

Необходимо сделать еще одно предупреждение об использовании дихотомической шкалы (т.е. шкалы, имеющей всего 2 значения: да-нет, 0 и т.д.), а также любых дискретных шкал с ограниченным числом градаций (трихотомических и т.д.). Их можно успешно использовать для установления различий в результатах каких-либо педагогических воздействий в диагностических, констатирующих, «срезовых» целях. Но если Вы исследуете динамику развития какого-то педагогического процесса, например, процесса становления у учащихся того или иного навыка, то такие шкалы в этом случае принципиально не годятся, так как они существенно искажают динамику процесса. К примеру, на так называемых кривых обучения – графиках, показывающих изменение того или иного параметра в зависимости от времени обучения, появляются своеобразные ступени, «этапы», которых нет в действительности, при использовании шкалы отношений, выраженной в мерах физических величин (время и т.п.) [12]. По крайней мере, для изучения динамики развития каких-то педагогических процессов во времени необходимо использовать дискретные шкалы измерения с достаточно большим числом градаций.

О применении статистических методов обработки результатов исследования. В большинстве педагогических исследований, как правило, применение методов математической статистики бывает вызвано необходимостью установления достоверности различий между результатами обучения, каких-то воспитательных воздействий в контрольных и экспериментальных группах, классах и т.п. Причем нередко аспиранты, соискатели заимствуют друг у друга используемые статистические критерии достоверности различий, не ориентируясь, какой критерий можно и нужно использовать в том или ином случае В оправдание этому следует сказать, что в большинстве пособий по математической статистике соответствующие разделы написаны настолько нечетко и сложно, что разобраться в них непрофессиональному статистику довольно-таки трудно. Поэтому мы здесь приведем следующий «рецепт» с учетом данной выше информации о шкалах измерений:

1. Если использована шкала отношений или интервалов, если применяются точно и объективно измеряемые оценки, то для проверки статистической достоверности дифференциации (разности) двух средних показателей (среднее значение по одной и по другой группе) применяются t-критерий Стьюдента или F-критерий Фишера. При этом необходимо убедиться в том, что распределение близко к нормальному (распределению Гаусса). В этом можно убедиться, сопоставив значения среднего, моды и медианы. Если среднее, мода и медиана приблизительно совпадают, то распределение можно считать нормальным и можно применять t или F критерии.

2. Если при использовании шкалы отношений данные выборок распределены не по нормальному, а какому-либо иному закону распределения, или в тех случаях, когда нет уверенности в распределении данных по нормальному закону, применяется менее чувствительный Χметод χ² хи-квадрат метод).

3. Если была использована шкала порядка, то, строго говоря, могут быть использованы только непараметрические критерии: критерий знаков, критерий Уилкоксона-Мана-Уитни, Колмогорова-Смирнова и другие. Но по сравнению с F, t критериями, методом χ² эти критерии очень малочувствительны, для установления достоверности различий по ним необходимы большие объемы выборок.

Соответствующие формулы и таблицы для оценки достоверности различий достаточно просты. Они приводятся во всех пособиях по математической статистике. Там же, также достаточно просто сформулированы правила, формулы вычисления среднего, моды и медианы распределения, дисперсии, о нем говорилось выше. Более того, сейчас широко распространены компьютерные программы – «статистика» и др., которые выполняют эти вычисления автоматически – в них надо лишь подбавить имеющиеся экспериментальные данные. Обычно в педагогических исследованиях принимается достаточным 95% уровень достоверности различий.

О векторных («комплексных») оценках. Нередко встречаются случаи, когда какое-либо изучаемое явление, процесс характеризуется несколькими независимыми величинами – параметрами, показателями. В таких случаях часто возникает вопрос о возможности однозначной оценки этого явления, процесса или изучаемых их свойств одной величиной – «комплексной» оценкой или, в математическом смысле, некоторым вектором, составными компонентами которого будут входить все отдельные параметры. Так, во многих спортивных состязаниях победитель выявляется по сумме очков, баллов, набранных на отдельных этапах состязания или в отдельных играх. Или же другой пример из образовательной практики – когда категория учебного заведения для установления заработной платы его руководителей по Единой тарифной сетке устанавливается по сумме баллов, которые выставляются отдельно: по числу учащихся, числу учителей, наличию спортивных сооружений, мастерских и т.д.

На практике такие векторные оценки встречаются довольно часто и, очевидно, без них не обойтись, хотя способы их определения нередко и вызывают множество недоуменных вопросов. Но в любом случае такие векторные оценки, применяемые в повседневной жизни, являются либо результатом определенных общественных соглашений, которые признаются всеми участниками, либо установлены каким-либо нормативным актом определенного директивного органа – министерства, ведомства и т.д. и в силу этого также признаются всеми заинтересованными лицами.

Другое дело – применение таких «комплексных», векторных оценок в научном исследовании. Здесь сразу на первое место встает вопрос о научной, в том числе математической строгости применяемой оценки. В частности, не вызывает сомнений возможность использования такой векторной оценки, как суммарные затраты времени на выполнение учащимися отдельных заданий, или суммарное количество ошибок, допущенных учащимися при выполнении отдельных, относительно однородных заданий. Здесь суммируются однородные величины, заданные шкалами отношений. Но как только начинают суммироваться баллы, выставляемые разным учащимся или одному и тому же учащемуся за выполнение, допустим, разных заданий – исследование сразу выходит за рамки научной строгости. Как уже говорилось, операция суммы для шкалы рангов не определяется. Если 5 + 2 = 4 + 3, то «5» и «2» балла – это не одно и то же, что «4» и «3» балла!

Между тем суммирование баллов довольно часто встречается в диссертациях по педагогике. Так, в одной работе диссертант для оценки деятельности учителей использовал большое количество показателей, оцениваемых по пятибалльной шкале:

– структура знаний учителя (общенаучные, специальные);

– педагогические умения (проективные, конструктивные, организаторские, коммуникативные, гностические);

– нравственно-психологическая направленность педагога (внимательность к людям, справедливость, гуманизм, увлеченность делом, ответственность, самоорганизованность);

– общая одаренность (качества ума, качества речи, качества воли, характера, эмоциональные и другие качества личности);

– и так далее.

Общая же оценка учителю в этой работе давалась по сумме набранных баллов. Но в данном случае диссертант должен был бы задаться большой серией вопросов. Во-первых, любой учитель – личность, он осуществляет сложнейшую деятельность – насколько правомерно оценивать его однозначно каким-то числом баллов и утверждать, что учитель Иванов, допустим, хуже учителя Петрова на 5 баллов?! Во-вторых, насколько выделенные качества равнозначны, что к примеру специальные знания «стоят» сколько же, сколько гуманизм?! И так далее, эту череду недоуменных вопросов можно было бы продолжать долго. И если бы диссертант над ними задумался, вряд ли бы он так легко вводил подобные «оценки».

В педагогических диссертациях, к сожалению, встречаются и другие, самые разнообразные неудачные попытки введения векторных оценок, вплоть до полных курьезов. Так, для оценки эффективности деловой игры была использована следующая «формула»:

Р = 50 – К – (В – 40),

где: Р – «комплексная» оценка в баллах,

50 – максимально возможное количество баллов,

К – количество замечаний, сделанных ведущим,

В – время в минутах.

Как видим, здесь уж, что называется, «смешались в кучу кони, люди…». Под знак суммы разности) поставлены совершенно разнородные величины: баллы, количество замечаний, время, безразмерные числа.

В некоторое оправдание подобным неверным построениям оценок следует отметить, что проблема векторных оценок для разнородных величин в теории разработана слабо ^[13]. Но в любом случае, уважаемый читатель, будьте предельно внимательны и осторожны в построении векторных оценок. Кстати, нередко можно обойтись и без них. Вы, допустим, получили количественные результаты по отдельным показателям (параметрам), ограничьтесь их качественной интерпретацией, не «загоняя их под общий знаменатель». И пусть по каким-то показателям результаты экспериментальных классов, групп будут лучше контрольных, а по каким-то хуже – от этого Ваша работа только обогатится, станет достовернее. А если Вы все же используете какую-либо векторную оценку – то Вы оперируете только с однородными величинами и только в шкалах отношений, интервалов, или, углубляясь «в дебри» математики, строго следуете соответствующим правилам построения многомерных векторных оценок.

Примечания:

[1] В скобках указаны номера списка рекомендуемой литературы.

[9] [9] Нередко встречается и несколько иное, но тоже вполне правомерное трактование понятия «критерий», когда в роли последнего принимается качественная сторона полученного результата, достижения цели. Тогда понятие «критерий» отделяется от понятий «показатель», «параметр». Например, критерий – уровень знаний и умений учащихся, а показатель – их успеваемость в баллах (кстати, весьма сомнительный показатель – см. ниже). В этой трактовке один и тот же критерий может иметь несколько показателей, параметров. Например, когда успешность выполнения какого- либо задания оценивается по времени, затраченному учащимися и количеству допущенных ими ошибок.

[10] См.: Беспалько В.П. Основы теории педагогических систем. – Воронеж, 1977. – 304 с.

[11] Подробнее о шкалах измерения см.: Психологические измерения: Сб. / Под ред. Л.Д. Мешалкина. – М.: Мир, 1967. – 196 с.

[12] См., например: Новиков А.М. Процесс и методы формирования трудовых умений. – М.: Высшая школа, 1986. – 286 с.

[13] Для тех, кто заинтересуется проблемой векторных оценок, можно рекомендовать: Подиновский В.В., Ногин В.Д. Парето – оптимальные решения многокритериальных задач. – М.: Наука, 1982. – 386 с.

Оглавление