Двойной слепой

(Дата первой публикации – июнь 2007)

the3monkeys

При выборе и сравнительной оценке товаров или технологий большинство людей — так уж повелось — обычно ориентируется на мнение компетентных экспертов. А эксперты, в свою очередь, руководствуются наработанным опытом и собственными предпочтениями.

Однако существуют и иные, куда более объективные критерии оценки, которые зачастую дают весьма неожиданные результаты. Наглядной иллюстрацией чему могут служить недавние тесты, сравнивавшие, в одном случае, качество по-разному сжатых аудиозаписей, а в другом случае — качество принтерной печати при разных чернилах и сортах бумаги.

Честный путь к истине

Так называемый «двойной слепой» метод тестирования пришел из науки, где является очень важной частью исследовательского инструментария ученых, поскольку позволяет получать наиболее объективные результаты экспериментов с участием людей.

Цель двойного слепого метода — эффективно нейтрализовать первоначальные субъективные предубеждения и сдвиги во мнениях, которые всегда свойственны и тестируемым, и самим организаторам эксперимента, а потому явно или неявно влияют на анализ тестовых данных и оценку итоговых результатов. На сегодняшний день этот метод считается одним из самых важных во многих серьезных областях исследований от медицины и психологии до социологии и криминалистики.

Что представляет собой слепой метод тестирования в принципе, очень просто пояснить на примере с дегустацией, скажем, чая. При открытом способе дегустации приглашенные потребители пробуют чай разных марок и фирм в условиях, когда принадлежность содержимого каждой чашки к определенному брэнду известна заранее, а потому дегустаторы обычно делают выбор в пользу тех названий, которыми пользуются регулярно или по крайней мере что-то о них знают.

Из опытов хорошо известно, что если при дегустации тех же напитков скрыть все сведения о брэндах, то те же самые испытуемые нередко выбирают совсем другую марку. Иначе говоря, слепой метод помогает убрать сознательные или подсознательные сдвиги в представлениях испытуемых, существенно влияющие на исход эксперимента.

В более серьезных научных испытаниях вроде медицинских, когда важно не то, «нравится» или «не нравится» лекарство, а насколько эффективно оно помогает при лечении, один из общепринятых методов проверки носит название single-blind, т.е. «одинарный слепой». При этом методе каждый из испытуемых не знает, входит ли он или она в «тестовую группу», принимающую новое лекарство, или же в «контрольную группу», которой дают нечто нейтральное для сравнения результатов с тестовой.

Но, как показывает опыт, этот метод не очень хорош, потому что сами экспериментаторы тоже являются людьми и при организации опытов вольно или невольно пытаются повлиять на получение желаемого исхода. Поэтому, скажем, пациенты нередко могут догадываться, дают им пустышку или настоящее лекарство.

Более яркий пример того же самого — это процедура опознания преступника свидетелем, когда организаторы опознания заранее знают, кого нужно «разоблачить», и вроде бы обезличенный метод устраивается так, чтобы подтолкнуть испытуемого к нужному выбору.

Для ликвидации всех подобных перекосов разработан двойной слепой (double-blind) метод тестирования, в экспериментах с участием людей позволяющий эффективно нейтрализовать субъективные предубеждения как испытуемых, так и самих испытателей. В условиях двойного слепого уже ни испытуемые, ни экспериментаторы не знают, кто является членом тестируемой группы, а кто членом контрольной группы для сравнения (в условиях правоохранительной работы, это когда организаторы опознания сами не знают, кто предполагаемый преступник).

Лишь после того, как все данные тестов зафиксированы (а в некоторых случаях и после того, как проанализированы), исследователи, наконец, получают от независимой третьей стороны информацию о том, кто был кто. При аккуратной организации и случайном распределении испытуемых по группам «тестирования» и «контроля» двойной слепой метод позволяет полностью избавиться от человеческого субъективизма и проводится в тех случаях, когда хотят добиться наиболее высоких стандартов научной строгости.

Хотя двойные слепые методы получили наибольшее распространение в медицине, в принципе их можно применять в любых экспериментальных ситуациях, где существует возможность того, что результаты испытаний окажутся под влиянием сознательных и / или подсознательных сдвигов в представлениях участников эксперимента.

Особенно удобно устраивать двойные слепые тесты с помощью компьютера, поскольку программу, организующую эксперимент, легко сделать так, чтобы она не имела никаких сдвигов в пользу того или иного выбора. По аналогии с приведенными выше примерами из медицины и криминалистики, та часть программы, которая обеспечивает взаимодействие с испытуемым человеком — это работающий вслепую экспериментатор, а та часть, которая знает, что именно предложено для оценки — это независимая третья сторона.

Классическим, можно сказать, примером такого подхода, часто реализуемым с помощью компьютера, является так называемый «тест ABX», где испытуемому человеку предлагается на пробу неизвестный стимул X, который следует отнести к одному из двух возможных и уже известных выборов A или B. Помимо того, что этот тест очень просто организовать в различных модификациях, ABX давно знаменит тем, что легко и наглядно развенчивает устойчивые мифы, бытующие среди населения.

За что его, мягко говоря, недолюбливают многие «авторитетные эксперты», эти мифы создающие.

Уши в замешательстве

В 1990-е годы, когда публика начала массово осваивать сжатие музыки с Audio-CD в файлы MP3, никому поначалу и в голову не приходила идея об эквивалентности звучания скомпрессированных аудиотреков и исходных дорожек с компакт-диска. Общепринятый стандарт сжатия с постоянным битрейтом 128 Кб/с давал примерно 10-кратную экономию в размере файлов, благодаря чему стало возможно перекачивание музыки через узкий канал телефонного модема, и при этом сохранял «достаточно приемлемое» качество звучания для слушателей. Но не более того.

Однако скорость интернет-подсоединений с годами заметно увеличивалась, еще быстрее росла емкость жестких дисков компьютеров, а параллельно с ними увеличивался и битрейт сжатия аудиоданных, давая ощутимые улучшения в качестве звука, но при этом наращивая и размер файлов.

Поэтому на каком-то из этапов данного процесса возник неизбежный вопрос: а при каких значениях параметров сжатия увеличение битрейта перестает себя оправдывать с точки зрения качества звука, а влечет одно лишь разрастание дискового пространства для хранения? Быть может, в большинстве случаев разумно остановиться уже на 160 или 192 Кб/с? А при битрейте 256 или 320 Кб/с треки звучат настолько чисто, что, быть может, уже и матерые аудиофилы не способны их отличить от несжатого звука CD? Не говоря уже об обычных любителях музыки…

Подлинные аудиофилы, обычно с презрением относящиеся ко все этим MP3, как правило против компрессии решительно возражают и уверены, что всегда отличат сжатый с потерями звук от оригинала. Однако еще весной 2000 года германский компьютерный журнал «c’t» провел весьма качественное двойное слепое тестирование треков MP3 и CD с участием полутора десятка аудиофилов, отобранных профессиональной комиссией из нескольких сотен желающих. Результаты тестов сильно удивили всех — и участников, и организаторов.

При прослушивании 1-минутных фрагментов из 17 произведений классики, джаза и поп-музыки, представленных в трех вариантах (128 Кб/с, 256 Кб/с и CD-качество) испытуемые достаточно уверенно выделяли лишь 128 Кб/с, а вот при оценке треков 256 Кб/с и несжатого формата результаты с выбором наилучшего качества оказались абсолютно идентичны. Иначе говоря, ровно в половине случаев слушатели отдали предпочтение CD, а в половине случаев трекам MP3 256 Кб/с.

Приглашенный в качестве «эталонного слушателя» звукоинженер фирмы Deutsche Gramophon Гернот фон Шульцендорф, занимающийся подготовкой к изданию мастер-копий записей классической музыки, в общих тестах не участвовал, но в предварительных испытаниях с выявлением CD-звука показал заметно лучшие результаты, чем остальные. После окончания тестов Шульцендорф раскрыл секрет своего успеха. Оказалось, что он по опыту работы заранее знал, что многие записи определенных жанров при качественном сжатии звучат «более округло» и приятнее для человеческого уха, чем оригинальный трек CD. Поэтому в целом ряде случаев он делал выбор аналитически, по сути дела в пику тому, что реально слышат уши.

Интересные результаты «c’t» в свое время много обсуждались в интернете, но нельзя сказать, что поколебали точку зрения «настоящих аудифилов», продолжающих твердо верить в свою правоту. И ныне настаивающих на бесспорном превосходстве тех форматов, вроде FLAC, что для плеера и компьютера умеют паковать аудиозаписи со сжатием без потерь (т.е. при воспроизведении восстанавливающие файл до полной копии CD-трека).

Однако неоспоримый прогресс проделан и в алгоритмах сжатия с потерями, где все тот же MP3 с переменным битрейтом ныне одновременно может обеспечивать и наибольшее сжатие и наилучшее качество для заранее заданной битрейтовой базы. Другими словами, ничуть не утратил своей актуальности и давно уже задаваемый вопрос о том значении параметра, при котором любителям качества разумно остановиться с наращиванием битрейта, зная, что человеческому уху тончайшие различия все равно уже не уловить.

Совсем свежий двойной слепой тест на этот предмет в апреле 2007 провел американский журнал «Maximum PC». Здесь эксперимент устроили так. К компьютеру с качественной аудиоплатой Creative X-Fi и весьма приличными наушниками Sennheiser HD 580 пригласили четырех аудиофилов, каждый из которых принес свой CD с референсным треком, где нюансы звуковой картины по их мнению лучше всего подходят для анализа качества сжатия.

Каждый такой трек представили для прослушивания в трех уровнях качества — 160 Кб/с, 320 Кб/с и несжатый WAV. Причем сжатие осуществлялось с переменным битрейтом (VBR), когда степень компрессии динамически уменьшается или возрастает в зависимости от сложности конкретного музыкального фрагмента. Таким образом, каждому тестеру предоставлялось в общей сложности 12 треков для сравнительного прослушивания в максимально доброжелательных условиях. То есть ранжирование записей по качеству осуществлялось не на основе минутного отрывка из каждого куска, а при прослушивании в течение любого интервала времени, любое количество раз и с возможностью попеременного (A/B) сравнения с другими треками.

Больше всего абсолютно все тестеры-аудиофилы были поражены, насколько сложной в реальности оказалась задача. Выяснилось, что при подъеме нижнего порога сжатия до качества 160 Кб/с VBR аудиотрек уже становится очень и очень непросто отличить от CD-качества даже для опытного уха. Не говоря уже о битрейте 320 Кб/с. Подводя же общий итог этого испытания, можно отметить, что в условиях, когда максимально возможное число правильных опознаний качества равнялось12, самый лучший результат верных угадываний для одного аудиофила составил 6, т.е. всего половину.

Если же чуть изменить способ подсчета и принять во внимание, что каждый из 4 тестеров прослушал для анализа 4 трека в качестве CD (т.е. в сумме 16), но при этом в сумме они правильно выявили несжатое качество лишь в 6 случаях, то получается, что в 10 из 16 прослушиваний наилучшее качество звучания было признано за MP3-файлами. Действительно, есть чему поразиться и аудиофилам, и обычным любителям MP3.

На букву «Х» и на букву «Е»

Впечатляющий прогресс, проделанный индустрией принтеров за последний десяток-полтора лет, принес в домашний быт сравнительно недорогие аппараты, дающие очень качественную цветную полиграфию, о которой в начале 1990-х потребители и не мечтали.

Единственное, пожалуй, что вызывает ворчание и растущее недоумение — это цена на расходные материалы, особенно на быстро кончающиеся чернила для принтера. В то время как достоинства самих принтеров из года в год растут, а цена на них снижается, стоимость чернил и бумаги для этих аппаратов практически не меняется, из-за чего домашняя печать продолжает оставаться недешевым, вообще говоря, удовольствием.

То, что цены на фирменные чернила и бумагу, выпускаемые той же компанией, которая изготовила принтер, искусственно завышаются — это давно ни для кого не секрет. Именно по этой причине все большую популярность в народе обретают чернила и прочие расходные материалы от сторонних производителей. За существенно меньше деньги у них можно купить примерно такие же расходники, которые по виду дают тот же самый результат, что и фирменные товары.

Однако практически у каждого покупателя «левого» продукта в душе свербит сомнение — а не слишком ли сильно падает качество печати в сравнении с фирменными материалами? Тем более, что на это обстоятельство регулярно напирают изготовители родных (дорогих) чернил-бумаги.

Дабы навести ясность в столь насущном вопросе, американское издание Trusted Reviews, специализирующееся на обзорах и тестах потребительских компьютерных технологий, провело большое (двойное слепое, естественно) сравнение расходных материалов для принтеров всех четырех главных изготовителей.

Каждая из этих компаний прекрасно известна потребителям, однако установившиеся с некоторых пор в компьютерной прессе порядки таковы, что в явном виде указывать название фирмы стало экономически безопасно лишь в тех случаях, когда материал носит очевидно хвалебный характер. Данное исследование к подобным случаям явно не относится, поэтому знаменитые изготовители принтеров будут упомянуты лишь прозрачными намеками — на букву C, на букву E, на букву H и на букву L.

Итак, вопрос, поставленный исследователями, звучал очень просто: насколько качество печати на основе расходников от сторонних производителей сравнимо с печатью при фирменных чернилах и бумаге? Для тестирования были выбраны четыре популярных современных принтера, широко распространенных у домашних пользователей (точные названия моделей можно найти в итоговом отчете на сайте http://www.trustedreviews.com).

В качестве сторонних поставщиков чернил были выбраны наиболее известные в США фирмы Cartridge World, InkTecShop, JetTec и StinkyInk, но эти названия существенной роли не играют, поскольку компании подобного рода обычно занимаются импортом, перезарядкой и перепродажей расходников от самых разных производителей. Важно лишь то, что это в изобилии предлагаемая дешевая альтернатива дорогим фирменным материалам.

Второй, не менее существенный аспект — это выбор бумаги. Все изготовители принтеров непременно подчеркивают, что для обеспечения качественной печати две главных составляющих, чернила и бумага, непременно должны разрабатываться вместе. Химия чернил должна соответствовать характеристикам бумаги, поэтому структура бумаги для принтеров имеет несколько слоев из разных материалов — один впитывает чернила, другой предотвращает их растекание, третий обеспечивает глянец фотографиям.

Чтобы проверить истинность тезиса о важности соответствия фирменной бумаги «своим» чернилам, исследователи набрали комплекты глянцевой фотобумаги от четырех принтерных компаний, а для сравнения пачки универсальной принтерной бумаги от сторонних поставщиков Ilford, Kodak, PC World и Staples. Для распечатки не фотографий, а обычных документов взяли пачку обычной офисной бумаги для принтеров и ксероксов.

Тестирование сводилось к сравнению трех типов изображений: страница черного текста и графики на белом фоне и две фотографии. Одна — пейзаж с зелеными деревьями, синими небесами и скалистым берегом из красного гранита. Вторая — фото модели, дающее разнообразные оттенки цвета тела и фактуру тканей одежды на зеленом фоне листвы. Эти образцы были распечатаны на всех четырех принтерах, с пятью типами чернил и на шести типах бумаги.

Получившиеся в итоге две с половиной сотни распечаток были представлены для оценки группе типичных и достаточно опытных пользователей, которых попросили оценить каждое изображение по 10-балльной шкале.

Ориентиры для оценки были такие. 10-9 баллов — если качество картинки таково, что ее хотелось бы оставить как память о свадьбе, юбилее или другом важном событии в жизни; 8-7 баллов — как воспоминание о проведенном отпуске; 6-5 баллов — достаточно хорошо, чтобы просто оставить снимок, хоть и с небольшими дефектами; меньшее количество баллов — для снимков, которые вряд ли захочется сохранить из-за убогого качества.

Перед выдачей для оценки все распечатки были пронумерованы и тщательно перемешаны, так что в соответствии с двойной слепой методикой ни оценщики, ни организаторы уже понятия не имели, что за принтер, чернила и бумага использованы в том или ином случае.

Общий вывод всех оценщиков после испытаний — это чрезвычайная сложность задачи по отысканию различий, поскольку все распечатки одной картинки имели очень похожее качество. Тем не менее, когда все результаты тестов были аккуратно расписаны в таблицы, в которых по номерам восстановили параметры каждой распечатки, легко были выявлены и характеристики, набравшие наибольшее количество баллов.

Самый главный итог теста — это то, что члены оценочной комиссии в целом явно отдали предпочтение тем распечаткам, которые были сделаны с помощью расходников сторонних производителей. Для каждого принтера по отдельности «левые» чернила и комбинация бумаги от разных поставщиков набрали больше баллов, чем распечатки с помощью сочетания из фирменного картриджа и фирменной бумаги.

Таким образом, стало можно вполне компетентно и научно обоснованно утверждать, что чернила сторонних производителей по качеству печати ничем не уступают фирменным расходным материалам, а при особо удачном сочетании компонентов могут и заметно их превосходить.

Но это, надо отметить, пока еще не вся картина в своей полноте. Потому что каждый из главных изготовителей принтеров также утверждает, что «левые» чернила значительно быстрее выцветают, чем их собственные. А отсюда естественным образом вытекает и продолжение теста Trusted Reviews.

Теперь образцы, размноженные для первого исследования, частично расклеены на стекла окон, частично на стены и доски объявлений внутри здания, а остальные помещены в альбом на полке в шкафу. Примерно через полгода организаторы теста к ним вернутся и посмотрят, насколько соответствует действительности идея о стойкости фирменных чернил.

Вполне возможно, что и этот результат не будет соответствовать устоявшемуся в народе мнению.