Гугл великий и ужасный

(Январь 2009)

Кто и как реально контролирует данные, накапливаемые в Сети

С некоторых пор в обществе все более заметной становится обеспокоенность по поводу чрезмерно возросшего влияния тех интернет-компаний, что начинали как поисковые сервисы. В первую очередь, конечно же, здесь подразумевается корпорация Google.

Например, когда известного профессора-правоведа и интернет-эксперта Лоуренса Лессига не так давно попросили поделиться точкой зрения на эту проблему, тот сформулировал суть складывающейся ситуации примерно так.

Во времена расцвета корпорации Microsoft многие люди боялись, что хозяева операционной системы смогут воспользоваться своей монополией для насаждения собственных продуктов и вытеснения конкурентов. Нечто подобное действительно происходило, однако эта динамика, считает Лессиг, куда меньше того, чего люди боятся относительно Google.

Эта корпорация ныне обладает гигантским контролем над платформой всех данных в мире, и все, что там делают, разрабатывается таким образом, чтобы еще больше укрепить и улучшить этот контроль за лежащими в основе данными.

Понятно, что тот, кто контролирует информацию, способен контролировать и все остальное. И если при этом вся суть игры, в которую вы играете, сводится к увеличению вашей рыночной доли, то, подчеркивает Лессиг, очень сложно творить добро и собирать данные такими способами, которые не поднимали бы вопросов, с одной стороны, о вторжении в приватность граждан или, с другой стороны, о помощи репрессивным режимам в блокировании контента с критикой или разоблачением властей…

Наглядные иллюстрации тому, насколько серьезные масштабы уже успели обрести отмеченные Лессигом проблемы, в изобилии предоставляют две большие аналитические публикации, появившиеся независимо и почти одновременно в конце прошедшего года.

Одна – это статья «Сторожа из Google» в журнале New York Times Magazine [«Google’s Gatekeepers» by Jeffrey Rosen, The NYT Magazine, November 28, 2008], другая – целая книга под названием, которое можно перевести как «Загугленная безопасность: как много Google о вас знает» [«Googling Security: How Much Does Google Know About You?» by Gregory Conti, Addison-Wesley Professional, 2008].

Со второй работы, пожалуй, и имеет смысл начать.

Гуглимая безопасность

Если воспользоваться аннотацией издательства Addison-Wesley, выпустившего «Загугленную безопасность», то это – первая в истории книга, подробно раскрывающая, каким образом гигантские массивы собираемой Гуглом информации могут быть использованы против всякого конкретного человека или против бизнеса любой конкретной компании.

Ибо всякий раз, когда интернет-пользователи прибегают к «бесплатным» сервисам Google, они в действительности платят за это очень реальными вещами – персональной информацией о себе. И платят при этом по-крупному. Корпорация же Google научилась делать очень и очень приличные деньги на тех сведениях, которые она знает о пользователях сервисов. Обычный и неподготовленный человек может быть сильнейшим образом шокирован, осознав то, насколько много Гуглу может быть известно.

[ВРЕЗКА 1]

Умножая познания, умножаешь скорбь

Не секрет, что большинство интернет-публики довольно смутно представляет себе чувствительность данных, которые поисковые сервисы или провайдеры могут сохранять об обрабатываемых запросах пользователей. Аналогично неадекватно оцениваются и риски в связи с предположениями, будто подобные запросы являются мимолетными и сугубо приватными обменами между пользователем и сетевым сервисом.

То, как выглядит реальная картина, лучше всего, наверное было продемонстрировано в августе 2006 года, когда компания AOL случайно сделала доступным для массовой публики весьма большой массив накопленных данных о поисковых запросах своих клиентов – около 20 миллионов поисков от 658 000 интернет-абонентов.

Данный инцидент наглядно подтвердил то, о чем специалисты по безопасности давно подозревали и предупреждали общество, но прежде лишь теоретически. А именно, что массивы информации об использовании веб-инструментов, сохраняемые интернет-компаниями, представляют весьма существенную проблему с точки зрения приватности.

Хотя 20 миллионов поисковых запросов были опубликованы без пользовательских имен AOL-абонентов и без их IP-адресов, в этом массиве каждому имени пользователя был сопоставлен уникальный цифровой идентификатор. Используя лишь этот «обезличенный» идентификатор и связанные с ним поиски информации, журналисты газеты New York Times Майкл Барбаро и Том Зеллер (Michael Barbaro, Tom Zeller) быстро продемонстрировали, сколь легко и просто можно вычислять реальных людей, отправлявших в сеть эти запросы.

Более того, вскоре появились сайты вроде aolstalker.com и aolpsycho.com, которые существенно усовершенствовали процесс подобного вычисления, позволяя посетителям совместно анализировать, помечать и в ряде случаев явно идентифицировать конкретных людей по данным из массива запросов AOL. На доске объявлений сайта AOL Stalker, к примеру, посетители могли выбрать для ознакомления наиболее «занятных» персонажей, вроде, скажем, «клиента #672368» – точнее, явно клиентки – интенсивно интересующейся проблемами религии, беременности, шоппинга и клиник-абортариев в одном из городов Северной Каролины…

Инцидент с раскрытием базы данных AOL и появление сайтов, эксплуатирующих этот промах компании, породили целый поток статей и бурные дискуссии в блогосфере, обсуждающие довольно щекотливые проблемы приватности. Но при этом, как ни парадоксально, реально данная история задела лишь профессионалов-специалистов да небольшую часть общества, интересующуюся подобными вопросами.

Для массовой же публики – с точки зрения долгосрочного воздействия на сознание – этот инцидент прошел почти незамеченным. Проведенное через полгода в США социологическое онлайн-исследование показало, что лишь около 15% опрошенных могли хоть что-то припомнить о недавнем скандале с базой данных AOL. Для большинства же пользователей этой истории словно и не было.

[КОНЕЦ ВРЕЗКИ 1]

Первая это книга подобного рода или нет, наверняка сказать сложно. Но что гарантированно отличает данное исследование от всех подобных, так это очень серьезный профессиональный статус автора. В настоящее время Грег Конти (Gregory Conti) является профессором компьютерной науки и информационных войн в Вест-Пойнте, главной военной академии США, а до начала преподавательской работы он много лет занимался проблемами компьютерной безопасности в составе разведывательных и армейских структур страны.

Проведенное в новой книге Конти обширное и тщательное исследование тех массивов информации, которые пользователи интернета явно или неявно, но в любом случае абсолютно добровольно предоставляют компании Google, в значительной степени основано на результатах предшествовавших аналитических работ того же автора – посвященных визуализации данных о безопасности и раскрытиям информации в WWW.

В книге Конти методично и скрупулезно перечислены все – нередко почти фантастические – сервисы, предоставляемые в Google помимо собственно поиска по ключевым словам: почта Gmail, геоинформационный сервис Google Maps, служба оповещений Google Alerts, Google Talk, Google Groups, новые мобильные приложения Google и многое-многое другое. Параллельно описывается, насколько все эти сервисы неотразимы и привлекательны для пользователей, а затем отмечается, какую информацию потребители попутно раскрывают, все это используя.

Причем, что существенно, раскрытия эти происходят даже тогда, когда сервисы используются непреднамеренно – например, когда вы просто посылаете электронное письмо кому-то, кто пользуется почтовым ящиком Gmail. Или когда скачиваете по ссылке-закладке карту Gmap, которая была разослана какой-либо группе подключенных Google-пользователей, а вы таким образом тоже пристегиваетесь к этой группе, как ее составная часть.

Привлекая свои собственные исследования по сетевой безопасности, автор демонстрирует, каким образом гугловские базы данных могут быть использованы другими людьми с отнюдь не лучшими намерениями, даже если сама корпорация Google продолжает придерживаться своего знаменитого девиза «Не быть злом».

В частности, демонстрируется, как информационные «хлебные крошки», которые оставляет всякий пользователь при обращении к поисковым возможностям Google, дают весьма богатые сведения для составления профиля на человека. Или как почта Gmail может быть использована для отслеживания персональной сети друзей, семьи и знакомых. Как карты Gmap и инструменты определения местоположения могут раскрывать места расположения вашего дома, работодателя, семьи и друзей, планы поездок и прочие намерения.

Как рекламные сервисы Google AdSense и DoubleClick могут отслеживать ваши перемещения по сети WWW. И как, наконец, массивы информации, накапливаемой в Гугл и других онлайновых компаниях, могут подвергаться утечкам, потерям, могут отбираться, разделяться или изыматься по предписанию суда, а впоследствии использоваться для кражи личности или даже для шантажа.

Неторопливыми и весьма подробными деталями Конти выстраивает общую картину. В этой картине обычные для людей беспечность и самодовольство, способность Google к созданию неотразимых сервисов, а также техническая неадекватность браузеров и других сетевых инструментов во всем, что касается предупреждений о потенциальных раскрытиях информации, породили весьма опасную ситуацию. Когда в итоге у Гугла и у подобных ему национальных компаний-гигантов оказывается настораживающе огромное количество информации о нас, о наших предпочтениях, наших передвижениях, наших финансах, нашем здоровье, нашей работе и наших социальных кругах общения.

Все объяснения у Конти изложены на удивление доступным языком, причем даже в тех случаях, когда излагаются довольно сложные и, как говорится, контр-интуитивные технические предметы вроде тонкостей применения cookies и скриптов с перекрестными сайтами. Не менее ценно, что столь же доступны для понимания и его конкретные рекомендации относительно того, как перекрывать обильные потоки персональной информации, что текут из вашего компьютера в базы данных Google.

Наконец, особо отмечают в книге Конти и ту большую работу, которую проделал автор для разъяснения публике причин, по которым люди «которым нечего скрывать» вполне могут, тем не менее, хотеть удерживать свою информацию при себе. Грубоватый, но весьма доходчивый пример в качестве аналогии выглядит примерно так.

Приблизительные размеры и конструктивные особенности частей тела, которые находятся у человека под прикрытием одежды, не являются никаким секретом. Однако даже в жару люди не ходят голыми в публичных местах и скорее всего возмутятся, если кто-то попытается принудить их к полному раздеванию. Секреты и приватность – это далеко не одно и то же.

[ВРЕЗКА 2]

Аномалии поиска

Интернет-активист Дэниел Брандт, наиболее известный в Сети своими сайтами wikipedia-watch.org и scroogle.org с содержательной аналитической критикой Википедии и Google, соответственно, недавно опубликовал статью о выявленных им любопытных аномалиях в работе поисковой машины Google (sethf.com/infothought/blog/archives/001403.html). А именно, что при общем ранжировании веб-страниц, находимых Гуглом при поиске по ключевым словам, определенно работает некоторый тип фильтрации. Принципы которой абсолютно неизвестны, поскольку технические нюансы в работе поисковой машины являются большой коммерческой тайной компании.

Тесты Брандта были построены на основе сравнений поисков информации о его собственном сайте wikipedia-watch.org – как они выглядят в Google и в результатах других популярных поисковых сервисов Yahoo и Live.com. Это удобно делать по той причине, что wikipedia-watch.org является весьма популярным сайтом, имеющим многие тысячи внешних ссылок с других сайтов, что стабильно выводит его на верхние строчки в поисковиках Yahoo и Live.com.

В то же время у компании Google имеются определенные причины (выходящие далеко за рамки данной статьи), чтобы не любить конкретно Брандта и созданные им сайты. Из-за чего заглавная страница wikipedia-watch.org, соответственно, почти никогда не попадает в top100, т.е. первую сотню строк с результатами поиска через Google той или иной информации с критикой Википедии. Если же текущий рейтинг этого сайта очень высок, то он может – очень ненадолго – взлетать в верхние 10-15 строк Google, но исключительно лишь туда и никогда в интервал между местами 15 и 100.

Статья Брандта содержит немало технических наблюдений о работе этой системы и содержит «параноидальный» (по характеристике самого автора) вывод, что помимо автоматической работы фильтров Google там, похоже, имеется еще и элемент «ручной подстройки», подгоняющей результаты под текущую политическую ситуацию.

Самое забавное, что вскоре после этой публикации Брандта были отмечены существенные перемены в результатах поисков Google относительно сайта wikipedia-watch.org. Если раньше запросы типа «can I sue Wikipedia» (могу ли я судиться с Википедией) или «Wikipedia plagiarism» (плагиат в Википедии) в Yahoo и Live.com выдавали сайт Брандта в первых 3-5 строках, а в Google оказывались где-то между 300 и 700 местами, то теперь wikipedia-watch.org во всех трех поисковиках выглядит одинаково высоко.

[КОНЕЦ ВРЕЗКИ 2]

Сторожа из Гугла

Другим ничуть не менее важным аспектом проблем вокруг контроля за платформой данных, накапливаемых в глобальной сети, является возрастающая власть компаний вроде Google над тем, какую информацию пользователям выдавать можно, а какую нельзя.

Многие люди по сию пору продолжают несколько наивно считать, что интернет является чем-то вроде панацеи для свободы слова – коль скоро любой пользователь с сетевым доступом обретает потенциал для достижения глобальной аудитории. В теории, по крайней мере. Однако на практике вся суть данного процесса сводится к тому, каким образом интернет реально регулируется и кем именно это делается.

Реальность же такова, что по мере того, как все больше и больше коммуникаций и выступлений перемещаются в онлайн, в блоги, форумы и сайты социальных сетей, окончательная власть в решениях о том, кто именно получает возможность быть услышанным, и что именно они могут говорить, по нарастающей ложится на интернет-провайдеров, поисковые сервисы и другие влиятельные интернет-компании.

На сегодняшний день наиболее мощным и наиболее разнообразным в своих проявлениях среди всех этих интернет-сторожей является корпорация Google. При контроле за 63 процентами всех интернет-поисков информации на планете, а также при владении крупнейшей в мире базой видеофайлов YouTube (плюс огромный блог-сайт Blogger, плюс сайт обмена фотографиями Picasa, плюс сайт социальных сетей Orkut и так далее), Google имеет ныне гигантское влияние на то, кто и как может находить аудиторию в Сети по всем у миру.

В руководстве корпорации, естественно, прекрасно отдают себе отчет, сколь мощными рычагами владеют. Поэтому на вершине руководящей пирамиды Google с некоторых пор постоянно работает специально назначенная команда юристов, обладающая экстраординарной властью во всем, что касается решений о доступе интернет-пользователей к сетевому контенту. А именно, какие материалы можно оставить в свободном доступе, а какие надлежит немедленно убрать или спрятать поглубже в недрах поисковых результатов.

Учитывая гигантские и необозримые масштабы интернета подобная затея с контролем узкой группой лиц может показаться чудовищно неэффективной и заведомо обреченной на провал, однако это именно то, как работает данный механизм в настоящее время. А недавняя статья в New York Times Magazine [«Google’s Gatekeepers» by Jeffrey Rosen] дает редкую возможность непосредственно увидеть, как все это происходит за стенами Google.

На живых примерах, в частности, рассказывается, как команда «решателей» во главе с Николь Вонг (Nicole Wong), замом генерального юрисконсульта Google, вынуждена то и дело заниматься судьбой множества острых видеороликов, постоянно выкладываемых пользователями на YouTube. Подобные видеоматериалы регулярно порождают претензии от властей государств, обычно не самых демократичных, расценивающих подобные файлы как противозаконные и требующих убрать их из Сети, по крайней мере для населения конкретно этих стран.

Примеры с острыми конфликтами вокруг видеофайлов на YouTube наиболее показательны, а некоторые из них и широко известны. Как, скажем, полный запрет турецкого правительства на доступ своим гражданам к YouTube из-за нескольких видеоклипов, оскорбляющих «отца нации» Мустафу Кемаля Ататюрка намеками на его нетрадиционную сексуальную ориентацию. Для разблокирования этой ситуации руководству Google пришлось собственными силами выявлять и убирать из YouTube все видеофайлы, так или иначе оскорбляющие Ататюрка (что по законам Турции расценивается как преступление).

Демарши, подобные турецким, регулярно происходят и со стороны других государств. А решения, аналогичные удалению файлов из YouTube, спецкоманде реагирования Google приходится принимать и в отношении всех прочих сервисов компании – блогов, обмена фотографиями, социальных сетей и, конечно же, поиска по ключевым словам.

В статье NYT Magazine, правда, лишь вскользь отмечается, что Николь Вонг и ее коллегам приходится также надзирать за поисковой машиной Google. А именно, они решают, что из спорных материалов может появляться, а что появляться не должно – как на центральном сайте Google.com, так и в местных поисковых сервисах, которые Гугл поддерживает во многих странах мира. (Некоторые подробности на этот счет можно найти во врезке «Аномалии поиска».)

По мнению автора статьи в NYT Mag, американского правоведа Джефри Розена, сложившуюся подобным образом ситуацию можно воспринимать так, что очень небольшая группа людей из элиты Google на сегодняшний день обладает наибольшим на этой планете влиянием на онлайновую свободу слова в ее самом общем виде. И Розен, естественно, крайне обеспокоен, когда столь огромная власть по решению вопросов о запрещении или разрешении на доступ к информации концентрируется в руках единственной, по сути дела, компании.

Особенно, если принять во внимание конфликтующие, а порой и самопротиворечивые миссии этой корпорации: с одной стороны, подчиняться местным законам государств, будь они репрессивные или нет, а с другой – обеспечивать принцип информации, не знающей границ; с одной стороны не быть злом, а с другой – максимально успешно работать повсюду в этом очень злом порою мире…

Познакомившись с работой Google изнутри, Джефри Розен признает, что сейчас команде «решателей» удается работать весьма впечатляюще, определенно ставя принципы свободы слова над краткосрочными финансовыми интересами фирмы. Однако те люди, что командуют контролем сейчас, не будут на своих постах вечно. И если история хоть чему-нибудь нас учит, заключает автор, то со временем их заменят юристы, куда более озабоченные корпоративными прибылями, нежели гражданскими свободами.

[ВРЕЗКА 3]

Злоупотреблять – это просто

В Китае разразился крупный скандал вокруг Baidu.com, крупнейшего в этой стране поискового сервиса, на который приходится обслуживание порядка 70% всех запросов на поиск информации в китайском сегменте интернета. Руководство Baidu оказалось в крайне неловком положении, поскольку фирму, как говорится, поймали за руку на том, что она позволяла нелицензированным поставщикам медицинских услуг и медикаментов подделывать документы и за деньги обеспечивала им высокие позиции в результатах поиска информации по определенным ключевым словам.

Хотя достоверно неизвестно, как давно Baidu разрешила этим компаниям скупать высокие рейтинги, определенно установлено, что китайские граждане покупали у них медуслуги и медикаменты по крайней мере несколько последних месяцев 2008 года. История получила широкую огласку к концу ноября, когда государственная телекомпания CCTV, Центральное ТВ Китая, показала передачу, где люди массово жаловались на выплаты весьма крупных сумм за медуслуги и лекарства, найденные через Baidu, однако оказавшиеся совершенно неэффективными.

В частности, один из больных рассказал, что на лечение своего недомогания потратил свыше 10 000 юаней (около 1500 долларов) в «высококлассной клинике», которую он нашел через Baidu, однако боли как были, так и остались. После этого бедолага обратился в Народную больницу, крупнейшую клинику Пекина, где его быстро подлечили всего за 100 юаней. Расследование тележурналистов в деталях показало, каким образом недобросовестные медики и фармацевты покупают в Baidu благосклонность и оказываются в верхних строчках поисковых результатов.

После этой передачи китайский интернет буквально разрывало от гневных обвинений в адрес Baidu, так что компании не оставалось ничего иного, кроме как затеять расследование, а затем наказать и уволить «нескольких недобросовестных сотрудников», опорочивших фирму.

[КОНЕЦ ВРЕЗКИ 3]

Цена доверия

Специфику сложившейся ситуации интересно прокомментировал Тим Ву (Tim Wu), профессор права из Колумбийского университета, а в недавнем прошлом бывший кадровый сотрудник Google: «Чтобы любить эту компанию, вы должны быть немного монархистом, вы должны обладать верой того же примерно типа, что люди обычно чувствуют по отношению к королю». А одна из главных причин, по которой в Google по сию пору ведут себя в целом хорошо и достойно – это то, что вся их жизнь и смерть основаны на доверии пользователей. И как только люди потеряют веру в Гугл, уверен Ву, для этой компании все будет кончено.

Более развернутое изложение этой же, по сути, идеи можно сегодня найти во множестве блогов умных людей интернета. Мало кто уже сомневается, что Google в масштабах планеты, Baidu в Китае или Yandex в России на сегодняшний день стали инстанциями, принимающими ключевые решения о доступе к информации. Однако это вовсе не означает, что все мы оказываемся за дверью, не в силах повлиять на эти решения.

Как потребители «бесплатных» сервисов Google и подобных ей компаний, мы имеем и определенную степень влияния на них. Причем влияние это вовсе не гипотетическое. Ибо в тот момент, когда люди начнут считать, что Google ведет себя неправильно и перестанут верить компании, в это же время они задумаются о том, чтобы перенести свои сетевые дела куда-то еще, подальше от «сторожа».

Есть немало механизмов, с помощью которых общественность может продолжать удерживать фирмы типа Google в честной игре. Во-первых, громко настаивая на прозрачности принципов и фактов, связанных с блокированием информации.

Во-вторых, при использовании сервисов Google всегда имеет смысл помнить и о таких вещах, как минимизация затрат на переход к альтернативным услугам, чтобы подобное переключение оставалось реалистичной возможностью. Чем меньше люди заперты на сервисах одной компании, тем меньше и нужда в продолжении использовать эти сервисы в тех случаях, когда поведение компании изменяется.

Интересно, что следование этим же принципам ощутимо влияет и на укрепление защиты приватной информации пользователей. Есть ощущение, что связь такая неслучайна.

The END