Архив-Шнархив

(Июнь 2010)

Программы-генераторы, случайным образом конструирующие реалистичного вида «научные» статьи из области философии или информатики, известны уже достаточно давно. Теперь пришел черед теоретической физики.

snarxiv

В нескольких популярных блогах ученых-физиков последние недели живо обсуждалась  новая и весьма занятная онлайновая забава научных работников под названием «Шнархив» или snarXiv.org.

Внешне этот сайт построен как полный и бесстыжий клон общеизвестной научной библиотеки arXiv, где исследователи со всего мира выкладывают препринты своих статей по физике и математике. Принципиальная же разница двух библиотек-близнецов заключается в том, что сайт snarXiv генерирует все свои статьи сам.

Посетителям достаточно лишь кликнуть кнопку «Обновить», и лично для них программа тут же выпекает — автоматически и случайным образом — совершенно новую статью по физике высоких энергий, нередко за подписями таких светил, как Виттен, Фейнман или Гейзенберг. Точнее, пока не полноценную работу, а карточку библиоучета типа «заголовок, автор и краткое резюме».

Удовольствие же заключается в том, что выдаваемые программой заголовки и резюме генерируемых статей выглядят на редкость реалистично — даже по мнению развлекающихся физиков, не говоря уже об их восприятии всеми остальными.

Ну а чтобы в итоге стало совсем уж смешно, здесь же на сайте посетителям предлагается сыграть в простенькую, на первый взгляд, игру под названием «arXiv против snArxiv«. Суть забавы — по заголовку очередной статьи определить, откуда она взята, из реального архива препринтов или же с выхода программы-генератора.

Несмотря на кажущуюся простоту, задача отделения «смысла» от «бреда» в условиях относительно короткой фразы заголовка оказывается делом нетривиальным даже для профессионалов. Тем более, что и в абсолютно настоящих научных работах заглавие порой умышленно формулируется авторами вызывающе парадоксально (типа «Новая старая теория инфляции»)…  По этой причине среднестатистический игрок-физик дает правильные ответы лишь где-то в 60-70% попыток.

Автором всей этой провокационной затеи является Дэвид Симмонс-Даффин (David Simmons-Duffin), аспирант-третьекурсник  Гарвардского университета, специализирующийся на  теоретической физике высоких энергий с особым интересом к областям пересечения струнной теории, дополнительных измерений и эффективных теорий поля. Устройство своего побочного детища и историю его появления на свет автор описывает примерно так.

Программа snarXiv построена на основе контекстно-свободной грамматики или кратко CFG (context free grammar) — по существу, на наборе формальных правил для генерируемых компьютером безумных библиотек. Каждое правило в CFG состоит из выражения и некоторого набора выборов относительно того, как конструировать это выражение.

Сейчас автор уже точно не помнит, почему решил все это сделать. Но толчком послужил уже имевшийся костяк программы, оставшийся от прошлого (вполне серьезного) проекта под условным названием «генератор теорем»…

Хотя в области теоретической физики неординарную работу Д. Симмонса-Даффина вполне можно считать новаторской, в других приложениях искусственного интеллекта у нее имеется множество весьма знаменитых предшественников.

И есть, наверное, смысл вкратце напомнить о некоторых из этих работ — дабы все мы почаще задумывались о реальной ценности очень многих из интеллектуальных изысканий человечества.

В книге Дугласа Хофштадтера «Гедель, Эшер, Бах: вечная золотая цепь» (1979 год) есть раздел, демонстрирующий метод для генерации бессмысленных, но грамматически вполне правильных текстов на английском языке. Для иллюстрации этого метода Хофштадтер привел весьма выразительный пример.

Он взял 13 фрагментов текста, десять из которых были сгенерированы компьютерной программой, а три взяты из реального журнала под названием Art-Language. После чего автор призвал самих читателей его книги установить, какие из текстов были сгенерированы искусственно.

Проблема выбора была непроста и интересна по той причине, что язык фрагментов из журнала был настолько плотным и перенасыщенным околонаучным жаргоном, что для постороннего наблюдателя в них было ничуть не больше смысла, чем в сгенерированных компьютером (и заведомо бессмысленных) фрагментах…

В середине 1990-х годов эта история вдохновила Эндрю Балхэка (Andrew Bulhak), преподавателя информатики из американского университета Monash, на написание его знаменитой ныне программы «Генератор постмодернизма«.

В ответ на команду запуска, эта программа автоматически выдает полноценные статьи, весьма качественно имитирующие опусы философов-постмодернистов, крайне заумно рассуждающих в общем-то ни о чем.

Техническая статья автора с описанием его программы носит красивое название «О симуляции постмодернизма и ментальной дебильности, используя рекурсивные сети переходов» и датирована 1 апреля 1996 года.

Для тех, кто знаком с глубокомысленными опусами постмодернистов, и для тех, кто счастливо избежал этой участи, будет интересно, наверное, познакомиться с небольшим, но вполне типичным фрагментом работы программы-генератора Балхэка:

«Субъект интерполируется в субкультурный марксизм, который включает в себя истину как тотальность. Следовательно, существуют несколько теорий относительно культурной парадигмы. Если исследовать постдиалектический дискурс, то сталкиваешься с выбором: либо принять неосемантическую парадигму контекста, либо же заключить, что коллективное способно на деконструкцию, но только при условии, что недействительна сартрова модель культурной парадигмы реальности. В противном случае лаканова модель субкультурного марксизма — это одна из ‘субкультурных допатриархальных теорий’ и, таким образом, — часть краха реальности»…

Следующим большим шагом к «краху реальности» и к победе интеллектуальных имитаций дебилизма стала программа  SCIgen , в 2004 году созданная аспирантами МТИ, Массачусетского технологического института.

Генератор Джереми Стриблинга и Макса Крона (Jeremy Stribling, Max Krohn) порождает абсолютно бессмысленные «научные» тексты в области информатики,  и как пишут авторы на сайте программы, их целью было «максимизировать забавность, а не связность».

Плоды случайно-абстрактного конструирования, однако, оказались настолько хороши, что статьи от бредогенератора SCIgen уже не раз были приняты в качестве докладов на специализированных конференциях и напечатаны в реальных научных журналах.

Своеобразным апофеозом этой истории можно, наверное, считать нашумевший проект «Корчеватель», в 2007 году предпринятый российским математиком и биологом, профессором биоинформатики Михаилом Гельфандом. Как и многих других ученых, Гельфанда крайне беспокоит откровенная профанация и коммерциализация науки, когда научные журналы и конференции функционируют исключительно ради денег, не предъявляя никаких, по сути, требований к качеству принимаемых статей и докладов — лишь бы авторы заплатили.

В качестве объекта для розыгрыша был выбран рецензируемый «Журнал научных публикаций аспирантов и докторантов» (ЖНПАиД), входящий в так называемый «список ВАКа» — составленный Высшей аттестационной комиссией перечень ведущих изданий, где должны быть опубликованы основные научные результаты диссертаций.

Для публикации работы  в ЖНПАиД Гельфанд даже не стал запускать  SCIgen, а просто взял уже вполне известный продукт генератора под названием «Rooter: A Methodology for the Typical Unification of Access Points and Redundancy», двумя годами ранее уже принятый в качестве доклада Стриблинга и Крона на одной из конференций по информатике в г. Орландо, Флорида.

С помощью программы-переводчика ЭТАП-3 Гельфанд автоматически преобразовал тот же текст на русский язык, совсем уж откровенные ляпы перевода подправил, а получившуюся статью «Корчеватель: алгоритм типичной унификации точек доступа и избыточности»  легко опубликовал в ЖНПАиД под псевдонимом Михаил Жуков (подробности этой анекдотичной истории можно найти в газете ученых «Троицкий вариант» № 13 от 30.09.2008, http://trv-science.ru/).

Если же вернуться к новой программе-генератору snarXiv, специализирующейся на физике высоких энергий, то по качеству выдаваемых ею абстрактов-резюме можно не сомневаться, что автору (или другим даровитым программистам) вполне по силам и создание полноценных «свободных от контекста» работ со всеми стандартными атрибутами научных статей, вроде вступления-заключения, списка литературы и так далее — за исключением собственно смысла.

Учитывая уже известные казусы с публикациями бессмысленных физических работ в теоретических журналах (вроде постмодернистских статей французских «специалистов по квантовой гравитации», братьев-телепродюсеров Богдановых), можно ожидать, что и с генератором бреда физики будут шутить еще не раз.

Ну а пока Дэвид Симмонс-Даффин на всякий случай стелет своему сайту соломку и тоже продолжает шутить: «К администрации arXiv.org – пожалуйста, не подавайте на меня в суд за кражу вашего файла CSS и вашей чудесной цветовой схемы. А также, Вернер Гейзенберг, если вы еще живы, пожалуйста, не засуживайте меня или мой компьютер за клевету»…