Двигаясь к петафлопсам

(Январь 2004)

О проектах суперкомпьютеров производительностью порядка квадриллионов операций в секунду.

0-htmt

Игрушки для взрослых

Будущее наступает незаметно. Поначалу в романах писателей-фантастов стандартным клише становится сюжет про гениальных детишек-хакеров, которые проникают в суперсекретные базы данных и военные наступательные/оборонительные системы, превращая свой домашний компьютер в грозное оружие.

А затем вдруг неожиданно выясняется, что в жизни реальной вполне рядовая игровая приставка подлежит суровым экспортным ограничениям в таких странах, как США или Япония, поскольку по действующему законодательству это вовсе даже не игрушка, а мощнейший компьютер, в руках врагов представляющий угрозу для национальной безопасности ведущих на планете держав.

С одной стороны, это, конечно, признак неповоротливости политиков, явно не поспевающих с коррекцией законодательства за стремительной поступью технологического прогресса. Так, еще в 2001 году весьма влиятельный в вашингтонских коридорах власти Центр стратегических и международных исследований (ЦСМИ, куда входят многие бывшие министры и главы разведслужб) подготовил специальный доклад, настоятельно рекомендующий Конгрессу США отказаться от контроля за экспортом высокопроизводительных компьютеров.

В этом докладе отмечено, что попытки наложения ограничений на экспорт вычислительной техники не только пагубно сказываются на развитии национальной промышленности, но и совершенно утратили ныне смысл, поскольку совершенно рядовой ноутбук превосходит по вычислительной мощности суперкомпьютеры 10-летней давности.

Строгие экспортные ограничения, принятые в США еще в давние годы Холодной войны, ранжируют компьютеры по миллионам теоретических операций в секунду или «мегатопсам» (MTOPS). Насколько подобный подход стал абсурден к началу 2000-х годов, демонстрируют хотя бы такие примеры.

С формальной точки зрения в условиях принятых законом ограничений запрещенным к зарубежным продажам оказалась детская, по сути дела, игрушка – игровая приставка PlayStation 2.

01-f-22-raptor

При этом F-22, один из наиболее продвинутых истребителей американских ВВС, в своё время был разработан с помощью суперкомпьютера Cray производительностью 958 MTOPS, что в 2001 году составляло примерно четверть производительности тогдашних процессоров Pentium III, находившихся в массовом производстве.

С другой стороны, опасения политиков и даже их попытки наложить запрет на свободные продажи компьютерной техники массового потребления можно если не понять, то хотя бы объяснить, если учесть, насколько легко собирается ныне мощный по всяким меркам суперкомпьютер.

Например, в мае 2003 года американские инженеры Национального центра суперкомпьютерных приложений при университете Иллинойса практически «влет» собрали Linux-кластер производительностью порядка половины терафлопса (т.е. 500 000 миллионов или полтриллиона операций в секунду). Столь мощный кластер был собран всего из 70 игровых приставок Sony PlayStation 2, приобретенных в магазине по розничной цене менее 200 долларов за штуку (arrakis.ncsa.uiuc.edu/ps2/).

02-ps2
Суперкомпьютерный кластер из PlayStation 2

На выбор конструкторов повлияли и заманчивая цена консоли, и ее весьма шустрый 128-битный процессор Emotion Engine, обеспечивающий 6,5 миллиардов операций в секунду. Кроме того (что самое, пожалуй, главное), Sony продает для PS2 специальный Linux-модуль, включающий поддержку высокоскоростного сетевого подсоединения и жесткого диска.

В итоге все закупленное оборудование по сути дела «с колес» заработало со стандартным сетевым коммутатором от Hewlett-Packard, а основное время сборки ушло на извлечение многих десятков игровых приставок из индивидуальной пластиковой упаковки.

[ВРЕЗКА]

Мега, гига, тера, пета…

Мегабайты жестких дисков и мегагерцы процессора быстро приучили пользователей ПК, что префикс «мега-» означает миллион или 10^6. Столь же легко народ освоил следующую ступень эволюции нашего языка – префикс «гига-«, означающий миллиард или 10^9.

Ныне явно пришла пора привыкать к еще одной этапной ступени – триллионным (10^12) единицам измерений, имеющим префикс «тера-«. Ну, и попутно понемногу готовиться к квадриллионам (тысяча триллионов или 10^15) с соответствующим префиксом «пета-«. (Если же кого-то вдруг мучает вопрос «а что дальше?», то дальше будет приставка «экза-«, обозначающая миллионы триллионов.)

До терагерцевых тактовых частот процессоров еще, конечно, далековато, однако терабайтные хранилища информации и терафлопсные суперкомпьютеры – это уже сегодняшний день. Термин «флопс», успевший прижиться в русском компьютерном сленге, представляет собой кальку с английского flops, аббревиатуры словосочетания «Floating Point operations per Second» – «операций с плавающей точкой (в русском «запятой») в секунду».

[Конец врезки]

Нынешнее поколение самых быстрых на планете суперкомпьютеров, показывающих производительность в десятки терафлопс и иначе именуемых системами класса high-end computing (HEC), требует для своего размещения просторные залы площадью в сотни квадратных метров и мегаватты электроэнергии для питания.

Для всех вполне, в общем-то, очевидно, что подобный подход к построению сверхвысокопроизводительных вычислителей – это вынужденная мера, продиктованная желанием побыстрее получить результаты, опираясь на уже имеющиеся в продаже решения.

Однако «настоящее будущее» суперкомпьютеров видится в небольших вычислительных платформах, обеспечивающих наращивание скорости, портативность системы и возможности ее масштабирования, т.е. эффективного увеличения производительности при росте числа объединяемых вычислительных узлов.

Сегодня уже мало кто задается вопросом, а зачем, собственно, нужны все эти невообразимые терафлопсы-петафлопсы. Например, по словам директора НАСА, ученым и конструкторам аэрокосмического агентства уже давно совершенно ясно, что для успешной работы ныне требуются компьютеры производительностью в десятки петафлопс.

Ведь разработка сложнейших систем – самолетов, спутников или космических кораблей и станций – по сию пору ведется эмпирическими методами, так что вполне обычными продолжают оставаться неприятные сюрпризы, когда на практике конструкция начинает вести себя нештатно и выходит из строя.

По сути дела, несмотря на строжайшую систему проверок, так и остается доминирующим метод проб и ошибок. И причина тому – острый недостаток вычислительных мощностей. Для тщательного структурного анализа конструкций и динамики полетов необходимы вычислительные системы с производительностью не менее 40 петафлопс.

В условиях традиционных производственных процессов компьютеры на кремниевых чипах подобного быстродействия достичь не могут, поскольку в рамках закона Мура петафлопсный уровень будет ими достигнут не ранее 2010 года. Поэтому для достижения желаемых целей – компьютеров терафлопсной, а в идеале и петафлопсной производительности в объемах настольной системы – требуются фундаментальные прорывы в системных архитектурах и конструкциях high-end-процессоров.

Это должно обеспечить сокращение в размерах, цене и потребляемой мощности как вычислительных платформ, таки и устройств массового хранения данных. При экспериментальных поисках оптимальных решений всегда высок риск неудач, но цель слишком заманчива, поэтому сейчас активно исследуется большое множество по-разному перспективных концепций – в области биомолекулярных и квантовых вычислений, гибридных нанотехнологий и реконфигурируемых систем на одном чипе, системных архитектур с высокой степенью интеграции компонент/устройств, и так далее.

Здесь же будут рассмотрены несколько петафлопсных компьютеров, реально запущенных в разработку на рубеже XX-XXI веков.

Неспетая песня HTMT

Среди наиболее перспективных новаторских концепций, суливших уверенно обогнать закон Мура, одно время лидером считались гибридные технологии.

Концепция принципиально новой компьютерной архитектуры HTMT (Hybrid Technology MultiThreaded, что можно перевести как «Гибридно-технологическая многопоточная архитектура») впервые была предложена в 1995 году учеными Калифорнийского технологического института Полом Мессиной и Томасом Стерлингом, который годом раньше возглавлял разработку первых ПК-кластеров Beowulf в Годдардском космическом центре.

Среди других основных соавторов концепции HTMT называют кочующего по университетам Северной Америки китайца Гуана Гао и нашего соотечественника Константина Лихарева, когда-то возглавлявшего лабораторию криоэлектроники в МГУ, а в начале 90-х перебравшегося в США. Ну, а для полноты картины можно еще упомянуть, что в одном из американских официальных документов утверждается, что на самом деле идея HTMT родилась в недрах АНБ, Агентства национальной безопасности США.

Как бы там ни было с авторством и происхождением, в основе данной концепции лежит уникальная модель многопоточной обработки данных (расщепление параллельных процессов на более мелкие независимые фрагменты – потоки и нити), сочетающаяся с комплексным («гибридным») использованием наиболее передовых компьютерных технологий.

Прежде всего, это криогенные системы сверхпроводниковой быстрой одноквантовой логики (БОК, или по-английски RSFQ от Rapid Single Flux Quantum logic), высокоскоростные полупроводниковые СБИС типа «процессор в памяти» или PIM (processor-in-memory), оптические межсоединения и голографические технологии хранения информации.

03-htmt-1b
Гипотетический вид HTMT в разрезе

[ВРЕЗКА]

БОК-логика и «вихрь данных»

Вычислительное ядро системы HTMT реализуют несколько тысяч ниобиевых сверхпроводниковых процессоров, работающих на основе БОК-логики. Сверхпроводниковая логика дает возможность в сотни раз повысить как скорость, так и эффективность энергопотребления по сравнению с традиционными процессорами.

Единицей представления информации в БОК являются одиночные кванты магнитного потока. Кванты перемещаются от вентиля к вентилю микроскопическими токами, наводимыми такими же квантами в управляющих контурах. Характерная тактовая частота БОК-устройств, реализованных по полумикронной технологии, составляет около 100 ГГц.

Чрезвычайно низка и мощность, потребляемая сверхпроводниковыми БОК-схемами. Даже с учетом того, что для работы БОК-устройств необходимо охлаждение до температуры жидкого гелия (от -269 до -264 градусов Цельсия), полная мощность, потребляемая сверхпроводниковой подсистемой компьютера с учетом криогенного оборудования, оценивается лишь в 500 киловатт.

Устройства, основанные на БОК-логике, являются также базовыми элементами сверхпроводниковых буферов памяти (СвОЗУ) и межпроцессорной пакетной сети. Эта сеть выполняет функции системной шины и позволяет передавать около 1 петабайта информации в секунду, что по грубым подсчетам превышает суммарный объем всех книг на Земле.

03-htmt-2
Архитектура HTMT

Важнейшие коммуникационные трассы HTMT-компьютера, объединяющие все банки динамической и статической полупроводниковой памяти, реализуются с помощью широкополосной оптической многоступенчатой пакетной сети, получившей название Data Vortex или «Вихрь данных».

Еще одна важная оптическая компонента HTMT – голографическая память. Плотность записи в оптических устройствах хранения и чрезвычайно низкое энергопотребление методов голографического светопреломления, а также нечувствительность к перебоям питания могут давать преимущества, на порядок превосходящие традиционные устройства памяти на основе полупроводниковых компонентов.

Один кристалл голографической памяти позволяет вмещать 1 гигабайт информации, считываемой и записываемой одномегабайтными страницами. Голографическим кристаллам отводится в архитектуре примерно та же роль, которую выполняют в современных компьютерах жесткие диски (виртуальная память, файловая система и т.д.).

[Конец врезки]

К 1997 году, после этапа начального изучения исходной концепции под патронажем Национального научного фонда США и АНБ, реалистичность предложенной архитектуры вполне подтвердилась. Стало ясно, что на базе HTMT петафлопсный компьютер вполне можно создать за существенно меньший период времени, нежели при традиционных подходах – уже к 2005 году.

Поэтому был дан старт солидному совместному проекту десятка исследовательских групп из ведущих университетов, а также правительственных и промышленных структур США. Финансировать работы взялись Военное агентство передовых исследований (DARPA), АНБ и НАСА, а общее управление проектом легло на Калтех и JPL (множество подробностей об интереснейшей архитектуре HTMT можно найти, к примеру, в материалах 2-й конференции по петафлопсным вычислениям – http://www.cacr.caltech.edu/pflops2/).

Поначалу все шестеренки машины по созданию небывалого «гиперкомпьютера» закрутились очень бойко, однако вскоре, в конце 1999 года произошло нечто неясное, но по сути дела застопорившее весь процесс. Официально никаких объявлений о сворачивании проекта не делалось, однако все публикации на сайтах участников проекта заканчиваются 1998-99 годами.

Года два назад (2001), в поисках объяснений автор обращался за комментариями к одному из непосредственных участников разработки HTMT Дмитрию Зиновьеву, совместно с Лихаревым занимавшемуся дизайном БОК-процессоров и межпроцессорной сети в Университете штата Нью-Йорк.

Дмитрий подтвердил, что проект действительно фактически умер в декабре 1999 года. Причиной тому стало мощнейшее урезание финансирования программы: военное агентство DARPA полностью отказалось от дальнейшего участия, значительно сократился вклад НАСА, АНБ не пожелало становиться ведущим спонсором, к тому же официально самоустранилась корпорация IBM, поначалу обещавшая изготовить плату для сверхпроводниковых процессоров.

В таких условиях взаимодействие между участниками проекта прекратилось, и все группы отправились в одиночное плавание, потеряв между собой контакты. Ну, а что стало наиболее вероятной причиной для прекращения финансирования HTMT, станет ясно из следующего раздела.

Blue Gene загадочный и многоликий

Именно в тот период, в декабре 1999-го года корпорация IBM объявила о запуске собственного петафлопсного проекта под названием Blue Gene (www.research.ibm.com/bluegene/). В создание суперкомпьютера производительностью 10^15 операций в секунду фирма запланировала вложить 100 миллионов долларов, а построить его – в течение пяти лет. Иначе говоря, в 2004 году, т.е. даже на год раньше самых оптимистических прогнозов для HTMT.

Как было заявлено в официальных пресс-релизах, петафлопсный «Голубой Ген» создается под вполне конкретную задачу – исследование сворачивания белков, поскольку понимание этого процесса представляет собой одну из наиболее фундаментальных проблем науки, скрывающую в себе широчайшие экономические и научные последствия, в частности, для борьбы с болезнями и разработки лекарств узконаправленного воздействия.

05-pf-2
Моделирование сворачивания белков

Чтобы преодолеть неумолимый закон Мура и построить петафлопсную машину лишь за треть того времени, что требуется при естественной эволюции массивно-параллельных систем, разработчикам IBM, по их словам, пришлось «переосмыслить компьютерную архитектуру».

Однако в целом можно говорить, что в отличие от HTMT в архитектуре Blue Gene нет ничего экзотического: она целиком опирается на старую-добрую технологию кремниевых чипов, которая «просто» примерно на поколение опережает нынешние процессы массового производства. В переводе на более конкретные характеристики эти слова означали, что IBM намерена размещать на одной системной плате по 64 процессора производительностью 32 гигафлопса каждый.

Другими словами, лишь одна такая плата обладает быстродействием 2 триллиона операций в секунду, а в настоящее время суперкомпьютеры подобной производительности занимают огромные машинные залы в главных, по преимуществу ядерных исследовательских центрах США. Ну, а в проекте Blue Gene лишь одна стойка-шкаф содержит сразу 8 этих чудо-плат, так что 64 таких стойки дают заветный петафлопс.

Столь поразительная новость звучала фантастикой. Оказывается, в обход закона Мура уже в принципе имеется технология упаковки микропроцессоров, позволяющая на одной системной плате изготовить 2-терафлопсный суперкомпьютер! И при этом ни на сайте IBM, ни в СМИ никто за прошедшие годы так и не разъяснил сколь-нибудь внятно, что же это за передовая технология.

К осени 2003 г. не опубликовано даже названия чудо-микропроцессора, положенного в основу Blue Gene. Понятно, что на пустом месте подобные чудеса рождаться не могут, и сбор обрывочных данных, разбросанных по Сети, позволяет в общих чертах восстановить картину, несмотря на завесу тайн и секретности. Подробности этой истории можно найти в материале «Жертвы аборта» , здесь же изложим самую суть.

По меньшей мере с 1994 года IBM проявляла интерес и оказывала помощь в разработках небольшой и сравнительно малоизвестной американской фирме Irvine Sensors. Эта компания работала по заказам военных и создала весьма специфический процесс «трехмерной» упаковки кремниевых чипов памяти, обеспечивающий высокую компактность и очень быстрые межсоединения.

К середине 1990-х годов был даже создан особый, сверхплотной 3D-упаковки процессор на основе английского «стринг-процессора» VASP для массивно-параллельных вычислений. В 1996 году Irvine Sensors получила контракт от министерства обороны США на создание недорогого и компактного терафлопсного суперкомпьютера размером с обычную рабочую станцию.

В 1998 году две таких машины под названием Irvine 3D VASP были созданы, а купивший их НИИ ВМС США (Office of Naval Research) с двумя новообретенными терафлопсами сразу оказался на престижном третьем месте в неофициальном «рейтинге Гюнтера Арендта», ранжирующем наиболее мощные вычислительные центры мира.

Однако вскоре всякое упоминание об Irvine 3D VASP из Интернета исчезло, а до бумажной прессы вся эта информация вообще не дошла. В начале 1999 года стало известно, что производственную линию для сверхплотной упаковки 3D-процессоров у Irvine Sensors выкупила корпорация IBM, а к концу того же года, как все помнят, пришло известие о петафлопсном проекте Blue Gene и одновременно было свернуто финансирование программы HTMT.

06-BGL
Архитектура Blue Gene/L

Вполне естественно, что даже при столь плотных завесах секретности большой интерес к Blue Gene со стороны военно-промышленного комплекса США просто не мог не проявиться. Осенью 2001 года было объявлено, что для ядерного научно-исследовательского центра LLNL (Ливерморская национальная лаборатория им. Лоуренса) корпорация IBM к концу 2004 года создаст суперкомпьютер Blue Gene/L на 65 тысячах процессоров для моделирования процессов старения, горения и взрывов ядерных материалов.

Новая «облегченная» архитектура Blue Gene/L позволит достигать вычислительной мощи в 200 триллионов операций в секунду. С одной стороны это лишь пятая доля петафлопса исходной архитектуры. Как это ни забавно, но об архитектуре «L» для центра исследований ядерного оружия опубликовано несравнимо больше информации, нежели о сугубо мирном первоначальном проекте.

Что же касается петафлопсного Blue Gene, ныне именуемого Blue Gene/P, то к лету 2003 года стало известно, что выделенные на проект 100 миллионов уже давно израсходованы, а нужный для терафлопсных плат суперпроцессор реально в IBM так еще и не создан. Поэтому сроки завершения проекта перенесены на 2006 год, а подробности о чудо-процессоре по-прежнему хранятся в тайне.

[ВРЕЗКА]

Blue Gene сортов /L, /С и /P

При создании Blue Gene разработчикам IBM, по их словам, пришлось «переосмыслить компьютерную архитектуру». Причем, похоже, неоднократно. Первым результатом такого переосмысления стала новая концепция под названием SMASH (simple, many, self-healing), т.е. «простая, множественная и самоисцеляющаяся» архитектура.

Благодаря SMASH суперкомпьютер Blue Gene в своем исходном варианте должен содержать 1 миллион процессоров, которые смогут обрабатывать 8 миллионов потоков одновременно. При таком количестве вычислительных элементов одно из важнейших мест в архитектуре занимают функции самостабилизации, автоматически устраняющие проблемы из-за сбоев в отдельных процессорах и вычислительных потоках.

Проект Blue Gene в своей первой инкарнации предусматривал упаковку 32 гигафлопсных процессора вместе с DRAM-памятью в объем единой микросхемы, в результате чего такой чип должен обладать производительностью 32 миллиарда операций в секунду. 64 таких чипа размещаются на системной плате размером 60х60 см, в результате чего каждая такая плата имеет вычислительную мощь 2 терафлопса. Восемь 2-терафлопсных монтируются в единую стойку высотой около 1,8 м, так что для сбора петафлопсной машины понадобится 64 таких шкафа.

07-peta
Петафлопсный компьютер Blue Gene

Затем исходные планы претерпели изменения, и появилась «облегченная» архитектура Blue Gene/L, опирающаяся не на сверхплотно упакованные 32-процессорные чипы новой конструкции, а на более традиционные микросхемы, похожие на IBM-овскую линию процессоров PowerPC.

Каждый такой чип содержит два процессора (один для вычислений, другой для коммуникаций с остальными процессорами), а также встроенную оперативную память, так что по скорости передачи данных модифицированная архитектура «L» превосходит исходную архитектуру. Тысяча двухпроцессорных модулей Blue Gene/L монтируется в стойку размером примерно с холодильник, а 65 таких стоек будут занимать в общей сложности площадь размером с половину теннисного корта.

Это существенно меньше чем размеры находящегося в том же центре LLNL суперкомпьютера-чемпиона IBM ASCI White, занимающего одну из верхних строк в Top500, рейтинге самых быстрых машин планеты, а в здании Ливерморского центра – площадь размером с две баскетбольные площадки. В целом же, по подсчетам IBM, в сравнении с ASCI White машина Blue Gene/L будет в 15 раз быстрее, в 15 раз более экономичной по потреблению энергии и более чем в 50 раз компактней по площади в пересчете на терафлопс производительности.

В параллельном экспериментальном проекте, получившем название Cyclops, ведутся работы по упаковке процессоров Blue Gene/L в единую микросхему. В один чип планируется упаковать до 64 процессоров, а система на основе этой разработки получила название Blue Gene/C. На основании тестовых результатов, сравнивающих производительность систем Blue Gene/L и Cyclops, будет принято решение о конструкции окончательной петафлопсной машины, ныне именуемой Blue Gene/P.

[Конец врезки]

Японский ответ – Protein Explorer

На ноябрьской суперкомпьютерной конференции International SuperComputing 2003 (г. Феникс, США) группа японских разработчиков представила свой проект новейшего супервычислителя Protein Explorer («Белковый исследователь») с расчетной производительностью 1 петафлопс, т.е. квадриллион (10^15) операций с плавающей точкой в секунду.

Этот специализированный суперкомпьютер скоро будет создан в Научном центре геномики при Институте физических и химических исследований (RIKEN), г. Иокогама, и, как следует из его названия, предназначен для задач моделирования поведения больших биомолекул и предсказания мутаций белков.

Японцы заявляют, что намерены сделать Protein Explorer «первым петафлопсным компьютером», т.е. ввести его в строй раньше, чем IBM Blue Gene (скорее всего, в начале 2006 года). В основу японской разработки положен заказной микропроцессор собственной конструкции MDGRAPE-3, но интересно, что и здесь не обошлось без руки IBM.

Исторически сложилось так, что японские процессоры MD-GRAPE известны в области суперкомпьютерных вычислений меньше всего. Хотя вряд ли это справедливо. Японское исследовательское подразделение корпорации IBM (IBM Research Division) и токийский институт RIKEN тесно сотрудничают последние несколько лет в деле создания чипа-ускорителя, позволяющего в условиях массивно-параллельной архитектуры очень быстро обсчитывать все межатомные силы в задачах молекулярной динамики.

Подобные задачи являются чудовищно трудоемкими, поскольку при моделировании взаимодействий приходится учитывать силы, действующие между множеством частиц, а количество операций растет пропорционально квадрату количества частиц, стремительно делая задачу неподъемной при обычных вычислительных ресурсах.

08-mdgrape2_PCI
Чипы на плате MD-GRAPE

История процессоров GRAPE началась в первой половине 1990-х годов, когда в Токийском университете разработали архитектуру специализированного ускорителя для обсчета задач гравитационных взаимодействий многих тел, например, при моделировании эволюции галактики. Отсюда, собственно и пошло название процессора, как сокращение от GRAvity PipE, т.е. «гравитационный конвейер».

Затем класс задач был расширен до более широкого спектра проблем молекулярной динамики, физики плазмы гидродинамики и т.д., а в названии появился префикс MD. К 2000-му году была освоена технология изготовления специальных ускорительных PCI-плат, несущих на себе до 16 спецпроцесооров и превращающих обычный ПК или рабочую станцию в мощный суперкомпьютер. Чипы MD-GRAPE2 для этих плат были изготовлены в США, подразделением IBM Microelectronics Division (г. Берлингтон).

Заметным результатом этого сотрудничества с IBM стал суперкомпьютер MDM (Molecular Dynamics Machine, «машина молекулярной динамики», mdm.riken.go.jp), в 2001 году установивший абсолютный мировой рекорд в скорости вычислений – 75 терафлопс.

К сожалению, этот рекорд не зафиксирован в официальном мировом рейтинге суперкомпьютеров Top500, поскольку по давно установившимся правилам машины здесь ранжируются по результатам единого теста Linpack (решение большой системы линейных уравнений), а MDM – специализированный компьютер, на который тест Linpack ложится плохо.

Поэтому в Top500 с 2002 года чемпионом считается другая японская машина, векторный суперкомпьютер «Симулятор Земли» производительностью 35,86 терафлопс, собранный фирмой NEC и исследующий задачи по метеорологии и моделированию климата планеты в научном центре Earth Simulator Center.

Насколько можно судить по предварительному описанию петафлопсной японской машины Protein Explorer, она в значительной степени повторяет конструкцию MDM, только на существенно более продвинутой элементной базе – пиковая производительность чипа MDGRAPE-3 достигла 165 гигафлопс, а одной ускорительной PCI-платы на его основе – 3,96 терафлопс. Дополнительные подробности о конструкции этого суперкомпьютера можно найти здесь: http://www.sc-conference.org/sc2003/paperpdfs/pap168.pdf .

[ВРЕЗКА]

Как работает MD-GRAPE

Плата с MD-GRAPE подключается к обычному компьютеру через шину PCI. В принципе хост-компьютер может быть каким угодно – от небольшого ПК до гигантского массива работающих в параллели рабочих станций. Через каждый заданный интервал времени хост-машина рассылает на платы MD-GRAPE информацию о последних состояниях взаимодействующих частиц. Платы же автоматически вычисляют и возвращают на хост значения всех сил, действующих на каждую из частиц (если надо, то и их энергию). На основании этих данных хост-компьютер перемещает частицы, и цикл повторяется.

Если говорить конкретно об архитектуре Protein Explorer, то для этой системы хост-машиной будет служить простой кластер из 256 узлов-ПК. В каждый из этих ПК через шину PCI-X будет вставлена ускорительная плата расширения, несущая по 24 чипа MDGRAPE-3 с 20-ю конвейерами и широковещательной параллелизацией памяти (общая память для всех конвейеров). Пиковая производительность одного чипа MDGRAPE-3 составляет 165 гигафлопс. Таким образом, производительность одной PCI-X-платы достигает 3,96 терафлопс. Несложно подсчитать, что в целом «Белковый исследователь» будет состоять из 6144 спецпроцессоров с суммарной пиковой производительностью 1 петафлопс.

09-PExp-1
Архитектура Protein Explorer

[Конец врезки]

Что дальше?

Осенью 2002 года альянс компаний IBM, Sony и Toshiba известил мир о завершении совместной разработки (в чертежах) архитектуры уникального чипа, суперпроцессора Cell, который может стать основой для будущей игровой консоли PlayStation 3 и прочей бытовой электроники. Технических данных о чипе Cell опубликовано немного, но и то, что известно, весьма впечатляет.

По словам разработчиков, Cell имеет модульную структуру, что позволяет при необходимости выпускать чипы с разным количеством ядер – от 4 до 16, – так что некоторые из них будут отвечать за обработку звука и графики, другие – за общие вычисления. В целом же суперпроцессор в максимальной конфигурации будет способен выполнять до триллиона математических операций в секунду, т.е. в сто раз больше, скажем, чем процессор Pentium 4 с тактовой частотой 2,5 ГГц.

Появившиеся в печати весной 2003 года сведения об архитектуре Cell конкретно для Playstation 3 утверждают, что здесь будет 4 ядра общей производительностью 256 гигафлопс (каждая «ячейка» содержит базовый процессор, предположительно Power PC, плюс еще 8 векторных процессоров, каждый с памятью по 128 Мб). На время опубликования этих данных подобная игровая консоль легко вошла бы примерно в середину Top500, рейтинга самых быстрых суперкомпьютеров планеты.

К настоящему времени в планах Sony наблюдается неопределенность относительно сроков выпуска PS3 к концу 2004 г., ходят даже слухи, что следующей будет сразу PS4. Но как бы там ни было, учитывая уже имеющийся опыт, можно предсказывать, что и будущие Playstation, и вообще архитектура Cell благодаря своим характеристикам имеет все шансы стать основой грядущих суперкомпьютерных кластеров.

Если же хочется заглянуть в более отдаленное будущее, сулящее совершенно новые и порой экзотические формы суперкомпьютеров, то имеет смысл заглянуть в правительственные планы США по финансированию работ в области high-end-вычислений. Например, в «Голубую книгу» рекомендаций Национального координационного совета по исследованиям в области инфотехнологий (www.ccic.gov/pubs/).

На самых видных местах, естественно, в перспективных планах стоят квантовые компьютеры и системы на основе биологических молекул. Но кроме того, имеется и масса более «традиционных» прожектов по разработке новых 3D-архитектур и гибридных технологий, а также реконфигурируемых систем, обеспечивающих создание адаптивных и полиморфных вычислителей.

Еще одно направление под названием «молектроника» (molectronics), как нетрудно понять из названия, сулит создание компьютеров на молекулярном уровне, где сокрыт потенциал высочайшего быстродействия и плотности процессорной мощи. Наконец, технология «умная ткань» (smart fabric) вместе с процессорами вплетает непосредственно в одежду батареи питания, оптоволоконные нити и металлические коннекторы, что в общей сложности позволит непосредственно на себе носить суперкомпьютер производительностью в десятки терафлопс.

Зачем иметь при себе столь мощный вычислительный ресурс, сегодня никто уже не спрашивает. Давно прошли те времена, когда разработчики первых ПК задавались вопросами типа таких: «А зачем, собственно, в быту может понадобиться оперативная память объемом свыше 640 килобайт»?

# # #