Сайт о телевидении

Сайт о телевидении

» » Linux и симметричная многопроцессорная система. Архитектурные решения многопроцессорных систем

Linux и симметричная многопроцессорная система. Архитектурные решения многопроцессорных систем

Раскройте силу Linux в системах SMP

Быстродействие системы Linux вы можете увеличить разными способами, и один из наиболее популярных -- увеличить производительность процессора. Очевидное решение -- использовать процессор с большей тактовой частотой, но для любой технологии существует физическое ограничение, когда тактовый генератор просто не может работать быстрее. При достижении этого предела вы можете использовать гораздо лучший подход и применить несколько процессоров. К сожалению, быстродействие имеет нелинейную зависимость от совокупности параметров отдельных процессоров.

Прежде чем обсуждать применение многопроцессорной обработки в Linux, давайте взглянем на ее историю.

История многопроцессорной обработки

Многопроцессорная обработка зародилась в середине 1950-х в ряде компаний, некоторые из которых вы знаете, а некоторые, возможно, уже забыли (IBM, Digital Equipment Corporation, Control Data Corporation). В начале 1960-х Burroughs Corporation представила симметричный мультипроцессор типа MIMD с четырьмя CPU, имеющий до шестнадцати модулей памяти, соединенных координатным соединителем (первая архитектура SMP). Широко известный и удачный CDC 6600 был представлен в 1964 и обеспечивал CPU десятью подпроцессорами (периферийными процессорами). В конце 1960-х Honeywell выпустил другую симметричную мультипроцессорную систему из восьми CPU Multics.

В то время как многопроцессорные системы развивались, технологии также шли вперед, уменьшая размеры процессоров и увеличивая их способности работать на значительно большей тактовой частоте. В 1980-х такие компании, как Cray Research, представили многопроцессорные системы и UNIX®-подобные операционные системы, которые могли их использовать (CX-OS).

В конце 1980-х с популярностью однопроцессорных персональных компьютеров, таких как IBM PC, наблюдался упадок в многопроцессорных системах. Но сейчас, двадцать лет спустя, многопроцессорная обработка вернулась к тем же самым персональным компьютерам в виде симметричной многопроцессорной обработки.

Закон Амдаля

Джин Амдаль (Gene Amdahl), компьютерный архитектор и сотрудник IBM, разрабатывал в IBM компьютерные архитектуры, создал одноименную фирму, Amdahl Corporation и др. Но известность ему принес его закон, в котором рассчитывается максимально возможное улучшение системы при улучшении ее части. Закон используется, главным образом, для вычисления максимального теоретического улучшения работы системы при использовании нескольких процессоров (смотри Рисунок 1).

Рисунок 1. Закон Амдаля для распараллеливания процессов

Используя уравнение, показанное на Рисунке 1, вы можете вычислить максимальное улучшение производительности системы, использующей N процессоров и фактор F , который указывает, какая часть системы не может быть распараллелена (часть системы, которая последовательна по своей природе). Результат приведен на Рисунке 2.

Рисунок 2. Закон Амдаля для системы, имеющей до десяти CPU

Верхняя линия на Рисунке 2 показывает число процессоров. В идеале это то, что вы хотели бы увидеть после добавления дополнительных процессоров для решения задачи. К сожалению, из-за того что не все в задаче может быть распараллелено и есть непроизводительные издержки в управлении процессорами, ускорение оказывается немного меньше. Внизу (лиловая линия) -- случай задачи, которая на 90% последовательна. Лучшему случаю на этом графике соответствует коричневая линия, которая изображает задачу, которая на 10% последовательна и, соответственно, на 90% -- параллелизуема. Даже в этом случае десять процессоров работают совсем не намного лучше, чем пять.

Многопроцессорная обработка и ПК

Архитектура SMP -- одна из тех, где два или более идентичных процессоров соединены друг с другом посредством разделяемой памяти. У всех них одинаковый доступ к разделяемой памяти (одинаковое время ожидания доступа к пространству памяти). Противоположностью ей является архитектура неоднородного доступа к памяти (NUMA -- Non-Uniform Memory Access). Например, у каждого процессора есть своя собственная память и доступ к разделяемой памяти с разным временем ожидания.

Слабосвязанная многопроцессорная обработка

Ранние SMP системы Linux были слабосвязанными многопроцессорными системами, то есть построенными из нескольких отдельных систем, связанных высокоскоростным соединением (таким как 10G Ethernet, Fibre Channel или Infiniband). Другое название такого типа архитектуры -- кластер (смотрите Рисунок 3), для которого популярным решением остается проект Linux Beowulf. Кластеры Linux Beowulf могут быть построены из доступного оборудования и обычного сетевого соединения, такого как Ethernet.

Рисунок 3. Слабосвязанная многопроцессорная архитектура

Построение систем со слабосвязанной многопроцессорной архитектурой просто (спасибо проектам вроде Beowulf), но имеет свои ограничения. Создание большой многопроцессорной сети может потребовать значительных мощностей и места. Более серьезное препятствие -- материал канала связи. Даже с высокоскоростной сетью, такой как 10G Ethernet, есть предел масштабируемости системы.

Сильносвязанная многопроцессорная обработка

Сильносвязанная многопроцессорная обработка относится к обработке на уровне кристалла (CMP -- chip-level multiprocessing). Представьте слабосвязанную архитектуру, уменьшенную до уровня кристалла. Это и есть идея сильносвязанной многопроцессорной обработки (также называемой многоядерным вычислением). На одной интегральной микросхеме несколько кристаллов, общая память и соединение образуют хорошо интегрированное ядро для многопроцессорной обработки (смотрите Рисунок 4).

Рисунок 4. Сильносвязанная архитектура многопроцессорной обработки

В CMP несколько CPU связаны общей шиной с разделяемой памятью (кэш второго уровня). Каждый процессор также имеет свою собственную быстродействующую память (кэш первого уровня). Сильносвязанная природа CMP позволяет очень короткие физические расстояния между процессорами и памятью и, вследствие этого, минимальное время ожидания доступа к памяти и более высокую производительность. Такой тип архитектуры хорошо работает в многопоточных приложениях, где потоки могут быть распределены между процессорами и выполняться параллельно. Это называется параллелизм на уровне потоков (TPL -- thread-level parallelism).

Принимая во внимание популярность этой многопроцессорной архитектуры, многие производители выпускают устройства CMP. В Таблице 1 приведены некоторые популярные варианты с поддержкой Linux.

Таблица 1. Выборка устройств CMP
Производитель Устройство Описание
IBM POWER4 SMP, два CPU
IBM POWER5 SMP, два CPU, четыре параллельных потока
AMD AMD X2 SMP, два CPU
Intel® Xeon SMP, два или четыре CPU
Intel Core2 Duo SMP, два CPU
ARM MPCore SMP, до четырех CPUs
IBM Xenon SMP, три Power PC CPU
IBM Cell Processor Асимметричная многопроцессорная обработка (ASMP --Asymmetric multiprocessing), девять CPU

Конфигурация ядра

Для того чтобы использовать SMP с Linux на совместимом с SMP оборудовании, необходимо правильно настроить ядро. Опция CONFIG_SMP должна быть включена во время настройки ядра, чтобы ядро знало об SMP. Если такое ядро будет работать на многопроцессорном хосте, вы сможете определить количество процессоров и их тип с помощью файловой системы proc.

Сначала вы получаете число процессоров из файла cpuinfo в /proc, используя grep . Как видно из Листинга 1, вы используете опцию -- счетчик (-c) строк, начинающихся со слова processor . Приведено также содержимое файла cpuinfo . В качестве примера взята материнская плата Xeon на двух кристаллах.

Листинг 1. Использование файловой системы proc для получения информации о CPU
mtj@camus:~$ grep -c ^processor /proc/cpuinfo 8 mtj@camus:~$ cat /proc/cpuinfo processor: 0 vendor_id: GenuineIntel cpu family: 15 model: 6 model name: Intel(R) Xeon(TM) CPU 3.73GHz stepping: 4 cpu MHz: 3724.219 cache size: 2048 KB physical id: 0 siblings: 4 core id: 0 cpu cores: 2 fdiv_bug: no hlt_bug: no f00f_bug: no coma_bug: no fpu: yes fpu_exception: yes cpuid level: 6 wp: yes flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe nx lm pni monitor ds_cpl est cid xtpr bogomips: 7389.18 ... processor: 7 vendor_id: GenuineIntel cpu family: 15 model: 6 model name: Intel(R) Xeon(TM) CPU 3.73GHz stepping: 4 cpu MHz: 3724.219 cache size: 2048 KB physical id: 1 siblings: 4 core id: 3 cpu cores: 2 fdiv_bug: no hlt_bug: no f00f_bug: no coma_bug: no fpu: yes fpu_exception: yes cpuid level: 6 wp: yes flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe nx lm pni monitor ds_cpl est cid xtpr bogomips: 7438.33 mtj@camus:~$

SMP и ядро Linux

Когда только появился Linux 2.0, поддержка SMP состояла из основной системы блокировки, которая упорядочивала доступ в системе. Позднее небольшой прогресс в поддержке SMP был, но только с ядром 2.6 наконец проявилась вся сила SMP.

Ядро 2.6 представило новый 0(1) планировщик, который включал лучшую поддержку для систем SMP. Ключевой была возможность балансировать нагрузку на все доступные CPU, по мере сил избегая переключения процессов между процессорами для более эффективного использования кэша. Что касается производительности кэша, вспомните из Рисунка 4, что когда задача взаимодействует с одним CPU, перемещение ее на другой требует вовлечения кэша. Это увеличивает время ожидания доступа к памяти задачи, пока ее данные находятся в кэше нового CPU.

Ядро 2.6 сохраняет пару runqueue для каждого процессора (истекший и активный runqueue). Каждый runqueue поддерживает 140 приоритетов, из которых 100 используется для задач в реальном времени, а остальные 40 для пользовательских задач. Задачам даются отрезки времени для выполнения, а когда они используют свое время, они перемещаются из активного runqueue в истекший. Таким образом осуществляется равноправный доступ к CPU для всех задач (блокировка только отдельных CPU).

С очередью задач на каждом CPU работа может быть сбалансирована, давая взвешенную нагрузку всех CPU в системе. Каждые 200 миллисекунд планировщик выполняет балансировку загрузки, чтобы перераспределить задания и сохранить баланс в комплексе процессоров. Больше информации о планировщике Linux 2.6 ищите в разделе .

Потоки пользовательского пространства: развивая силу SMP

В ядре Linux была проделана большая работа для развития SMP, но операционной системы, самой по себе, недостаточно. Вспомните, что сила SMP заключается в TLP. Отдельные монолитные (одно-поточные) программы не могут использовать SMP, но SMP может использоваться в программах, которые состоят из многих потоков, которые могут быть распределены между ядрами. Пока один поток ожидает выполнения операции I/O, другой может делать полезную работу. Таким образом, потоки работают, перекрывая время ожидания друг друга.

Потоки стандарта Portable Operating System Interface (POSIX) (интерфейс переносимой операционной системы) являются прекрасным способом построить поточные приложения, которые могут использовать SMP. Потоки стандарта POSIX обеспечивают механизм работы с потоками, а также общую память. Когда программа активизируется, создается некоторое количество потоков, каждый из которых поддерживает свой собственный стек (локальные переменные и состояние), но разделяет пространство данных родителя. Все созданные потоки разделяют это же самое пространство данных, но именно здесь кроется проблема.

Чтобы поддерживать многопоточный доступ к разделяемой памяти, требуются механизмы координирования. POSIX предоставляет функцию взаимного исключения для создания критических секций , которые устанавливают исключительный доступ к объекту (участку памяти) только для одного потока. Если этого не сделать, может повредиться память из-за несинхронизованных манипуляций, производимых несколькими потоками. Листинг 2 иллюстрирует создание критической секции с помощью взаимного исключения POSIX.

Листинг 2. Использование pthread_mutex_lock и unlock для создания критических секций
pthread_mutex_t crit_section_mutex = PTHREAD_MUTEX_INITIALIZER; ... pthread_mutex_lock(&crit_section_mutex); /* Внутри критической секции. Доступ к памяти здесь безопасен * для памяти, защищенной crit_section_mutex. */ pthread_mutex_unlock(&crit_section_mutex);

Если несколько потоков пытаются заблокировать семафор после начального вызова наверху, они блокируются, и их запросы ставятся в очередь, пока не выполнится вызов pthread_mutex_unlock .

Защита переменной ядра для SMP

Когда несколько ядер в процессоре работает параллельно для ядра ОС, желательно избегать совместного использования данных, которые специфичны для данного ядра процессора. По этой причине ядро 2.6 представило концепцию переменных для каждого ядра, которые связаны с отдельными CPU. Это позволяет объявлять переменные для CPU, которые наиболее часто используются именно этим CPU, что минимизирует требования блокировок и улучшает выполнение.

Определение переменных отдельного ядра производится при помощи макроса DEFINE_PER_CPU , которому вы передаете тип и имя переменной. Поскольку макрос поступает как l-value, здесь же вы можете инициализировать ее. В следующем примере (из./arch/i386/kernel/smpboot.c) определяется переменная, представляющая состояние для каждого CPU в системе.

/* State of each CPU. */ DEFINE_PER_CPU(int, cpu_state) = { 0 };

Макрос создает массив переменных, одну на каждый экземпляр CPU. Для получения переменной отдельного CPU используется макрос per_cpu вместе с функцией smp_processor_id , возвращающей текущий идентификатор CPU, для которого в данный момент выполняется программа.

per_cpu(cpu_state, smp_processor_id()) = CPU_ONLINE;

Ядро предоставляет другие функции для блокировки каждого CPU и динамического выделения переменных. Эти функции можно найти в./include/linux/percpu.h.

Заключение

Когда частота процессора достигает своего предела, для увеличения производительности обычно просто добавляют еще процессоры. Раньше это означало добавить больше процессоров к материнской плате или объединить в кластер несколько независимых компьютеров. Сегодня многопроцессорная обработка на уровне кристалла предоставляет больше процессоров на одном кристалле, давая еще большее быстродействие путем уменьшения времени ожидания памяти.

Системы SMP вы найдете не только на серверах, но и на десктопах, особенно с внедрением виртуализации. Как многие передовые технологии, Linux предоставляет поддержку для SMP. Ядро выполняет свою часть по оптимизации загрузки доступных CPU (от потоков до виртуализованных операционных систем). Все, что остается, это убедиться, что приложение может быть в достаточной мере разделено на потоки, чтобы использовать силу SMP.

Для MIMD-систем в настоящее время общепризнанна классификация, основанная на используемых способах организации оперативной памяти в этих системах. По этой классификации, прежде всего, различают мультипроцессорные вычислительные системы (или мультипроцессоры) или вычислительные системы с разделяемой памятью (multiprocessors, common memory systems, shared-memory systems) и мультикомпьютерные вычислительные системы (мультикомпьютеры) или вычислительные системы с распределенной памятью (multicomputers, distributed memory systems). Структура мультипроцессорной и мультикомпьютерной систем приведена рис. 1, где - процессор, - модуль памяти.

Рис. 1. а) - структура мультипроцессора; б) – структура мультикомпьютера.

Мультипроцессоры.

В мультипроцессорах адресное пространство всех процессоров является единым. Это значит, что если в программах нескольких процессоров мультипроцессора встречается одна и та же переменная, то для получения или изменения значения этой переменной эти процессоры будут обращаться в одну физическую ячейку общей памяти. Это обстоятельство имеет как положительные, так и отрицательные последствия.

С одной стороны, не нужно физически перемещать данные между коммутирующими программами, что исключает затраты времени на межпроцессорный обмен.

С другой стороны, так как одновременное обращение нескольких процессоров к общим данным может привести к получению неверных результатов, необходимы системы синхронизации параллельных процессов и обеспечения когерентности памяти. Поскольку процессорам необходимо очень часто обращаться к общей памяти, требования к пропускной способности коммуникационной среды чрезвычайно высоки.

Последнее обстоятельство ограничивает число процессоров в мультипроцессорах несколькими десятками. Остроту проблемы доступа к общей памяти частично удается снять разделением памяти на блоки, которые позволяют распараллелить обращения к памяти от различных процессоров.

Отметим еще одно преимущество мультипроцессоров – мультипроцессорная система функционирует под управлением единственной копией операционной системы (обычно, UNIX-подобной) и не требует индивидуальной настройки каждого процессорного узла.

Однородные мультипроцессоры с равноправным (симметричным) доступом к общей оперативной памяти принято называть SMP-системами (системами с симметричной мультипроцессорной архитектурой). SMP-системы появились как альтернатива дорогим мультипроцессорным системам на базе векторно-конвейерных процессоров и векторно-параллельных процессоров (см. Рис.2).


Мультикомпьютеры.

Вследствие простоты своей архитектуры наибольшее распространение в настоящее время получили мультикомпьютеры. Мультикомпьютеры не имеют общей памяти. Поэтому межпроцессорный обмен в таких системах осуществляется обычно через коммуникационную сеть с помощью передачи сообщений.

Каждый процессор в мультикомпьютере имеет независимое адресное пространство. Поэтому наличие переменной с одним и тем же именем в программах разных процессоров, приводит к обращению к физически разным ячейкам собственной памяти этих процессоров. Это обстоятельство требует физического перемещения данных между коммутирующими программами в разных процессорах. Чаще всего основная часть обращений производится каждым процессором к собственной памяти. Поэтому требования к коммутационной среде ослабляются. В результате число процессоров в мультикомпьютерных системах может достигать нескольких тысяч, десятков тысяч и даже сотен тысяч.

Пиковая производительность крупнейших систем с общей памятью ниже пиковой производительности крупнейших систем с распределенной памятью; стоимость систем с общей памятью выше стоимости аналогичных по производительности систем с распределенной памятью.

Однородные мультикомпьютеры с распределенной памятью называются вычислительными системами с массивно-параллельной архитектурой (MPP-системами) - см. рис.2.

Нечто среднее между SMP-системами и MPP-системами представляют собой NUMA-системы.


Кластерные системы (вычислительные кластеры).

Кластерные системы (вычислительные кластеры) представляют собой более дешевый вариант MPP-систем. Вычислительный кластер состоит из совокупности персональных компьютеров или рабочих станций), объединенных локальной сетью в качестве коммуникационной среды. Детально вычислительные кластеры рассмотрены позже.

Рис. 2. Классификация мультипроцессоров и мультикомпьютеров.

SMP-системы

Все процессоры SMP-системы имеют симметричный доступ к памяти, т.е. память SMP-системы представляет собой UMA-память. Под симметричностью понимается следующее: равные права всех процессоров на доступ к памяти; одна и та же адресация для всех элементов памяти; равное время доступа всех процессоров системы к памяти (без учета взаимных блокировок).

Общая структура SMP-системы приведена на рис. 3. Коммуникационная среда SMP-системы строится на основе какой-либо высокоскоростной системной шины или высокоскоростного коммутатора. Кроме одинаковых процессоров и общей памяти M к этой же шине или коммутатору подключаются устройства ввода-вывода.

За кажущейся простотой SMP-систем скрываются значительные проблемы, связанные в основном с оперативной памятью. Дело в том, что в настоящее время скорость работы оперативной памяти значительно отстает от скорости работы процессора. Для того чтобы сгладить этот разрыв, современные процессоры снабжаются высокоскоростной буферной памятью (кэш-памятью). Скорость доступа к этой памяти в несколько десятков раз превышает скорость доступа к основной памяти процессора. Однако наличие кэш-памяти нарушается принцип равноправного доступа к любой точке памяти, поскольку данные, находящиеся в кэш-памяти одного процессора, недоступны для других процессоров. Поэтому после каждой модификации копии переменной, находящейся в кэш-памяти какого-либо процессора, необходимо производить синхронную модификацию самой этой переменной, расположенной в основной памяти. В современных SMP-системах когерентность кэш-памяти поддерживается аппаратно или операционной системой.

Рис. 3. Общая структура SMP-системы

Наиболее известными SMP-системами являются SMP-cерверы и рабочие станции IBM, HP, Compaq, Dell, Fujitsu и др. SMP-система функционирует под управлением единой операционной системой (чаще всего – UNIX и подобной ей).

Из-за ограниченной пропускной способности коммуникационной среды SMP-системы плохо масштабируются. В настоящее время в реальных системах используется не более нескольких десятков процессоров.

Известным неприятным свойством SMP-систем является то, что их стоимость растет быстрее, чем производительность при увеличении числа процессоров в системе.

MPP-системы.

MPP-системы строится из процессорных узлов, содержащих процессор, локальный блок оперативной памяти, коммуникационный процессор или сетевой адаптер, иногда - жесткие диски и/или другие устройства ввода/вывода. По сути, такие модули представляют собой полнофункциональные компьютеры (см. рис. 4.). Доступ к блоку оперативной памяти данного модуля имеет только процессор этого же модуля. Модули взаимодействуют между собой через некоторую коммуникационную среду. Используются два варианта работы операционной системы на MPP-системах. В одном варианте полноценная операционная система функционирует только на управляющей ЭВМ, а на каждом отдельном модуле работает сильно урезанный вариант операционной системы, поддерживающий только базовые функции ядра операционной системы. Во втором варианте на каждом модуле работает полноценная UNIX-подобная операционная система. Заметим, что необходимость наличия (в том или ином виде) на каждом процессоре MPP-системы операционной системы, позволяет использовать только ограниченный объем памяти каждого из процессоров.

По сравнению с SMP-системами, архитектура MPP-системы устраняет одновременно как проблему конфликтов при обращении к памяти, так и проблему когерентности кэш-памяти.

Главным преимуществом MPP-систем является хорошая масштабируемость. Так супер-ЭВМ серии CRAY T3E, способны масштабироваться до 2048 процессоров. Практически все рекорды по производительности на сегодняшний день установлены именно на MPP-системах, состоящих из нескольких тысяч процессоров.

Рис. 4. Общая структура MPP-системы.

С другой стороны, отсутствие общей памяти заметно снижает скорость межпроцессорного обмена в MPP-системах. Это обстоятельство для MPP-систем выводит на первый план проблему эффективности коммуникационной среды.

Кроме того, в MPP-системах требуется специальная техника программирования для реализации обмена данными между процессорами. Этим объясняется высокая цена программного обеспечения для MPP-систем. Этим же объясняется то, что написание эффективных параллельных программ для MPP-систем представляет собой более сложную задачу, чем написание таких же программ для SMP-систем. Для широкого круга задач, для которые известны хорошо зарекомендовавшие себя последовательные алгоритмы, не удается построить эффективные параллельные алгоритмы для MPP-систем.

NUMA-системы.

Логически общий доступ к данным может быть обеспечен и при физически распределенной памяти. При этом расстояние между различными процессорами и различными элементами памяти, вообще говоря, различно и длительность доступа различных процессоров к различным элементам памяти различна. Т.е. память таких систем представляет собой NUMA-память.

NUMA-система обычно строится на основе однородных процессорных узлов, состоящих из небольшого числа процессоров и блока памяти. Модули объединены с помощью некоторой высокоскоростной коммуникационной среды (см. рис. 5). Поддерживается единое адресное пространство, аппаратно поддерживается доступ к удаленной памяти, т.е. к памяти других модулей. При этом доступ к локальной памяти осуществляется в несколько раз быстрее, чем к удаленной. По существу, NUMA-система представляет собой MPP-систему, где в качестве отдельных вычислительных элементов используются SMP-узлы.

Среди NUMA-систем выделяют следующие типы систем:

  • COMA-системы , в которых в качестве оперативной памяти используется только локальная кэш-память процессоров (cache-only memory architecture - COMA);
  • CC-NUMA-системы , в которых аппаратно обеспечивается когерентность локальной кэш-памяти разных процессоров (cache-coherent NUMA - CC-NUMA);
  • NCC-NUMA-системы , в которых аппаратно не поддерживается когерентность локальной КЭШ памяти разных процессоров (non-cache coherent NUMA - NCC-NUMA). К данному типу относится, например, система Cray T3E.

Рис. 5. Общая структура NUMA-системы.

Логическая общедоступность памяти в NUMA-системах, с одной стороны, позволяет работать с единым адресным пространством, а, с другой стороны, позволяет достаточно просто обеспечить высокую масштабируемость системы. Данная технология позволяет в настоящее время создавать системы, содержащие до нескольких сот процессоров.

NUMA-системы серийно производятся многими компьютерными фирмами как многопроцессорные серверы и прочно удерживают лидерство в классе малых суперкомпьютеров.

5.2. Симметричная многопроцессорная архитектура SMP

SMP (symmetric multiprocessing ) – симметричная многопроцессорная архитектура. Главной особенностью систем с архитектурой SMP (рис.5.5) является наличие общей физической памяти, разделяемой всеми процессорами.

Рисунок 5.5 – Схематический вид SMP-архитектуры

Память служит, в частности, для передачи сообщений между процессорами, при этом все вычислительные устройства при обращении к ней имеют равные права и одну и ту же адресацию для всех ячеек памяти. Поэтому SMP-архитектура называется симметричной. Последнее обстоятельство позволяет очень эффективно обмениваться данными с другими вычислительными устройствами.

SMP-система строится на основе высокоскоростной системной шины (SGI PowerPath, Sun Gigaplane, DEC TurboLaser), к слотам которой подключаются функциональные блоки типов: процессоры (ЦП), подсистема ввода/вывода (I/O) и т. п. Для подсоединения к модулям I/O используются уже более медленные шины (PCI, VME64).

Наиболее известными SMP-системами являются SMP-cерверы и рабочие станции на базе процессоров Intel (IBM, HP, Compaq, Dell, ALR, Unisys, DG, Fujitsu и др.) Вся система работает под управлением единой ОС (обычно UNIX-подобной, но для Intel-платформ поддерживается Windows NT). ОС автоматически (в процессе работы) распределяет процессы по процессорам, но иногда возможна и явная привязка.

Основные преимущества SMP-систем:

- простота и универсальность для программирования . Архитектура SMP не накладывает ограничений на модель программирования, используемую при создании приложения: обычно используется модель параллельных ветвей, когда все процессоры работают независимо друг от друга. Однако можно реализовать и модели, использующие межпроцессорный обмен. Использование общей памяти увеличивает скорость такого обмена, пользователь также имеет доступ сразу ко всему объему памяти. Для SMP-систем существуют довольно эффективные средства автоматического распараллеливания;

- простота эксплуатации . Как правило, SMP-системы используют систему кондиционирования, основанную на воздушном охлаждении, что облегчает их техническое обслуживание;

- относительно невысокая цена .

Недостатки:

- системы с общей памятью плохо масштабируются .

Этот существенный недостаток SMP-систем не позволяет считать их по-настоящему перспективными. Причиной плохой масштабируемости является то, что в данный момент шина способна обрабатывать только одну транзакцию, вследствие чего возникают проблемы разрешения конфликтов при одновременном обращении нескольких процессоров к одним и тем же областям общей физической памяти.

В настоящее время конфликты могут происходить при наличии 8-24 процессоров. Все это очевидно препятствует увеличению производительности при увеличении числа процессоров и числа подключаемых пользователей. В реальных системах можно задействовать не более 32 процессоров. Для построения масштабируемых систем на базе SMP используются кластерные или NUMA-архитектуры. При работе с SMP-системами используют так называемую парадигму программирования с разделяемой памятью (shared memory paradigm).

SMP архитектура

SMP архитектура (symmetric multiprocessing) - cимметричная многопроцессорная архитектура. Главной особенностью систем с архитектурой SMP является наличие общей физической памяти, разделяемой всеми процессорами.

Память является способом передачи сообщений между процессорами, при этом все вычислительные устройства при обращении к ней имеют равные права и одну и ту же адресацию для всех ячеек памяти. Поэтому SMP архитектура называется симметричной.

Основные преимущества SMP-систем:

Простота и универсальность для программирования. Архитектура SMP не накладывает ограничений на модель программирования, используемую при создании приложения: обычно используется модель параллельных ветвей, когда все процессоры работают абсолютно независимо друг от друга - однако, можно реализовать и модели, использующие межпроцессорный обмен. Использование общей памяти увеличивает скорость такого обмена, пользователь также имеет доступ сразу ко всему объему памяти. Для SMP-систем существуют сравнительно эффективные средства автоматического распараллеливания.

Легкость в эксплуатации. Как правило, SMP-системы используют систему охлаждения, основанную на воздушном кондиционировании, что облегчает их техническое обслуживание.

Относительно невысокая цена.

Недостатки:

Системы с общей памятью, построенные на системной шине, плохо масштабируемы
Этот важный недостаток SMP-системы не позволяет считать их по-настоящему перспективными. Причины плохой масштабируемости состоят в том, что в данный момент шина способна обрабатывать только одну транзакцию, вследствие чего возникают проблемы разрешения конфликтов при одновременном обращении нескольких процессоров к одним и тем же областям общей физической памяти.

MPP архитектура

MPP архитектура (massive parallel processing) - массивно-параллельная архитектура. Главная особенность такой архитектуры состоит в том, что память физически разделена. В этом случае система строится из отдельных модулей, содержащих процессор, локальный банк операционной памяти (ОП), два коммуникационных процессора (рутера) или сетевой адаптер, иногда - жесткие диски и/или другие устройства ввода/вывода.

Главное преимущество:

Главным преимуществом систем с раздельной памятью является хорошая масштабируемость: в отличие от SMP-систем в машинах с раздельной памятью каждый процессор имеет доступ только к своей локальной памяти, в связи с чем не возникает необходимости в потактовой синхронизации процессоров. Практически все рекорды по производительности на сегодняшний день устанавливаются на машинах именно такой архитектуры, состоящих из нескольких тысяч процессоров (ASCI Red, ASCI Blue Pacific).

Недостатки:

Отсутствие общей памяти заметно снижает скорость межпроцессорного обмена, поскольку нет общей среды для хранения данных, предназначенных для обмена между процессорами. Требуется специальная техника программирования для реализации обмена сообщениями между процессорами.
каждый процессор может использовать только ограниченный объем локального банка памяти.
вследствие указанных архитектурных недостатков требуются значительные усилия для того, чтобы максимально использовать системные ресурсы. Именно этим определяется высокая цена программного обеспечения для массивно-параллельных систем с раздельной памятью.

PVP архитектура

PVP (Parallel Vector Process) - параллельная архитектура с векторными процессорами.
Основным признаком PVP-систем является наличие специальных векторно-конвейерных процессоров, в которых предусмотрены команды однотипной обработки векторов независимых данных, эффективно выполняющиеся на конвейерных функциональных устройствах. Как правило, несколько таких процессоров (1-16) работают одновременно с общей памятью (аналогично SMP) в рамках многопроцессорных конфигураций. Несколько таких узлов могут быть объединены с помощью коммутатора (аналогично MPP). Поскольку передача данных в векторном формате осуществляется намного быстрее, чем в скалярном (максимальная скорость может составлять 64 Гб/с, что на 2 порядка быстрее, чем в скалярных машинах), то проблема взаимодействия между потоками данных при распараллеливании становится несущественной. И то, что плохо распараллеливается на скалярных машинах, хорошо распараллеливается на векторных. Таким образом, системы PVP архитектуры могут являться машинами общего назначения (general purpose systems). Однако, поскольку векторные процессоры весьма дороги, эти машины не будут являться общедоступными.

Кластерная архитектура

Кластер представляет собой два или больше компьютеров (часто называемых узлами), объединяемых при помощи сетевых технологий на базе шинной архитектуры или коммутатора и предстающих перед пользователями в качестве единого информационно-вычислительного ресурса. В качестве узлов кластера могут быть выбраны серверы, рабочие станции и даже обычные персональные компьютеры. Преимущество кластеризации для повышения работоспособности становится очевидным в случае сбоя какого-либо узла: при этом другой узел кластера может взять на себя нагрузку неисправного узла, и пользователи не заметят прерывания в доступе.

Зако́н Амдала (англ. Amdahl"s law , иногда также Закон Амдаля-Уэра ) - иллюстрирует ограничение ростапроизводительности вычислительной системы с увеличением количества вычислителей. Джин Амдалсформулировал закон в 1967 году, обнаружив простое по существу, но непреодолимое по содержанию ограничение на рост производительности при распараллеливании вычислений: «В случае, когда задача разделяется на несколько частей, суммарное время её выполнения на параллельной системе не может быть меньше времени выполнения самого длинного фрагмента». Согласно этому закону, ускорение выполнения программы за счётраспараллеливания её инструкций на множестве вычислителей ограничено временем, необходимым для выполнения её последовательных инструкций.

Математическое выражение

Предположим, что необходимо решить некоторую вычислительную задачу. Предположим, что её алгоритм таков, что доля от общего объёма вычислений может быть получена только последовательными расчётами, а, соответственно, доля может быть распараллелена идеально (то есть время вычисления будет обратно пропорционально числу задействованных узлов ). Тогда ускорение, которое может быть получено на вычислительной системе из процессоров, по сравнению с однопроцессорным решением не будет превышать величины

Иллюстрация

Таблица показывает, во сколько раз быстрее выполнится программа с долей последовательных вычислений при использовании процессоров. . Так, если половина кода - последовательная, то общий прирост никогда не превысит двух.

]Идейное значение

Закон Амдала показывает, что прирост эффективности вычислений зависит от алгоритма задачи и ограничен сверху для любой задачи с . Не для всякой задачи имеет смысл наращивание числа процессоров в вычислительной системе.

Более того, если учесть время, необходимое для передачи данных между узлами вычислительной системы, то зависимость времени вычислений от числа узлов будет иметь максимум. Это накладывает ограничение на масштабируемость вычислительной системы, то есть означает, что с определенного момента добавление новых узлов в систему будет увеличивать время расчёта задачи.

Владислав Шаров

Говоря о многопроцессорных вычислительных системах, помимо производительности, необходимо назвать и другие их особенности. Прежде всего это необычные архитектурные решения, направленные на повышение производительности. Вообще говоря, понятие архитектуры высокопроизводительной системы достаточно широко, поскольку под архитектурой можно понимать и способ параллельной обработки данных, используемый в системе, и организацию памяти, и топологию связи между процессорами, и способ исполнения системой арифметических операций.

Мультипроцессорная обработка используется на больших ЭВМ уже более 30 лет. Подобные системы состоят из набора совместно используемых запоминающих устройств и нескольких центральных процессоров, работающих под управлением одной копии ОС. Современные архитектуры, как правило, состоят из нескольких однородных микропроцессоров и массива общей памяти. Все процессоры в системе имеют доступ к любой точке памяти (обычно через шину и/или коммутатор). За распараллеливание процессов между процессорами отвечает ОС. Стандарт де-факто для построения многопроцессорных серверов на базе процессоров Intel Itanium 2 - архитектура SMP ccNUMA (Symmetric MultiProcessing with cache coherent Non Uniform Memory Access).

До недавнего времени симметричность в SMP относилась к роли процессоров в работе ОС: имелось в виду, что все процессоры могут "видеть" всю память и способны выполнять любую задачу, которую им назначает ОС. С появлением технологий с неоднородным доступом к памяти - NUMA (Non-Uniform Memory Access) производителям компьютерного оборудования потребовалось провести различие между системами с поддержкой NUMA и другими серверными архитектурами. Вообще говоря, NUMA - это архитектура памяти, используемая в многопроцессорных системах, где время доступа зависит от местонахождения памяти. Все процессоры могут "видеть" всю память, но конкретный процессор работает с собственной локальной памятью гораздо быстрее, нежели с нелокальной, которая, в свою очередь, будет локальной для другого процессора или разделяется между несколькими процессорами. NUMA, как и SMP, позволяет объединить вычислительную мощность множества процессоров, каждый из которых обращается к общему пулу памяти. Однако в этом случае для связи процессоров друг с другом они организованы в небольшие группы, или узлы. Например, 16-процессорный сервер может содержать четыре узла по четыре процессора. Каждый узел имеет собственный пул памяти.

Поскольку в традиционных системах время доступа ко всем модулям памяти в серверах было однородным или "симметричным", то такие системы обозначались и как "память с однородным доступом" - UMA (Unified Memory Access), и как симметричные мультипроцессорные системы - SMP. Последний вариант получил более широкое распространение. С точки зрения ОС, системы NUMA "симметричны", поскольку все процессоры имеют равные права, но с точки зрения аппаратных характеристик их нельзя считать SMP-системами.

Базовая архитектура SMP

Ключевое понятие многопроцессорных архитектур - узел. Он представляет собой вычислительную систему, состоящую из одного или нескольких процессоров, имеющую оперативную память и систему ввода-вывода (рис. 1). Узел характеризуется тем, что на нем работает единственная копия ОС. Симметричный многопроцессорный (SMP) узел содержит два или более одинаковых и равноправных процессора. Все процессоры имеют одинаковый доступ к вычислительным ресурсам узла. В качестве базы для построения SMP-систем чаще всего используются три системных решения: магистральная шина, масштабируемое когерентное соединение и коммутатор.

Рис. 1. Архитектура SMP.

Самый простой и самый общий метод построения SMP-платформы - соединить процессоры и память с помощью шины. Положительная сторона этого решения состоит в том, что процессоры легко взаимодействуют как с памятью, так и между собой. Недостаток же в том, что по шине в каждый момент времени может передаваться только одно сообщение. Таким образом, именно шина становится потенциально узким местом.

На шине, используемой для серверов на основе процессоров Intel, каждый процессор может "следить" за любым другим и отслеживать запросы к памяти. Именно так реализуется когерентность кэш-памяти. Если один процессор обнаруживает, что другой обращается к памяти по какому-то из принадлежащих первому адресов (т. е. у него имеется самая свежая копия данных), то процессор отвечает на запрос и выгружает данные из своей кэш-памяти. При необходимости записать данные по адресу процессор запрашивает права на использование ресурса и оставляет их за собой до тех пор, пока он снова не выгрузит "устаревшие" данные обратно в память, или до тех пор, пока другой процессор не затребует эти права.

Известно, что в SMP-системе любой процесс может выполняться на любом процессоре, но повторный запуск отложенного ранее процесса на другом процессоре приводит к отрыву того от кэшированных данных, и новый процессор, включившийся в работу, должен будет работать со скоростью основной памяти до тех пор, пока процесс не наберет достаточно ссылок для перезагрузки данных в кэш-память данного процессора. Ответственность за смягчение остроты этой проблемы также ложится на ОС. Именно она должна следить за тем, какой процессор данный процесс использовал последним, и пытаться поддержать эту связь. Поддержание равновесия между этой процедурой и предотвращением простоя процессора - достаточно сложная задача. Если процесс переключается с одного процессора на другой, то производительность второго процессора будет страдать из-за промахов считывания информации, отсутствующей в кэш-памяти, до тех пор, пока он не загрузит данные процесса из оригинального процессора. ПО поддержания сходности процессов процессора смягчает эту ситуацию, пытаясь удерживать процесс на одном и том же процессоре.

Этот подход оказался очень успешным в случае четырехпроцессорных серверов, однако ему присущ ряд ограничений, которые не позволяют применять его в среде с большим числом обрабатываемых транзакций. Другое ограничение данного подхода - низкая готовность. Отказ одного из компонентов может сделать шину недоступной для других. Определить, какой именно компонент вышел из строя, очень сложно, в особенности если нельзя запустить ОС, и тогда вся система выводится из эксплуатации на период тестирования и ремонта. Конструкции на основе технологии ccNUMA и неблокируемого коммутатора используют компоненты, которые можно изолировать, продиагностировать и в некоторых случаях восстановить, при этом остальные составляющие системы продолжают поддерживать работу ОС и приложений.

Для создания 16- или 32-процессорных систем предназначена технология SCI - масштабируемое когерентное межсоединение (Scalable Coherent Interconnect). Несколько четырехпроцессорных системных плат соединяются при помощи SCI и конфигурируются как одна большая многопроцессорная система. Хотя на первый взгляд она напоминает локальную сеть, на самом деле это не так. SCI - это двоично-последовательное кольцо, работающее с высокой скоростью и с очень малым временем латентности. Система выглядит как кластер, но таковым не является. Выполняется только одна копия ОС, которая "видит" единую, непрерывную, большую память, распределенную на все четырехпроцессорные платы. С точки зрения ОС это SMP-система, поскольку все процессоры имеют равную ответственность. Но очевидно, что доступ процессора к индивидуальным модулям памяти и к кэшированным процессорами данным несимметричен. Доступ процессора к удаленной памяти занимает в несколько раз больше времени в сравнении с доступом к локально хранящимся данным, т. е. это системы с неоднородным доступом к памяти.

Архитектура NUMA-Q

Считается, что один из прорывов в компьютерных технологиях связан с компанией Sequent (которая в 1999 г. была куплена корпорацией IBM). История ее такова: в 1983 г. в Портленде (шт. Орегон, США) восемнадцать бывших сотрудников компании Intel под руководством Кейси Пауэлла организовали компанию Sequel. Она ориентировалась на создание вычислительных архитектур для обслуживания ИТ в самых трудоемких сферах работы с деловой информацией: в оперативной обработке транзакций, в системах поддержки принятия решений и деловых коммуникациях. В начале 80-х, когда самые трудные задачи решались на мэйнфреймах, Sequel поставила своей целью создать вычислительную платформу, которая существенно превосходила бы возможности однопроцессорных систем, но при этом строилась на самых распространенных и недорогих процессорах от Intel.

Компания Sequel, переименованная в 1987 г. в Sequent Computer Systems, реализовала первую SMP-версию ОС Unix, обладающую независимой от процессора архитектурой; а в мае 1987 г. анонсировала первую компьютерную систему Symmetry (Unix SMP), масштабируемую до 30 процессоров Intel. Первая ОС SMP Unix компании Sequent называлась DYNIX и представляла собой развитие BSD 4.2. В 1990 г. Sequent выпустила новую версию ОС для своих машин на основе Unix System V; эта версия получила название DYNIX/ptx. На требования увеличить надежность систем Sequent ответила созданием в 1992 г. кластеров для Unix. Кроме того, Sequent небезуспешно решала одну из главных проблем архитектуры SMP - преодоление барьера масштабируемости, подняв планку с помощью архитектуры NUMA почти на порядок.

NUMA уменьшает нагрузку на шину по сравнению с SMP, поскольку процессоры в узлах взаимодействуют друг с другом и со своей локальной оперативной памятью через отдельные шины. Кроме того, они могут обращаться к пулам памяти других узлов, хотя время доступа зависит от того, насколько эти узлы удалены друг от друга. Поэтому такую архитектуру часто называют архитектурой с распределенной разделяемой памятью. В NUMA может быть задействовано 256 и даже 512 процессоров.

Обеспечение когерентности

Несколько процессоров могут разделять доступ к одной и той же памяти, если им обеспечена широкая полоса пропускания за счет использования большой многоуровневой кэш-памяти. Поскольку процессоры одновременно работают с данными, хранящимися в единой памяти узла, в подобной архитектуре обязательно должен быть механизм поддержки когерентности данных. Когерентность данных означает, что в любой момент времени для каждого элемента данных во всей памяти узла существует только одно его значение, несмотря на то, что одновременно могут существовать несколько копий элемента данных, расположенных в разных видах памяти и обрабатываемых разными процессорами. Механизм когерентности должен следить за тем, чтобы операции с одним и тем же элементом данных выполнялись на разных процессорах последовательно, удаляя, в частности, устаревшие копии. В современных SMP-архитектурах когерентность реализуется аппаратными средствами.

Известны два основных класса протоколов когерентности кэш-памяти, один из которых строится на основе справочника (directory based). В этом случае информация о состоянии блока физической памяти содержится только в одном месте, называемом справочником (физически справочник может быть распределен по узлам системы). В протоколах наблюдения (snooping) каждая кэш-память, которая содержит копию данных некоторого блока физической памяти, имеет соответствующую копию служебной информации о ее состоянии. Централизованная система записей отсутствует. Обычно кэш-память расположена на общей (разделяемой) шине, и все ее контроллеры наблюдают за шиной (просматривают ее), чтобы определить, не содержат ли они копию соответствующего блока.

В мультипроцессорных системах, где применяются процессоры с кэш-памятью, подсоединенные к централизованной общей памяти, популярны протоколы наблюдения, поскольку для опроса состояния кэш-памяти они могут использовать уже существующее физическое соединение (шину памяти). Кэширование на основе каталога удваивает пропускную способность шины, но требует более сложных аппаратных средств и вызывает дополнительные задержки при пересылке данных между памятью и обеими шинами.

В отличие от классической архитектуры NUMA, при использовании кэш-когерентного доступа к неоднородной памяти - ccNUMA (cache coherent NUMA) все процессоры объединены в один узел (рис. 2), причем первый уровень иерархии памяти образует их кэш-память, а ccNUMA поддерживает когерентность внутри узла аппаратно. В системах ccNUMA распределенная память представляется единым адресным пространством. Не происходит никакого копирования страниц или данных. Нет программной передачи сообщений для синхронизации доступа. Есть просто единый массив памяти (хотя физически он состоит из отдельных частей). Аппаратная когерентность кэш-памяти означает, что не требуется никакого ПО для поддержки актуальности множества копий данных. Все это выполняется на аппаратном уровне так же, как в любом SMP-узле, с одним экземпляром ОС и множеством процессоров. В свою очередь NUMA-Q - это, по сути, реализация архитектуры ccNUMA компанией Sequent.

Рис. 2. Архитектура ccNUMA.

Элементарным блоком платформы NUMA-Q (рис. 3) служил квод (quad), в котором объединялись четыре процессора, блок разделяемой памяти и шина PCI с семью слотами. Несколько кводов можно было объединить для формирования более крупного одиночного SMP-узла с аппаратно-реализованной кэш-когерентностью. Кэш-когерентное соединение, устанавливаемое между шинами, называлось IQ-Link. Оно было практически полностью прозрачно для программ, подобно обычной кэш-памяти. В традиционном смысле память в каждом кводе не была локальной; скорее, это была одна треть адресного пространства физической памяти, имевшая собственный адресный диапазон. Адресная карта распределялась по памяти равномерно, при этом каждый квод содержал смежную часть адресного пространства. Например, если требуемый адрес находился за пределами диапазона локальной памяти квода, поиск распространялся на кэш-память IQ-Link, которая называлась удаленной. Доступ к ней осуществлялся с такой же скоростью, как и к локальной памяти квода. Если и в кэш-памяти IQ-Link данные не удавалось найти, отсылался запрос на шину IQ-Link. После того как требуемое значение загружалось из другого квода, оно сохранялось в удаленной кэш-памяти IQ-Link запрашивающего квода.


Рис. 3. Архитектура NUMA-Q.

CMP-архитектура

Корпорация Unisys (http://www.unisys.com) впервые обнародовала свои планы создания 32-процессорного сервера в 1997 г. А вот поддерживать и совершенствовать SMP-архитектуры на базе процессоров Intel компания начала еще в 1991 г. Ее фирменной разработкой стала СМР (Cellular MultiProcessing) - перестраиваемая симметрично-многопроцессорная архитектура, которая позволяла комбинировать традиционную мультипроцессорную архитектуру SMP и кластерные технологии.

Ячейки CMP - это процессорные элементы, называемые sub-pods, или сells. CMP проектировалась в расчете на 64-разрядный Itanium, однако задержки с выпуском этого процессора привели к тому, что первые версии CMP-серверов использовали 32-разрядный Pentium III Xeon. Одновременно Unisys позаботилась о возможном сосуществовании процессоров Xeon и Itanium в рамках одной CMP-системы. В настоящее время на базе CMP-архитектуры выпускается два семейства серверов ES7000 (рис. 4): Aries (32-разрядные процессоры) и Orion (64-разрядные).

Рис. 4. Сервер Unisys Orion 560.

Итак, в каждой процессорной ячейке CMP (рис. 5) установлено четыре процессора. Кроме имеющегося у каждого кристалла стандартной кэш-памяти 2-го уровня, в архитектуру элемента включена разделяемая между четырьмя процессорами кэш-память 3-го уровня TLC (Third Level Cache). Очевидно, что применение в CMP-серверах кэш-памяти 3-го уровня, имеющей большую емкость, способно существенно поднять производительность, особенно в случае бизнес-приложений, для которых характерен интенсивный обмен данными с оперативной памятью. Что касается оперативной памяти, то емкость блока MSU (Memory Storage Unit) наращивается блоками.

Рис. 5. Базовая архитектура CMP.

Устройство управления памятью, подсистема ввода-вывода и процессоры в процессорном элементе связаны между собой при помощи матричного коммутатора (crossbar), а не посредством традиционной системной шины. Технология коммутации, пришедшая из мира мэйнфреймов, уже давно применяется и в SMP-серверах как типичный архитектурный прием. Преимущество этой архитектуры перед шиной - устранение конфликтов на системной шине и соответственно отсутствие перегрузок.

Подсистема ввода-вывода в СМР основывается на стандартных интерфейсах PCI (PCI-X). Однако, чтобы повысить эффективность путем использования режима DMA, три шины PCI, входящие в состав процессорного элемента, связаны с коммутатором через специальный мост ввода-вывода DIB (Direct I/O Bridge). Каждая шина имеет несколько PCI-слотов.

Процессорный элемент представляет собой почти готовую SMP-систему, использующую матричный коммутатор вместо системной шины. Разработчики заложили в CMP уникальные особенности, обеспечивающие возможность статического и динамического парционирования (разбиения) SMP-сервера и приводящие к преобразованию всей SMP-системы в кластер, в свою очередь, построенный из SMP-серверов с числом процессоров, кратным четырем. Отметим, что в кластерах на базе CMP-систем возможно совместное использование оперативной памяти (shared memory), т. е. узлы могут взаимодействовать через общее поле оперативной памяти. Для повышения производительности предлагается использовать технику интерливинга (interleaving), когда байты 0-63 берутся из первого MSU, байты 64-127 - из второго и т. д. Выделение разделов в СМР предполагает, что в каждом из них может работать своя ОС.

Серверы серии ES7000 построены на основе монтируемой в стойку конструкции-ячейки высотой 4U (18 см), содержащей от четырех до восьми процессоров. Объединив до четырех ячеек, можно создать серверы с числом процессоров до 32. Все модели располагают специализированными сервисными процессорами для дистанционного управления и экземпляром программы Unisys Server Sentinel.

Архитектура NUMAFlex

Усилия корпорации SGI (http://www.sgi.com) по разработке собственной версии архитектуры ccNUMA воплотились в серверы семейства Origin 3x00. Эти компьютеры, построенные на базе технологии NUMAflex, имеют архитектуру памяти NUMA 3 (поскольку это уже третье поколение подобной архитектуры). Благодаря модульной конструкции серверы SGI легко масштабируются под конкретную задачу или приложение с использованием набора базовых модулей, при этом вычислительная мощность сервера наращивается от двух до 512 процессоров.

Напоминающая по своему принципу детский конструктор, модульная архитектура NUMAflex позволяет отказаться от обычной практики покупки высокопроизводительных серверов с заведомым запасом мощности. Теперь пользователи могут расширять и модернизировать в своих системах только необходимые элементы или добавлять новые технологии по мере их появления. Благодаря NUMAflex каждый модуль системы наделяется своей конкретной функцией и может быть через высокоскоростное соединение связан с другими модулями разных типов, образуя единую конфигурацию. В зависимости от конфигурации одни и те же модули можно использовать для последующей модернизации или повышения производительности.

NUMAflex действительно отличается особой гибкостью при построении различных конфигураций системы и ее изменении "на лету", в процессе функционирования. В NUMAflex реализована возможность разбиения всей системы ccNUMA на разделы (партиции, или домены), которые также представляют собой ccNUMA- или SMP-компьютеры. Деление на разделы позволяет преображать систему ccNUMA в кластерную структуру. Узлами этого кластера могут быть опять-таки ccNUMA-cерверы.

К числу основных преимуществ архитектуры NUMAflex следует отнести отказ от использования больших системных плат, характерных для систем с множеством процессоров. Это не только удешевляет конструкцию, но и повышает ее общую надежность, поскольку устраняет системную шину как единую точку сбоя для относительно большого числа процессоров.

Архитектура NUMAflex строится на базе модулей семи различных типов, которые называются "кирпичами" (brick): C-brick - процессорный модуль, I-brick - модуль базового ввода-вывода, R-brick - коммутационный модуль, P-brick - модуль расширения PCI, D-brick - дисковый модуль, X-brick - расширение XIO для высокопроизводительного ввода-вывода и G-brick - графический модуль (InfiniteReality). "Кирпичи" снабжены собственными источниками питания, что повышает отказоустойчивость системы в целом. Они помещаются в стандартную стойку, причем для небольших систем рекомендуется конструктив 17U.

Один из важнейших компонентов архитектуры NUMA 3 - специализированная микросхема Bedrock. Этот матричный коммутатор с восемью входами и шестью выходами действует как контроллер между процессорами и локальной и удаленной памятью. Кроме того, он предоставляет процессору канал в систему ввода-вывода. Отметим также, что восьмипортовый высокопроизводительный матричный коммутатор находится в узле маршрутизатора.

В блоке питания размещается от трех до шести распределенных источников питания с горячей заменой, обеспечивающих напряжение 48 В для C-, I-, P-, X- и R-кирпичей. Источники всегда устанавливаются в избыточной конфигурации N+1, чтобы никакой индивидуальный отказ не затронул работу сервера в целом.

Высокая гибкость архитектуры NUMAflex, обусловленная применением заменяемых модулей, позволяет строить различные конфигурации и сохраняет инвестиции пользователя при модернизации. Приобретаются только те "кирпичи", которые действительно необходимы, и уже из них складывается компьютер нужной конфигурации.

Отметим также, что в системах Origin 3x00 с 512 процессорами можно выделить 32 раздела. Минимальный домен должен содержать один вычислительный модуль, включающий два или четыре процессора. Каждая партиция имеет собственные средства ввода-вывода, свой IP-адрес и работает под управлением собственной версии ОС. Для обеспечения связи между разделами-узлами кластера используется NUMAlink 3 - стандартное соединение, которое дает гораздо более высокую пропускную способность и более низкие задержки, чем традиционные каналы связи между узлами кластеров. При разбиении сервера NUMAflex на разделы с переходом к кластерной структуре можно построить систему высокой доступности, причем от обычного кластера этого типа она будет отличаться высокой производительностью каналов, соединяющих узлы. Благодаря использованию доменов обеспечивается эффективное управление рабочей нагрузкой, т. е. разделение ресурсов между коллективами пользователей или группами задач. Кроме того, допускается модернизация ОС при одновременном продолжении эксплуатации текущей версии. Повышение отказоустойчивости происходит за счет устранения общих точек сбоя и образования кластеров высокой доступности.

Концепция FAME

Концепция FAME (Flexible Architecture for Multiple Environments), предложенная корпорацией Bull (http://www.bull.com), позволяет с помощью высокоскоростных коммутаторов создавать SMP-системы и строить кластеры с архитектурой ссNUMA. Специалисты Bull оптимизировали архитектуру NUMA для построения больших SMP-систем из блоков QBB (Quad Brick Block) с четырьмя процессорами Intel Itanium 2 и отдельной памятью. Кроме модулей QBB, в систему включены модули ввода-вывода IOB (Input Output Boxes). Такой набор компонентов обеспечивает модульность за счет комбинирования процессоров и памяти и ввода-вывода, что позволяет строить как простейшие системы начального уровня, так и объединенную архитектуру самой высокой мощности с помощью репликации и межсоединений.

Описанная выше конструкция основана на использовании инженерами Bull высокоскоростных межсоединений и микросхемы FSS (FAME Scalability Switch), которая обеспечивает для каждого процессора доступ к вводу-выводу и согласованное обращение к общей памяти (объем последней может достигать 256 Гбайт). Заметим, что эта память образуется путем объединения модулей памяти каждого QBB.

Устройство FSS, в производстве которого используется 0,18-мкм технология КМОП с медными межсоединениями, представляет собой кристалл со стороной 18 м. Он состоит из 60 млн транзисторов и имеет 1520 контактов ввода-вывода, что, безусловно, делает FSS одной из самых сложных микросхем. Устройство FSS обеспечивает единство информации в масштабах всей системы, независимо от того, где находится эта информация - в основной памяти или скопирована в кэш-память процессоров. Таким образом, FSS позволяет построить большую многопроцессорную систему с единым адресным пространством. FSS также оптимизирует трафик между процессорами и синхронизирует передачу данных внутри сервера.

Таким образом, 32-процессорная система состоит из модулей, каждый из которых содержит два FSS - для защиты от сбоев и повышения пропускной способности, до четырех QBB и двух блоков ввода-вывода (IOB). Модули связаны между собой за счет соединения FSS каждого модуля через четыре канала XSP (eXtended Scalability Port) с тактовой частотой 2,5 ГГц и общей пропускной способностью свыше 25 Гбайт/с. Пропускная способность памяти обеспечивается за счет агрегирования контроллеров памяти SNC (Scalability Node Controller), установленных на каждом четырехпроцессорном блоке, - пропускная способность памяти у каждого SNC равна 6,4 Гбайт/с (до 25 Гбайт/с для всех его интерфейсов). В максимальной конфигурации архитектура FAME обеспечивает пропускную способность памяти свыше 50 Гбайт/с.

Особое внимание было уделено оптимизации задержек доступа к памяти за счет эффективной организации фильтрации трафика согласования содержания кэш-памяти. В результате удалось значительно уменьшить трафик внутри QBB. Так называемый коэффициент NUMA - обычно самое слабое звено в системах, состоящих из "кирпичиков", - также значительно улучшился. Он равен 1:2:3 (время доступа к памяти в том же QBB, в другом QBB того же модуля и QBB в другом модуле соответственно), поэтому архитектура FAME обеспечивает высокую производительность даже в случае ПО, которое не было специально настроено для NUMA.

Подсистема ввода-вывода FAME разрабатывалась с целью оптимизировать доступ к данным и сети. Использование стандартных доступных на рынке компонентов и мощных функций коммутации позволило легко интегрировать новейшие технологии. Система была настроена для получения производительности ввода-вывода, которая соответствовала бы вычислительной мощности. При этом четверть пропускной способности FSS выделяется для ввода-вывода. Будучи архитектурой для больших корпоративных систем, FAME реализует достаточную пропускную способность с несколькими быстрыми шинами PCI-X (восемь на один IOB), что обеспечивает работу высокоскоростных контроллеров (например, FCS/Fibre Channel 2 Гбит/с) без интерференции и с улучшенным исправлением ошибок. Использование сетей хранения данных SAN обеспечивает использование резервных каналов для эффективной балансировки нагрузки подсистемы ввода-вывода. Более того, подсистема ввода-вывода обеспечивает очень высокую масштабируемость и производительность: пиковую пропускную способность ввода-вывода до 6 Гбит/с, в установившемся режиме - 2 Гбит/с, 250-300 тыс. операций ввода-вывода в секунду.

Все периферийные и коммуникационные устройства соединяются с IOB через платы PCI-X. Архитектура FAME включает сеть SAN, которую могут использовать несколько серверов. Централизованное администрирование обеспечивает единый механизм реконфигурирования доменов и их путей доступа к системе хранения. Поэтому при перемещении набора ресурсов (например, два QBB и один IOB) из одного домена в другой необходимо выполнить синхронизирующую реконфигурацию сети межсоединений, используя FSS и сеть Fibre Channel, обеспечивающую доступ к системам хранения. Эта операция выполняется полностью автоматически.

Самый мощный сервер G-Scale

Серверы компании Kraftway (http://www.kraftway.ru) G-Scale 6008, 6016 и 6032 созданы на базе процессоров Intel Itanium 2 и предназначены для высокопроизводительных вычислений, исполнения критически важных бизнес-приложений и создания устойчивых к сбоям кластерных систем. Они обладают оптимальным соотношением цена/производительность, а также легко масштабируются, обеспечивая защиту инвестиций.

В прошлом году компания Kraftway, единственный отечественный производитель серверных систем с числом процессоров более четырех, расширила модельный ряд своего флагманского семейства G-Scale за счет сервера Kraftway G-Scale 6032, содержащего до 32 процессоров Intel Itanium 2.

Сервер Kraftway G-Scale.

В семейство серверов Kraftway G-Scale 60хх входят многопроцессорные серверы на базе процессоров Intel Itanium 2. Модель Kraftway G-Scale 6032 - самая производительная на сегодняшний день в данной линейке. Помимо двукратного увеличения числа процессоров, в два раза вырос и максимальный объем оперативной памяти (до 256 Гбайт), а размещение всего приложения заказчика в оперативной памяти может дать многократное ускорение его выполнения.

Системы Kraftway G-Scale 60xx позволяют создавать надежные, отказоустойчивые решения, сочетающие в себе все преимущества открытой архитектуры и улучшающие возврат инвестиций. Технические параметры серверов Kraftway G-Scale 60xx позволяют применять их для консолидации приложений, работы со сверхбольшими базами данных, выполнения ресурсоемких мультимедиа-приложений и ПО для систем безопасности.

Обеспечивая огромную вычислительную мощность в сочетании с высокой пропускной способностью, они также с успехом могут служить для научных и технических приложений, особенно для задач, требующих высокой производительности от каждого узла кластера или Grid-архитектуры.

Гибкая архитектура Kraftway G-Scale позволяет конфигурировать сервер таким образом, что он превращается в серверную ферму в одном корпусе. Это стало возможным благодаря технологии аппаратного разделения ресурсов. В зависимости от нагрузки система Kraftway G-Scale 6032 может быть разделена на несколько (от двух до четырех) независимых серверов, каждый из которых выполняет свое приложение. При изменении нагрузки администратор легко перераспределяет аппаратные ресурсы, решая стоящие перед предприятием задачи оптимальными средствами.

Серверы Kraftway G-Scale работают под управлением 64-разрядных версий наиболее распространенных серверных ОС Microsoft Windows и Linux.