О сборке отказоустойчивой вычислительной техники из комплектующих общего назначения
Введение
Под отказоустойчивой вычислительной техникой (ВT) здесь понимается
такая ВT, в которой не происходит искажение данных при единичном
сбое аппаратуры и не происходит потеря данных при единичном отказе
аппаратуры. Мы будем ограничиваться вопросом сохранности данных,
не затрагивая вопрос о готовности. Т.е. не обязательно, чтобы ВТ
сохраняла работоспособность при любом единичном отказе -
но принципиальное требование состоит в том, чтобы после ремонта все
данные находились на своем месте.
Сборка отказоустойчивой ВТ может проводиться из специальных
«серверных» комплектующих или из более дешевых комплектующих
общего назначения. Мы рассмотрим последнюю возможность.
1. Процессор и память
Как известно, популярные «серверные» и «десктоповые»
процессоры имеют одно и то же вычислительное ядро, которое обладает
встроенными средствами коррекции ошибок – в частности, защитой
встроенных кешей контролем четности и кодами коррекции ошибок (ECC).
Контроль четности обнаруживает единичные ошибки, а ECC позволяют
исправить одиночные ошибки и обнаружить двойные ошибки в пакете из 64
бит.
Основная разница между «серверными» и
«десктоповыми» процессорами заключается в интерфейсе.
Серверные процессоры могут работать в многопроцессорной системы и
рассчитаны на применение регистровой (registered) памяти c ECC. Объем
регистровой памяти может составлять до 16-32 ГБайт. В отличие от этого
«десктоповые» процессоры рассчитаны на работу с более
дешевой небуферизованной (unbuffered) памятью, максимальным объемом
4-8 ГБайт. Небуферизованная память может иметь или не иметь ECC.
Модули небуферизованной памяти c ECC имеют на борту 9 или 18 чипов,
т.е. на 1 или 2 чипа больше, чем модули без контроля четности. В
дополнительных чипах хранится избыточная информация для коррекции
ошибок. Для наших целей подходит только память c ECC, поскольку в
противном случае BT не будет устойчивой по отношению к сбоям в памяти.
Модуль небуферизованной памяти без ECC
Модуль небуферизованной памяти с ECC
Модуль регистровой памяти с ECC
Собственно коррекция ошибок выполняется не в модуле памяти, а в
чипсете или самом процессоре. Первое характерно для процессоров Intel
(поэтому установка модулей ECC возможна при условии их поддержки
чипсетом), а второе - для современных процессоров AMD с ядром K8.
2. Дисковая подсистема
В системах потребительского класса до сих пор
применяются винчестеры с интерфейсом IDE, которые имеют паспортные
ограничения на время непрерывной работы (11 часов) и интенсивность
рабочей нагрузки. Примерно такие же ограничения имеют и
потребительские винчестеры Serial ATA, хотя здесь встречаются
исключения в лучшую сторону. К примеру, диски Western Digital RAID
Edition (RE) рассчитаны на непрерывную работу в режиме 24*7. В новом
стандарте Serial ATA II декларировано применение очереди команд (NCQ)
для оптимизации перемещения головок чтения-записи под интенсивной
нагрузкой. Благодаря этим нововведениям, некоторые винчестеры Serial
ATA приближаются по надежности и производительности к дорогим
«серверным» винчестерам, которые традиционно имеют
интерфейс SCSI.
Но как бы не был надежен винчестер, его отказ все равно возможен.
Поэтому в отказоустойчивых системах применяются дисковые массивы
RAID. Теория гласит (и практика подтверждает), что для
отказоустойчивости к массиву из n одинаковых по объему дисков
достаточно добавить всего 1 диск. В частном случае, когда n=1 -
мы имеем зеркальный массив из двух дисков, называемый RAID 1-го
уровня. В общем случае при n>1 применяется RAID 5-го уровня с
чередованием информации и контрольных сумм.
В упомянутых массивах RAID
скорость чтения растет пропорционально числу дисков, т.к. запросы на
чтение могут чередоваться (уточним, что рост наблюдается до тех пор,
пока хватает пропускной способности интерфейса). А вот скорость
записи обратно пропорциональна числу дисков, т.к. в каждой записи
участвуют все диски массива - на 2 диска проводится запись и c
n-1 дисков проводится считывание данных для вычисления контрольных
сумм RAID 5. Поэтому при увеличении числа дисков в массиве нарушается
баланс скорости чтения и записи, что приводит к общему снижению
производительности системы. Для борьбы в этим явлением применяются
дорогие аппаратные контроллеры с кэш-памятью и микропроцессорами. К
счастью, эти проблемы не актуальны для массивов из небольшого числа
дисков (до 4) - поэтому для создания таких массивов ставить
дополнительное контроллеры не обязательно. Достаточно возможностей,
встроенных в чипсет материнской платы.
Почти все современные чипсеты потребительского класса поддерживают
зеркальные массивы RAID 1, которые на данный момент являются самым
надежным способом хранения данных. При отказе любого диска в массиве
RAID 1 система продолжает работать без снижения производительности, а
в случае общего отказа компьютера диск может быть прочитан на любом
другом компьютере.
В массиве RAID 1 объем массива не может быть больше объема диска.
Для обхода этого ограничения существуют чипсеты, поддерживающие 4-x
дисковые зеркальные массивы с чередованием (RAID уровня 0+1 или 10)
или даже дисковые массивы RAID 5. Массив RAID 0+1 обеспечивает
удвоение объема при 100% избыточности, а массив RAID 5 из четырех
дисков - утроение объема при избыточности всего 33%.
3. Блок питания и система вентиляции
Качественный блок питания отличается от дешевого тем, что он
держит заявленную рабочую нагрузку в течение неограниченного времени,
а при ее превышении штатным образом отключается. При
заявленной нагрузке в 300W (это минимум для маломощных систем)
качественный блок питания весит не менее 1.5 кг и стоит около 1500
рублей или выше, при этом заявленные максимальные токи и выходные
напряжения соответствуют стандарту ATX.
Некачественные блоки часто
выдают себя надписью типа 300W Peak Load (пиковая нагрузка 300W) -
это обычно значит, что блок питания выдерживает пиковую нагрузку в
течение всего 10 секунд, а потом сгорает. Еще одна причина
насторожиться - это шумный вентилятор для охлаждения перегретых
электронных компонентов (впрочем, «серверные» блоки
питание тоже могут иметь шумную вентиляцию, но уже по другим
причинам).
Десктоповые»
и «серверные» корпуса различаются по принципу вентиляции.
В первом случае важно обеспечить хорошее охлаждение процессора при
возможно более низком уровне шума. Во втором случае уровень шума
неважен, но требуется наилучшее охлаждение всех электронных компонент
- в том числе винчестеров, у которых при понижении рабочей
температуры вдвое (c 50 до 25 градусов) во столько же раз вырастает
время безотказной работы. Поэтому в «серверных» корпусах
воздушный поток направляется через корзину c винчестерами.
Наряду с шумными «серверными» решениями, существуют недорогие
корпуса промежуточного класса, в которых винчестеры
охлаждаются при общем низком уровне шума - для этого в корпус
ставится большой малооборотный вентилятор для обдува винчестеров
(пример на рисунке справа).
Примеры комплектаций
|
Комплектация 1 |
Комплектация 2 |
Комплектация 3 |
Процессор |
AMD Athlon 64 2800+ (S754) box |
Pentium 4 2.4C/800/512 (0.13m) box |
AMD Athlon 64 X2 3800+ box |
Память |
1*512 PC3200 ECC Unbuffered |
2*512 PC3200 ECC Unbuffered |
2*1G PC3200 ECC Unbuffered |
Винчестеры |
2*ATA 80G (RAID 1) |
2*Serial ATA 120G (RAID 1) 2*ATA 120G (RAID1) |
2*Serial ATA 200G NCQ (RAID 1) |
Корпус |
3R Neon Light, 2 вент. 120мм |
3R R101, 2 вент. 120мм |
Ascot 6AR/2, 2 вент. 120мм |
Блок питания |
RPS 300W, вент. 120мм |
FSP 350W, вент. 120мм |
Ascot 360W ATX 2.0, вент. 80мм. |
Другое |
CD-ROM, видеокарта с пассивным охлаждением |
DVD-CDRW, видеокарта с пассивным охлаждением |
DVD-RW, видеокарта с пассивным охлаждением |
Стоимость |
19000 р |
38000 р |
49000 р |
Подробная справочная информация доступна по адресу: http://www.imach.uran.ru/rns/reviews/serverr.htm
Автор: Рауль Нурович Шакиров
Источник: www.imach.uran.ru/rns/
|