Новые технологии Intel -- да здравствуют Hyper-Threading и десктопные частоты!
Несмотря на столь серьезные изменения десктопной платформы, Intel
сейчас проявляет небывалую активность и в сегменте решений для рабочих
станций и серверов. Однако создание новых технологий для профессионального
сектора, как правило, сопровождается куда меньшей шумихой. Но это совсем
не означает, что нововведения в них оказались менее значимыми, чем в
настольных системах. Скорее даже наоборот.
Не так давно ведущий разработчик и производитель процессоров и
чипсетов представил миру совершенно новую десктопную платформу -- Socket
LGA775 и чипсеты с поддержкой PCI Express. Сколько было споров по поводу
целесообразности такого кардинального шага... В сущности, сегодняшний
девиз Intel для десктопных систем можно сформулировать сле-дующим образом:
"Чтобы платформа была эффективной, в ней должно быть как можно меньше
наслед-ственных элементов". Так что уже в ближайшее время наши компьютеры
полностью потеряют разъемы FDD, IDE, PCI, PC/2, LPT, COM, MIDI-port и в
итоге соответствующие контроллеры. Можно даже предположить, что очередной
процессорной шиной также станет PCI Express или ее закамуфлированный
аналог.
Что
в результате получится? А то, что северный и южный мосты будут содержать
лишь определенное количество линков PCI-E... и все (если не считать еще
несколько последовательных интерфейсов вроде SATA и USB). Наверняка
подобное существенное упрощение позволит снизить нагрузку на элементы
чипсета, тем самым улучшив такие показатели, как эргономичность, выход
готовых изделий, стоимость и степень нагрева. О том, почему статья
начинается с разговора о десктопах, мы поговорим в выводах. А сейчас
рассмотрим, что же приготовила Intel для профессионалов.
Xeon (Nocona) -- 64-битные Prescott?
|
Supermicro X6DAL-TG
(чипсет E7525)
|
|
Supermicro X6DH8-G2
(чипсет E7520)
|
|
Supermicro X6DVA-4G
(чипсет E7320)
| Не скажем, чтобы новые Xeon были столь же ожидаемыми,
как их десктопные собратья Pentium 4 на ядре Prescott. Пожалуй, имеет
смысл еще раз повториться -- в серверном сегменте отношение
потребителей к производительности значительно отличается от привычного
"домашнепользовательского". В первом случае быстродействие должно быть
просто достаточным (!), а во втором -- обязательно максимальным. Да и круг
задач, решаемых на рабочих станциях и серверах, весьма далек от игр вроде
3D-шутеров на домашнем компьютере.
Xeon DP (Nocona) использует шину
FSB с частотой 800 MHz, поддерживает технологию Advanced Hyper-Threading и
EM64T, Enhanced SpeedStep и набор мультимедийных ин-струкций SSE3. Частоты
для новых CPU варьируются в пределах от 2,8 до 3,6 GHz (как в десктопной
серии Socket 775), но и на этом сходство с ними не заканчивается. Если в
предыдущем поколении Xeon DP встречались модели с дополнительным кэшем
третьего уровня, то на данный момент такие процессоры на ядре Nocona не
анонсированы. Обобщая все вышесказанное, можно отметить, что модели CPU
теперь равны по быстродействию и спецификациям для разных категорий
потребителей (рабочие станции и домашние компьютеры имеют процессоры с
одинаковыми возможностями). На самом деле момент весьма положительный --
так, в случае необходимости обычный Pentium 4 c индексом "F" может "стать"
64-битным и служить основой для небольшого сервера или рабочей станции. С
другой стороны, рабочая машина дизайнера или проектировщика, построенная
на Xeon, не уступит хорошей десктопной системе в мультимедийных
приложениях. Но, видимо, чтобы совсем уж не "сводить" Xeon и Pentium 4 в
один сегмент, Intel решила произвести разделение платформ по чипсетам в
зависимости от задач.
E7505, E7501 -- даже классика со временем становится
раритетомЭкспансия Intel на рынок чипсетов для серверов и
рабочих станций, по всей видимости, была вызвана нежеланием делиться
огромной долей с компанией ServerWorks и, возможно, слабой
производительностью "не своих" наборов логики. Как известно, требования к
быстродей-ствию, в том числе и в серверном сегменте, постоянно растут в
связи с появлением нового ПО, способного существенно повысить
эффективность работы практически любой организации. ServerWorks, похоже,
слишком "зациклилась" в свое время на надежности и монументальности,
несколько забыв о производительности, чем Intel не замедлила
воспользоваться.
В прошлом лидерами профессионального эшелона
весьма долгое время оставались два набора логики -- E7501 для серверов и
E7505 для рабочих станций. Последний, кстати, ввиду большей
функциональности и производительности также использовался и для построения
серьезных серверных решений. Однако современными на сегодняшний день оба
этих чипсета назвать никак нельзя: поддержка только памяти DDR266 и
отсутствие портов SATA (а у E7501 и PCI-X) далеко не всегда позволяют им
справляться с тяжелыми задачами. Более того, материнские платы на данных
чипсетах "по-серверному" сложны, а следовательно, дороги и вряд ли
подешевеют. Так что необходимость смены платформ давно назрела. Но глядя
на новые E7520/25, становится понятно, почему Intel так долго тянула с их
анонсом.
E7210/E7221 -- даже
десктопный чипсет может быть сервернымЧтобы лишний раз не
вдаваться в подробности, заметим, что оба этих набора логики являются
прямыми аналогами своих десктопных собратьев: E7210 -- не что иное, как
род-ственник i875P, а E7221 -- почти копия i925X. E7210 с кодовым
названием Canterwood ES рассчитан на работу с процессором Pentium 4
(Northwood/Prescott) c шиной 800 MHz. Он оснащен почти так же, как i875,
-- тем же двухканальным контроллером памяти DDR400 с поддержкой PAT и
коррекцией ошибок. Разница заключается лишь в применении южного моста
6300ESB, опять-таки являющегося версией ICH5 с интегрированным
контроллером PCI-X 1.0 64/66, поддерживающим до четырех устройств. По
официальной информации, E7210 может работать только с Pentium 4, но на
самом деле на рынке доступны модели материнских плат с разъемами Socket
604 под Xeon и их дуальные версии (как несложно догадаться,
родоначальником таких моделей была компания ASUS).
О Е7221 стоит
рассказать подробнее. Как мы уже упоминали, он "подозрительно похож" на
925X, но позиционируется большей частью как основа для системы с 64-битным
Pentium 4 и, соответственно, 64-битной ОС. Первое серьезное отличие --
использование линков PCI Express, ранее служивших интерфейсом внешнего
графического контроллера, для подключения PCI-X-контроллера нового
поколения 6702PXH (133 MHz) с полосой пропускания 1 GBps. Также значимым
событием является первое применение DDR2-533 и южного моста ICH6R (причем
со всеми сопутствующими функциями вроде High Definition Audio) в серверном
сегменте.
E7520/7525: славное
продолжение традицийНа самом деле эти чипсеты
дей-ствительно новые и не позволяют проводить никаких аналогий ни с
E7501/05, ни с i875/925X. Оба поддерживают только регистровую память как
DDR2-400, так и DDR266/333 при 128-битном доступе. Максимальный объем
DDR2-памяти пока составляет 16 GB против 32 GB в случае использования
DDR266 (и в том и другом случае можно устанавливать до четырех модулей на
каждый канал). Одна из отличительных черт новых наборов логики --
существенное повышение функциональности и производительности подсистемы
памяти (чего так не доставало предшественникам). Во-первых, появился режим
работы памяти, аналогичный RAID 1 для дисковых подсистем, когда ее
доступный объем будет в 2 раза меньше, но с вдвое увеличенной надежностью.
Значительно расширены возможности по диагностике и устранению ошибок
памяти -- технология Intel x4 Single Device Data Correction (x4 SDDC).
Теперь реализованы коррекция 4-битных ошибок и определение 8-битных. Для
E7520 предусмотрена еще и горячая замена модулей памяти.
Отличия
между E7525 и E7520 на самом деле минимальны и носят скорее косметический
характер. Как сообщается в официальных спецификациях, первый оптимизирован
для использования в качестве основы для рабочих станций, в связи с чем
оснащен портом PCI Express x16. E7520 имеет два порта PCI-E x8 либо четыре
x4. В качестве южных мостов возможны два варианта -- либо ICH5R, либо
вышеописанный 6300ESB.
Выпущен также чипсет E7320 -- упрощенная
версия E7520, реализующая интерфейс PCI-X с помощью южного моста 6300ESB и
оснащенная меньшим количеством слотов PCI-E.
Конфигурации тестовых систем |
Процессор |
2xIntel Xeon
DP (Prestonia) 3,20 GHz |
2xIntel Xeon
DP (Nocona) 3,20 GHz |
Кэш |
L2 -- 512 KB,
L3 -- 1024 KB |
L2 -- 1024
KB |
Материнская плата
|
ASUS PC-DL
Deluxe (чипсет Intel i875P) |
ASUS NCCH-DL
(чипсет Intel i875P) |
Память |
Kingston KVR400X72C (DDR400 ECC) 4x512 MB |
Режимы тестирования
памяти |
333 MHz,
ECC |
400 MHz,
ECC |
Видеокарта |
PNY
Quadro FX3000 256 MB |
Жесткий диск |
Western Digital WD1600 160 GB 7200 об/мин
|
ОС |
Windows XP Professional SP2, DirectX 9.0c
|
Особенности тестированияДумаем,
изначально понятно, что низкоуровневое тестирование процессоров класса
Xeon было бы практически бесполезным. CPU, рассчитанные на работу в
составе SMP-систем, в отрыве от общей конфигурации на быстродействие
влияют незначительно: теоретическая производительность вычислительных
блоков или кэшей, как правило, будет далеко не самой главной составляющей
в общем быстродей-ствии сервера или рабочей станции. Здесь на первый план
выходят тип и производительность процессорной шины, логика работы чипсета
с несколькими CPU (тем более когда есть логические процессоры), принципы
доступа к памяти и т. д.
В ходе продолжительной работы с
предыдущими поколениями Xeon DP были отмечены несколько интересных
закономерностей, о которых мы хотели бы рассказать. Первое -- при
установке одного CPU Xeon включение Hyper-Threading в подавляющем
большинстве случаев ощутимо ускоряло работу многопоточных приложений. Но
когда логических процессоров становилось четыре (два физических CPU с
включенным HT), производительность, как правило, снижалась по сравнению с
выключенным HT. Второе -- наличие кэша третьего уровня увеличивало
вычислительную мощность при включении HT (при одном CPU) и замедляло
снижение скорости в данной ситуации (если установлено два CPU). Третье --
более быстрая подсистема памяти также несколько увеличивает влияние
логических процессоров на скорость работы. Не углубляясь в технические
детали, заметим, что наблюдения проводились длительное время и в большом
количестве приложений, поддерживающих SMP (причем как в тестовых, так и в
реальных). Так что попробуем рассмотреть несколько гипотез, позволяющих
объяснить вышеупомянутые "нюансы работы Hyper-Threading в
многопроцессорных системах".
Первый момент мы обсуждали еще тогда,
когда появилось ядро Prescott. Обслуживание большого числа одновременно
выполняемых задач, значительно превышающего количество логических
процессоров в системе (а это почти всегда так), приводит к необходимости
переключения CPU между процессами. На эти переключения тратится достаточно
много времени, что зачастую нивелирует выигрыш от включения
Hyper-Threading. Как известно, в SMP-системах от Intel все CPU находятся
на одной общей шине, пропускная способность которой для предыдущих Xeon
DP/MP не превышала 4,2 GBps (533 MHz). Невысокая скорость работы шины
памяти серверных чипсетов (максимум те же 4,2 GBps) при значительной
латентности также подчеркивала необхимость включения HT в случае установки
более одного Xeon.
Больший кэш (L3 объемом 1 или 2 MB) увеличивает
вероятность того, что данные, требующиеся для "мелких" процессов, могут
находиться в области быстрой памяти. В связи с этим логическому CPU нужно
несколько меньше времени для выполнения операций. Приведем простой пример:
Xeon MP в своем нынешнем варианте имеет кэш объемом 4 MB, необходимость в
котором объясняется вышеописанными фактами. Для того чтобы четыре
процессора, установленные на одну шину 400 MHz и работающие с памятью на
частоте 100 MHz, получили хоть сколько-нибудь заметный прирост
производительности от 3-гигагерцевого процессора (самая высокая частота
для Xeon MP), действительно необходим очень "вместительный" кэш.
В
свете всего этого мы решили оценить эффект от включения Hyper-Threading на
двухпроцессорных системах разного поколения с Xeon DP 3,2 GHz
(конфигурации тестовых систем указаны в таблице). Безусловно, сравнение
серверных процессоров с различными ядрами на "неофициальных" дуальных
материнских платах с чипсетом i875P выглядит несколько искусственным.
Однако пока это единственная возможность сравнить CPU с ядрами Prestonia и
Nocona на одинаковых наборах логики.
Сравнительные характеристики процессоров Xeon DP
|
Ядро |
Prestonia |
Nocona
|
Разъем |
Socket
604 |
Socket
604 |
Процессорная шина
|
533 MHz
|
800 MHz
|
L1-кэш |
8 KB |
16 KB
|
L2-кэш |
512 KB
|
1024 KB
|
L3-кэш |
1 MB --
3,06/3,20 GHz 2 MB -- 3,20 GHz |
- |
Поддержка
Hyper-Threading |
+ |
+ |
Поддержка EM64T |
- |
+ |
Дополнительные
инструкции |
MMX, SSE,
SSE2 |
MMX, SSE,
SSE2, SSE3 |
Модели |
2,0 GHz, 2,4
GHz, 2,66 GHz, 2,80 GHz, 3,06 GHz, 3,20 GHz |
2,8 GHz, 3,0
GHz, 3,2 GHz, 3,4 GHz, 3,6 GHz |
Результаты тестирования
Итак, основная задача данного тестирования состоит в
том, чтобы показать принципиальные отличия разных поколений систем при
работе с SMP-приложениями с включенной поддержкой Hyper-Threading. Более
детальное тестирование готовых конфигураций с подробным описанием
поставленных задач содержится в следующей статье этого
номера.
Стандартный тест, отображающий совокупную
производительность процессора, чипсета и подсистемы памяти в многопоточных
задачах, -- архивирование с помощью 7-zip. И сразу же видны
противоположные результаты от включения логических CPU. Xeon Prestonia,
даже оснащенный кэшем третьего уровня, ухудшил свои показатели на 10 с
после включения HT, в то время как Nocona уменьшил время исполнения теста
почти на треть минуты.
Как можно заметить, измерение скорости
рендеринга в популярных пакетах 3D-моделирования тоже продемонстрировало
весьма интересные результаты. Так, в рендеринге 3ds MAX 5.1 (BRAZIL)
добавление логических CPU для системы, построенной на Xeon Prestonia,
остается незамеченным -- 3 с разницы можно смело списать на погрешность
измерений. Вместе с тем новые Xeon улучшили свои показатели на полторы
минуты (10%), что уже само по себе весьма высокий
результат.
Система визуализации в Maya 6.0, как видно, способна
использовать HT даже в предыдущих версиях Xeon DP. Однако разница между
этими "добавками" от включения HT для Prestonia и Nocona составила минуту
(15%) в пользу последнего.
Тест медиакодирования с использованием
Windows Media Encoder показывает максимальное замедление в случае
применения HT в системе с процессорами на FSB 533 MHz, добавляя почти
минуту к времени выполнения задачи. Вместе с тем Nocona практически не
ухудшает своих показателей.
Подведение итоговУдивительно, но при
продвижении новых 90-нанометровых процессорных ядер Intel не уделяла
повышенного внимания существенно переработанной технологии
Hyper-Threading. И, на наш взгляд, совершенно напрасно. Как мы могли
убедиться, Hyper-Threading в Xeon весьма отличается от десктопного по
влиянию на производительность. Для Xeon MP включение дополнительных
логических CPU вообще противопоказано (более того, многие производители
4-процессорных серверов официально рекомендуют этого не делать), для
систем с двумя Xeon DP (Prestonia) в совокупности прирост быстродействия
от HT можно считать нулевым (в некоторых случаях даже отрицательным).
Nocona, похоже, -- первое ядро, способное реализовать преимущества
Hyper-Threading на многопроцессорных системах. Причин тому несколько --
это и увеличенная до 800 MHz частота шины FSB, и удвоенные кэши L1 и L2, и
более скоростные чипсеты и подсистема памяти, ну и, конечно же,
переработанная архитектура самого процессора. При этом не следует также
забывать о возможности работы новых Xeon с 64-битными ОС.
В этот
раз Intel пришлось сделать очередной рывок -- не в последнюю очередь из-за
наличия очень активного конкурента. Если вспомнить появление десктопной
платформы (переход от Socket 748 на Socket 775), то там изменения касались
прежде всего функциональности, а не быстродействия. В новых же серверных
системах -- скорее наоборот, основную ставку сделали на
производительность. Достаточно совсем небольшого опыта общения с
SMP-системами, чтобы заявить о том, что быстродействие двух Xeon (Nocona
800 MHz) 2,8 GHz с чипсетом E7520 и памятью DDR2-400 окажется значительно
выше Xeon (Prestonia 533 MHz) той же частоты 2,8 GHz с чипсетом E7501 и
памятью DDR266.
Также наблюдается сближение "профессиональных" и
"массовых" платформ. Наверное, в недалеком будущем серверные системы будут
отличаться от десктопных в основном количеством процессорных разъемов и
линков PCI-E в мостах чипсетов. Новый графический интерфейс -- это только
первое масштабное применение технологии PCI Express -- возможно, она
станет единым внутренним интерфейсом большинства компьютеров. А нам
остается только похвалить Intel за серьез-ный прорыв в создании платформ
для рабочих станций и серверов, а также за то, что благодаря этому
закончилась эра архаичных моделей E7501/05.
Автор: Денис Хлебосолов
Источник: www.itc.ua
|