THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

Тип микроархитектуры процессора играет одну из ключевых ролей в производительности ноутбука или пк, ведь от микроархитектуры зависит быстрота выборки и декодирования поступающих в процессор данных и инструкций, а затем их выполнение и запись в ОЗУ.

Сравнение микроархитектур процессоров Haswell, Broadwell и Skylake от Intel

На данный момент актуальными и конкурирующими между собой считаются микроархитектуры трех поколений от Intel. Это ядро 4-го поколения Haswell, 5-го поколения Broadwell и новейшая микроархитектура 6-го поколения Skylake. Как известно, в основе создания данных микроархитектур лежит экстенсивная стратегия под названием «Тик-так». «Тик» означает создание нового поколения процессоров на основе уменьшенного технологического процесса. «Так» же подразумевает выпуск новых микропроцессоров, но без изменения технологии создания. В статье будет проведен их сравнительный анализ и на его основе будет сделан вывод о наиболее производительном ядре.

Haswell

– микроархитектура, разработанная в 2012 году по 22 нм технологии. Поддерживает сокеты: LGA 1150, BGA 1364, LGA 2011-3. Работает с планкой ОЗУ DDR4. Шина: DMI2.

Плюсы процессора с данной микроархитектурой:

1) Энергоэффективный

2) Поддерживает DDR4

3) Низкая стоимость. К примеру, цена на Intel Core I3 4160 с ядром Haswell составляет 7800 рублей.

1) Изготовлен по устаревшей 22 нм технологии, в результате чего проигрывает по многим параметрам его улучшенной версии Broadwell.

Broadwell

– апгрейднутая версия Haswell, разработана для процессоров Intel серии Xeon, а также для седьмого поколения Intel Core I7. Изготовлена по 14 нм технологии. Принадлежит к ветви «тик» маркетинговой миссии «тик-так». По сравнению с Haswell имеет на 3-5% большую эффективность, чем Haswell, при этом потребляет энергии на 30%, также гораздо меньшее тепловыделение в ПК, 4.5 вт против 15 Haswell. Все это объясняется, прежде всего, уменьшенным технологическим процессом, по которому было изготовлено ядро, возможностью разгона процессора с данной микроархитектурой, а также наличием 4 кэша Crystalwell, дающего более высокую скорость обмена с ОЗУ, чем всего 3 кэша.

Плюсы ядра:

1) Эффективное энергопотребление

2) Возможность разгона

3) Поддержка DirectX 12

4) Именно в данной микроархитектуре получил распространение кэш L4, до сего использовавшийся лишь в редком числе микропроцессоров Haswell

5) Более высокое время автономной работы, чем Haswell

1) Стоимость (цена варьируется в пределах 13-150000 в зависимости от модели процессора, ибо предназначается данная микроархитектура для камней серии Xeon и Core I7 от Intel в то время как микропроцессор Haswell работает и на бюджетных камнях)

2) Соотношение цены/качества. В тестах микроархитектура показало невысокие результаты, опередив Haswell приблизительно на 3 процента, в том числе и в 3D Mark (Core I7-6850K на Broadwell-E: 19065 очков, Core I7-5820 на Haswell-E– 16598 очков). Если рассматривать это относительно сравнения Ivy Bridge и Haswell, то результат не впечатляющий.

Сравнительный анализ производительности Broadwell и Haswell

Skylake

– микроархитектура 6-го поколения, предназначенная, как и Haswell, в основном, для бюджетных энергоэффективных процессоров типа ULV. Разработана она согласно стратегии «тик-так» и затрагивает ветвь «так». То есть, ядро было изготовлено без изменения технологического процесса, но с кардинальным изменением микроархитектуры относительно Broadwell.

Микропроцессор работает на новом высокопроизводительном сокете LGA 1151, поддерживает DDR4, а также, в отличие от LGA 1150 работает с USB 3.0, имеет новую, гораздо более производительную шину DMI3 и большую энергоэффективность по сравнению со своим предшественником.

1) Поддержка нового разъема LGA 1151, более производительного, чем LGA 1150 – сокет Broadwell

2) Поддержка USB 3.0

3) Возможность разогнать GPU на новом сокете

4) Поддержка DDR4 и оптимизация работы с данной планкой ОЗУ

5) Лучшая энергоэффективность относительно Broadwell

6) Одно из главных достоинств - поддержка новой шины DMI 3, дающей в 2 раза большую скорость, чем DMI 2, на котором работают Broadwell и Haswell. Данное преимущество особенно заметно на примере такой программы, как Sony Vegas, где производительность Skylake выше почти в 1.5 раза

7) Стоимость (для бюджетных моделей Intel Core I3 в среднем цена составляет 3000-7000 рублей)

Относительно Broadwell и Skylake только плюсы, в сравнении же с Kaby Lake 7-го поколения – новейшей микроархитектурой, которой оснащено пока небольшое количество процессоров, дает производительность на несколько процентов ниже.

Подведение итогов:

Если взять все показатели, в том числе, стоимость микроархитектур, то рейтинг, составленный автором, будет такой:

1 место: Skylake

2 место: Haswell (данная микроархитектура, как показали тесты, хоть и является более старшей и менее энергоэффективной, но по производительности отстает от Broadwell на 2-3 процента, при этом имеет более низкую стоимость)

3 место: Broadwell

Вывод:

Несмотря на различные маркетинговые ухищрения, которых придерживается корпорация Intel, она все же показывает определенный результат и хоть понемногу, но улучшает с каждым поколением производительность и быстродействие своих процессоров. Так что, кто знает, возможно, к 2030 году, начнет выпускать первые квантовые процессоры, которые будут в миллион раз лучше нынешних, но это уже другая история.

ВведениеТак уж повелось, что каждый год компания Intel обновляет микроархитектуру своих процессоров, нацеленных на использование в общеупотребительных персональных компьютерах. Этот график стал уже настолько привычен, что воспринимается как что-то само собой разумеющееся. Sandy Bridge были выпущены в начале 2011 года, Ivу Bridge появились в апреле 2012, а актуальные на данный момент Haswell были представлены 4 июня прошлого года. Учитывая сложившийся распорядок, рынок уже вовсю ожидает процессоры нового поколения – Broadwell. Однако с ними всё сложилось не слишком удачно. Внедрение нового 14-нм техпроцесса, который Intel должна использовать для производства Broadwell, натолкнулось на сложности производственного характера. Поэтому изначальный план, предполагавший появление нового поколения процессорного дизайна в середине этого года, пришлось пересмотреть. Согласно имеющимся актуальным данным, анонс мобильных энергоэффективных вариантов Broadwell произойдёт накануне Нового года, а основанные на этом дизайне процессоры для массовых настольных и мобильных компьютеров станут доступны лишь в следующем году.

В сложившейся ситуации Intel решила как-то скрасить незапланированное затянувшееся ожидание новинок и придумала акцию, получившую кодовое название Haswell Refresh. Её суть заключается в том, что вместо выхода новых процессоров Broadwell компания предлагает усовершенствованные модели старых, производительность которых улучшена не новой микроархитектурой, а увеличенными тактовыми частотами. Официальный анонс CPU, входящих во множество Haswell Refresh, был назначен на 11 мая, и он уже состоялся. В интеловском прайс-листе появилось 42 новые позиции, 24 из которых нацеливаются на настольные системы различных классов. В этом обзоре мы познакомимся с теми из обновлённых Haswell, которые предназначаются для ординарных десктопов и относятся к семействам Core i7, Core i5 и Core i3.

Подробнее о Haswell Refresh для десктопов

Итак, говоря о Haswell Refresh, Intel фактически имеет в виду простое повышение частот своих LGA 1150 процессоров семейства Haswell. В выходе таких обновлённых продуктов нет ничего необычного – компания постепенно повышала частоты своих процессоров между анонсами новых микроархитектур и раньше, просто до этого такие события были разрознены, и им не уделялось столько внимания. Отличительная же особенность Haswell Refresh в том, что рост частот происходит не у отдельных моделей, а у всей линейки целиком, снизу доверху.

Причём, столько внимания Haswell Refresh уделяется не из-за их какой-то новизны или заметного увеличения производительности. Вся шумиха – искусственна, её специально генерирует сама Intel, пытаясь создать впечатление непрекращающихся инноваций даже несмотря на перенос анонса Broadwell на более поздний срок. Другими словами, выход Haswell Refresh – вполне ординарное обновление, а свежие процессоры отличаются от старых, присутствующих на рынке уже почти год Haswell, только возросшей на смешные 100 МГц частотой. То есть, речь идёт о незначительном приросте в производительности, составляющем порядка 2-3 процентов, и не более того.

К счастью, за этот небольшой прирост быстродействия покупатели не должны ничего платить. Новые процессоры Haswell Refresh заняли старые позиции в прайс-листе, вытеснив оттуда Haswell образца прошлого года. Если говорить конкретно о предложениях для настольных компьютеров, то происходящая замена выглядит следующим образом:

Необходимо подчеркнуть, что рост тактовой частоты происходит в рамках установленных ранее тепловых пакетов: 84 Вт для Core i7 и Core i5 и 54 Вт – для Core i3. Однако при этом в основе Haswell Refresh остаются точно такие же полупроводниковые кристаллы, как и использовались ранее. Улучшение частотного потенциала обеспечивается исключительно совершенствованием интеловского 22-нм технологического процесса, ревизия же ядра в новинках не меняется и сохраняет номер C0. А это означает, что принципиальных улучшений в тепловых и электрических характеристиках, как и в каких-то иных нюансах работы новых процессоров, ожидать не следует.



Процессоры Haswell Refresh для настольных систем


Абсолютно также как предшественники выглядят процессоры Haswell Refresh и внешне.



Слева – обычный Haswell, справа – Haswell Refresh


Единственное связанное с выходом Haswell Refresh интересное и принципиально важное изменение коснётся оверклокерских процессоров K-серии, полной информации о которых пока нет в силу того, что они будут представлены несколько позже, предположительно 2 июня. Пока Intel продолжит предлагать для оверклокеров старые модели Core i7-4770K и Core i5-4670K, но те процессоры, которые придут им на смену, заслуживают отдельного рассказа.

Дело в том, что в разновидностях Haswell Refresh со свободными множителями, имеющих собственное собирательное кодовое имя Devil’s Canyon, мы увидим не только возросшие паспортные частоты. Intel собирается сделать эти процессоры более привлекательными для разгона, для чего планирует внести серьёзные изменения в их упаковку. Теплопроводящий материал, расположенный между процессорным кристаллом и крышкой-теплораспределителем будет заменён на более эффективный, а сама крышка будет изготавливаться из другого сплава с лучшей теплопроводностью. По предварительным данным, семейство Devil’s Canyon будет состоять из двух разблокированных LGA 1150 процессоров: Core i7-4790K и Core i5-4690K. Причём, они получат более высокий, чем у обычных Haswell Refresh, тепловой пакет и заметно повышенные тактовые частоты даже в номинальном режиме.

К сожалению, это пока всё, что известно о Devil’s Canyon, но когда образцы этих CPU появятся в нашей лаборатории, мы непременно поделимся исчерпывающей информацией о них в наших обзорах. Сегодня же речь будет идти только об обычных десктопных Haswell Refresh со стандартным уровнем тепловыделения, которые уже можно купить в магазинах.

В серии Core i7 новинка пока только одна:


Core i7-4790 повышает тактовую частоту старшей линейки процессоров для платформы LGA 1150 на 100 МГц, обгоняя, таким образом, и оверклокерский Core i7-4770K, и обычный Core i7-4771. В остальном, это типичный Core i7 поколения Haswell: он имеет четыре ядра, поддерживает Hyper-Threading, располагает вместительным кэшем третьего уровня объёмом 8 Мбайт. Графическое ядро, как и у предшественников, относится к классу GT2, то есть располагает 20 исполнительными устройствами. Следует отметить, что благодаря технологии Turbo Boost 2.0 типичной частотой работы для Core i7-4790 является 3.8 ГГц.



Core i7-4790


Полный набор технологий обеспечения безопасности, включая vPro, TXT и VT-d, этим процессором также поддерживается в полном объёме. Иными словами, Core i7-4790 – это новый флагман для платформы LGA 1150, но без поддержки разгона.

В серии Core i5 появилась три новых процессора Haswell Refresh:



У этих процессоров частоты по сравнению с предшественниками повысились тоже всего на 100 МГц. Но этого оказалось достаточно для того, чтобы старший Core i5-4690 стал быстрее Core i5-4670K и перехватил лидерство в этой линейке. Остальные же процессоры органично разместились в свободных ранее частотных слотах. Прочие их характеристики не поменялись. Hyper-Threading в серии Core i5 не поддерживается, L3-кэш сокращён до 6 Мбайт, используемое графическое ядро – GT2.



Core i5-4690



Core i5-4590



Core i5-4460


Младший процессор Core i5-4460 занимает в серии особое место: в нём отключены технологии обеспечения безопасности vPro и TXT, а также не поддерживаются инструкции для работы с транзакционной памятью. Технология Turbo Boost 2.0 делает типичной рабочей частотой для Core i5-4690 – 3,7 ГГц, для Core i5-4590 – 3,5 ГГц и для Core i5-4460 – 3,2 ГГц.

Серия Core i3 с выходом Haswell Refresh приросла ещё тремя модификациями:



Здесь также произошло 100-мегагерцовое увеличение тактовых частот при сохранении всех остальных характеристик. Процессоры Core i3, в отличие от старших моделей, двухъядерные, но они поддерживают технологию виртуальной многопоточности Hyper-Threading. За счёт этого они обладают меньшим расчётным тепловыделением на уровне 54, а не 84 Вт. Следует отметить, что в линейке Core i3 на момент анонса Haswell Refresh уже не было свободных частотных слотов, поэтому вышло так, что модель Core i3-4350 полностью совпала по характеристикам с Core i3-4340. Единственное отличие новой модификации – более низкая цена.



Core i3-4360



Core i3-4350



Core i3-4150


В процессорах Core i3-4360 и Core i3-4350 размер кэш-памяти третьего уровня составляет 4 Мбайт, а у Core i3-4150 кэш уменьшен до 3 Мбайт. Хуже во младшей модели и графическое ядро. Хотя формально все Core i3 снабжены графикой GT2, в Core i3-4150 количество исполнительных устройств GPU уменьшено с 20 до 16.

Любые LGA 1150 процессоры Haswell Refresh никаких дополнительных условий на материнские платы не накладывают. Несмотря на то, что к их появлению приурочено и обновление платформы с её переводом на новые наборы логики девятой серии (Z97 и H97), все новые CPU без проблем работают в старых LGA 1150-материнках с чипсетами восьмой серии. Для их правильного определения платами, выпущенными в прошлом году, требуется только обновление BIOS.

Что касается разгонных возможностей, то у Haswell Refresh, вышедших к настоящему моменту, их вообще нет ни в каком объёме. Увеличение частот выше номинальных сменой множителя невозможно, разгон же по шине крайне ограничен. Фактически, предел, до которого можно разогнать базовый тактовый генератор, составляет порядка 105-110 МГц. То есть, приобретение Haswell Refresh с целью эксплуатации их в нештатных режимах какого бы то ни было смысла лишено. Впрочем, разгон памяти до уровня DDR3-2400 неоверклокерские процессоры для платформы LGA 1150 всё же позволяют.

Как мы тестировали

Новые процессоры, относящиеся к множеству Haswell Refresh, мы сравнили с их предшественниками, ординарными Haswell, которые уже почти год доступны в продаже. В результате, список задействованных в тестировании аппаратных компонентов выглядит следующим образом:

Процессоры:

Intel Core i7-4790 (Haswell, 4 ядра + HT, 3,6-4,0 ГГц, 4x256 Кбайт L2, 8 Мбайт L3);
Intel Core i7-4770K (Haswell, 4 ядра + HT, 3,5-3,9 ГГц, 4x256 Кбайт L2, 8 Мбайт L3);
Intel Core i5-4690 (Haswell, 4 ядра, 3,5-3,9 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4670K (Haswell, 4 ядра, 3,4-3,8 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4590 (Haswell, 4 ядра, 3,3-3,7 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4570 (Haswell, 4 ядра, 3,2-3,6 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4460 (Haswell, 4 ядра, 3,2-3,4 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i5-4440 (Haswell, 4 ядра, 3,1-3,3 ГГц, 4x256 Кбайт L2, 6 Мбайт L3);
Intel Core i3-4360 (Haswell, 2 ядра + HT, 3,7 ГГц, 2x256 Кбайт L2, 4 Мбайт L3);
Intel Core i3-4350 (Haswell, 2 ядра + HT, 3,6 ГГц, 2x256 Кбайт L2, 4 Мбайт L3);
Intel Core i3-4340 (Haswell, 2 ядра + HT, 3,6 ГГц, 2x256 Кбайт L2, 4 Мбайт L3);
Intel Core i3-4150 (Haswell, 2 ядра + HT, 3,5 ГГц, 2x256 Кбайт L2, 3 Мбайт L3);
Intel Core i3-4130 (Haswell, 2 ядра + HT, 3,4 ГГц, 2x256 Кбайт L2, 3 Мбайт L3).

Процессорный кулер: Noctua NH-U14S.
Материнская плата: Gigabyte Z87X-UD3H (LGA1150, Intel Z87 Express).
Память: 2x8 Гбайт DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX).
Видеокарта: NVIDIA GeForce GTX 780 Ti (3 Гбайт/384-бит GDDR5, 876-928/7000 МГц).
Дисковая подсистема: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Блок питания: Corsair AX760i (80 Plus Platinum, 760 Вт).

Тестирование выполнялось в операционной системе Microsoft Windows 8 Enterprise x64 с использованием следующего комплекта драйверов:

Intel Chipset Driver 10.0.13;
Intel Management Engine Driver 10.0.0.1204;
Intel Rapid Storage Technology 13.0.3.1001;
NVIDIA GeForce Driver 335.23.

Производительность

Общая производительность

Для оценки производительности процессоров в общеупотребительных задачах мы традиционно используем тестовый пакет Bapco SYSmark, моделирующий работу пользователя в реальных распространённых современных офисных программах и приложениях для создания и обработки цифрового контента. Идея теста очень проста: он выдаёт единственную метрику, характеризующую средневзвешенную скорость компьютера при повседневном использовании. Недавно этот бенчмарк в очередной раз обновился, и теперь мы задействуем самую последнюю версию – SYSmark 2014.



Результаты, отображённые на диаграмме, вполне ожидаемы. Учитывая, что в процессорах Haswell Refresh нет никаких усовершенствований и оптимизаций на уровне микроархитектуры, всё решает тактовая частота. А, поскольку в новых CPU она возросла всего на 100 МГц, отличия в показателях производительности старых Haswell и представителей множества Haswell Refresh, приходящих им на смену, составляет в среднем 2,5 процента. Конкретнее: Core i7-4790 обгоняет Core i7-4771 (он же Core i7-4770K) на 1,8 процента; Core i5-4690 превосходит Core i5-4670 на 2,3 процента; Core i5-4590 опережает Core i5-4570 на 2,3 процента, Core i5-4460 быстрее Core i5-4440 на 2,7 процента, Core i3-4360 превосходит Core i3-4340 на 3,1 процента, а Core i3-4150 обгоняет Core i3-4130 на 2,3 процента.

Более глубокое понимание результатов SYSmark 2014 способно дать знакомство с оценками производительности, получаемое в различных сценариях использования системы. Сценарий Office Productivity моделирует типичную офисную работу: подготовку текстов, обработку электронных таблиц, работу с электронной почтой и посещение Интернет-сайтов. Сценарий задействует следующий набор приложений: Adobe Acrobat XI Pro, Google Chrome 32, Microsoft Excel 2013, Microsoft OneNote 2013, Microsoft Outlook 2013, Microsoft PowerPoint 2013, Microsoft Word 2013, WinZip Pro 17.5 Pro.



В сценарии Media Creation моделируется создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео. Для этой цели применяются популярные пакеты Adobe Photoshop CS6 Extended, Adobe Premiere Pro CS6 и Trimble SketchUp Pro 2013.



Сценарий Data/Financial Analysis посвящён статистическому анализу и прогнозированию инвестиций на основе некой финансовой модели. В сценарии используются большие объёмы численных данных и два приложения Microsoft Excel 2013 и WinZip Pro 17.5 Pro.




Игровая производительность

Как известно, производительность платформ, оснащенных высокопроизводительными процессорами, в подавляющем большинстве современных игр определяется мощностью графической подсистемы. Именно поэтому при тестировании процессоров мы выбираем наиболее процессорозависимые игры, а измерение количества кадров выполняем дважды. Первым проходом тесты проводятся без включения сглаживания и с установкой далеко не самых высоких разрешений. Такие настройки позволяют оценить, насколько хорошо проявляют себя процессоры с игровой нагрузкой в принципе, а значит, позволяют строить догадки о том, как будут вести себя тестируемые вычислительные платформы в будущем, когда на рынке появятся более быстрые варианты графических ускорителей. Второй проход выполняется с реалистичными установками – при выборе FullHD-разрешения и максимального уровня полноэкранного сглаживания. На наш взгляд такие результаты не менее интересны, так как они отвечают на часто задаваемый вопрос о том, какой уровень игровой производительности могут обеспечить процессоры прямо сейчас – в современных условиях.





















Мы не стали загружать обзор большим количеством игровых тестов, так как прирост производительности, который обеспечивают процессоры семейства Haswell Refresh, не слишком заметен. Тем не менее, на приведённых графиках можно отметить несколько разнообразных вариантов того, как складывается игровая производительность.

Так, Batman: Arkham Origin – игра, в которой производительности любых интеловских процессоров оказывается достаточно для того, чтобы полностью загрузить флагманскую графическую карту NVIDIA GeForce GTX 780 Ti. В результате, в ней мы видим крайне незначительное влияние выбора CPU на результат, а новые Haswell Refresh вообще ничем не выделяются на фоне предшественников.

Civilization V: Brave New World – стратегическая игра, где выполняются активные расчёты на CPU, однако и здесь слишком мощные процессоры оказываются ни к чему. Начиная с Core i5-4570 и выше прирост производительности почти незаметный. Однако и ниже этой своеобразной границы преимущество Haswell Refresh над равноценными предшественниками составляет в районе 3 процентов.

Metro: Last Light – весьма процессорозависимый шутера, но при максимальных настройках качества (в первую очередь, из-за тесселяции), частота кадров всё равно упирается в мощность видеокарты. Зато при уменьшении разрешения можно увидеть небольшой эффект от увеличения частоты в свежеанонсированных Haswell Refresh. Его масштаб стандартен – около 2 процентов.

В Thief всё выглядит ещё интереснее. Эта – одна из немногих игр, отрицательно относящихся к технологии Hyper-Threading в четырёхъядерных процессорах. Она оптимизирована под четыре потока, и дополнительные виртуальные ядра в Core i7 только снижают производительность. Если же говорить об эффекте, который даёт подмена Haswell на Haswell Refresh, то он вновь незначителен: не более 3 процентов при пониженном разрешении и не более 1 процента при максимальных настройках графики.

Тесты в приложениях

В Autodesk 3ds max 2014 мы измеряем скорость рендеринга в mental ray специально подготовленной сложной сцены.



Производительность в новом Adobe Premiere Pro CC тестируется измерением времени рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов.



Измерение производительности в новом Adobe Photoshop CC мы проводим с использованием собственного теста, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, включающий типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.



Для измерения быстродействия процессоров при компрессии информации мы пользуемся архиватором WinRAR 5.0, при помощи которого с максимальной степенью сжатия архивируем папку с различными файлами общим объёмом 1,7 Гбайт.



Для оценки скорости перекодирования видео в формат H.264 использовался тест x264 FHD Benchmark 1.0.1 (64bit), основанный на измерении времени кодирования кодером x264 исходного видео в формат MPEG-4/AVC с разрешением 1920x1080@50fps и настройками по умолчанию. Следует отметить, что результаты этого бенчмарка имеют огромное практическое значение, так как кодер x264 лежит в основе многочисленных популярных утилит для перекодирования, например, HandBrake, MeGUI, VirtualDub и проч. Мы периодически обновляем кодер, используемый для измерений производительности, и в данном тестировании приняла участие версия r2431, в которой реализована поддержка всех современных наборов инструкций, включая и AVX2.



Никакие приложения не позволяют выявить заметные преимущества процессоров Haswell Rafresh над их предшественниками. Это вполне естественно. Единственное изменение в новых CPU – повышенная частота. Так что заметному приросту быстродействия взяться просто неоткуда. Результаты новых Core i7-4790, Core i5-4690, Core i5-4590, Core i5-4460, Core i3-4360, Core i3-4350 и Core i3-4150 лучше, чем у давно присутствующих на рынке предложений того же класса и той же стоимости максимум на 3 процента.

Энергопотребление

Изменения в производительности, преподнесённые Haswell Refresh, совершенно не впечатляют. Никаких же других улучшений в новых модификациях процессоров, исходя из того, что они основываются на полупроводниковом кристалле старой ревизии, быть не должно. Тем не менее, остаётся небольшая надежда на какие-то улучшения в тепловых и энергетических характеристиках, которые могли произойти за счёт совершенствования производственного технологического процесса. Проверим.

На следующих ниже графиках, если иное не оговаривается отдельно, приводится полное потребление систем (без монитора), измеренное на выходе из розетки, в которую подключен блок питания тестовой системы, и представляющее собой сумму энергопотребления всех задействованных в системе компонентов. В суммарный показатель автоматически включается и КПД самого блока питания, однако учитывая, что используемая нами модель БП, Corsair AX760i, имеет сертификат 80 Plus Platinum, его влияние должно быть минимально. Для правильной оценки энергопотребления мы активировали турбо-режим и все имеющиеся энергосберегающие технологии: C1E, C6 и Enhanced Intel SpeedStep.

В первую очередь измерению подверглось потребление в состоянии простоя.



Здесь все процессоры проявили редкостное единодушие. Оно и понятно: в простое Haswell переходят в энергосберегающие состояния и снижают своё энергопотребление практически до нулевых величин. Поэтому те числа, которые приведены на диаграмме, больше характеризуют потребление остальной части тестовой платформы.

Затем мы измерили максимальное потребление при нагрузке, создаваемой 64-битной версией утилиты LinX 0.6.5 с поддержкой набора инструкций AVX2, базирующейся на пакете Linpack.



Приведённая диаграмма очень явно демонстрирует отсутствие каких-либо улучшений в энергопотреблении у процессоров Haswell Refresh. Новые и более быстрые модели требуют электроэнергии больше, чем их предшественники. При этом проведённый в новых модификациях CPU 100-мегагерцовый разгон выливается примерно в 5-процентный рост энергопотребления. Заметим, что, несмотря на это, Intel не сочла нужным увеличивать для Haswell границы теплового пакета. Иными словами, тепловыделение любых Core i7 и Core i5 должно вписываться в 84-ваттные рамки, а Core i3 – в 54-ваттные.

Учитывая, что энергопотребление, инициируемое базирующейся на пакете Linpack утилитой LinX, сильно превышает средний реалистичный уровень, мы измерили потребление и при более «приземлённой» нагрузке – перекодировании видеоролика при помощи 64-битной версии кодека x264 версии r2431.



В целом, картина здесь точно такая же, как и при нагрузке, создаваемой LinX. Меньше лишь абсолютные значения энергопотребления. Тем не менее, процессоры Haswell Refresh потребляют больше своих предшественников одного класса на те же 5 процентов. Всё это означает лишь одно: никаких улучшений в потреблении новых моделей Haswell не сделано.

Нет никаких явных изменений и в температурном режиме новинок. Очевидно, что в обычных Haswell Refresh теплопроводящий материал под крышкой остался таким же неудачным, что и раньше. Температура ядер при возникновении нагрузки у новых процессоров возрастает практически моментально и держится на высоком уровне даже в том случае, если в системе установлен эффективный кулер. Например, в нашем случае, при использовании кулера Noctua NH-U14S, старший из Haswell Refresh, Core i7-4790 при работе утилиты LinX очень быстро нагревался до 84 градусов. И это без всякого разгона, в номинальном режиме!



Напомним, предельная температура, при которой процессоры семейства Haswell включают троттлинг, – 100 градусов.

Выводы

Подводя итог, мы вынуждены констатировать, что громкое название Haswell Refresh получили совершенно ординарные процессоры, которые своим выходом не привносят практически ничего нового. Для их выпуска Intel не стала проделывать никакой инженерной работы. Поэтому, потребительские качества свежих CPU для платформы LGA 1150 практически не отличаются от того, что предлагалось раньше. Количество ядер, объём кэш-памяти, тип встроенного графического ядра, набор поддерживаемых технологий – всё осталось неизменным. Не было сделано никаких оптимизаций и на уровне полупроводникового кристалла, поэтому тепловыделение и энергопотребление Haswell Refresh осталось на типичном для Haswell уровне.

Единственное, где можно увидеть хоть какое-то движение вперёд – это тактовые частоты. Однако, учитывая, что рост частот не подкрепляется никакими технологическими или инженерными улучшениями, а носит характер лишь простого разгона старых моделей, их увеличение оказалось крайне слабым. Фактически, в рамках Haswell Refresh Intel нарастила скорость работы своих процессоров на минимально возможную дельту – на 100 МГц. Соответственно точно такой же, минимальный, прирост в производительности мы увидели и в процессе тестирования. Новые процессоры Haswell Refresh оказались быстрее старых Haswell на 2-3 процента и не более того.

Всё это означает, что выход Haswell Refresh может быть интересен только в том случае, если вы ещё не мигрировали на платформу LGA 1150. Учитывая, что стоимость новых моделей не выше, чем у старых, при покупке нового компьютера теперь вполне естественно спрашивать в магазинах именно новые модификации процессоров. А если у вашего любимого поставщика Haswell Refresh в прайс-листе пока отсутствуют, лучше немного повременить с покупкой, но впоследствии получить чуть более высокую производительность за те же деньги.

И, кроме того, не забывайте, что примерно через три недели нас ожидает выход ещё пары процессоров, формально относящихся к числу обновлённых Haswell, Core i7-4790K и Core i5-4690K. Эти CPU, имеющие собственное кодовое имя Devil’s Canyon, в отличие от рассмотренных сегодня моделей, обещают стать отличным подарком для энтузиастов. В них появятся и заметно улучшенные тактовые частоты, и понизившиеся рабочие температуры, и лучший разгон. Но не будем забегать вперёд: полный обзор Core i7-4790K и Core i5-4690K вы сможете прочитать на нашем сайте несколько позднее.

Проапгрейдив до упора Sandy Bridge и переведя его на новый техпроцесс в прошлом году, Intel вплотную подошла к очередному шагу «tock», предписанному самой себе несколькими годами ранее.

«Тик-так» Intel - это не всегда бомба, но, определенно, символ технологического прогресса

На шагах «tock», как явствует из иллюстрации, необходимо вводить новую архитектуру. Что и было сделано - мир увидел микроархитектуру под кодовым именем Haswell и базирующиеся на ней 14 моделей процессоров Core i5 и i7 под разъем LGA 1150 (также известного как Socket H3), из них восемь «обычных» и шесть low power. Вообще, тема энергопотребления (или, если быть точным, «энергопотребления, адекватного для текущей вычислительной мощности») проходит красной нитью через микроархитектуру Haswell, потому как Intel видит большое будущее для своего творения в мобильном сегменте, а без процессора или SoC с умеренными аппетитами делать там нечего. Основным своим конкурентом, судя по сравнениям в открытых источниках, Intel считает поделки на ARM-процессорах, так как они уже хорошо прижились в мобильном сегменте и показали там свою жизнеспособность.

На ниве питания процессоров Intel уже немало сделала. Уходя от изначального регулирования TDP только с помощью напряжения питания процессора, подаваемого на него с преобразователя материнской платы и тактовой частоты ядер, Intel перенесла часть преобразователей в CPU, тем самым открыв для себя возможность более точно (а значит, эффективно) дозировать напряжение на каждом из других блоков, расположенных на кристалле. К тому времени процессор уже перестал быть только процессором в изначальном понимании этого слова и включал в себя контроллер памяти и другие части северного моста (NB), что в свое время позволило существенно упростить разводку материнских плат и снизить энергопотребление связки CPU+NB.

Работа с питанием также велась и в сторону рационального использования, когда тот или иной блок функционировал (читай - потреблял электричество) только в нужные моменты, а в периоды простоя отключался и не тратят попусту энергию. Одним из плодов работ в этом направлении стало появление в системах Intel наряду с состоянием S0 состояний S0ix, который значительно сокращал энергопотребление процессора в моменты простоя до состояния «спящей системы» (состояние S3, в него переходит ноутбук после захлопывания экрана в рабочем состоянии). Фактически, система могла «спать» абсолютно прозрачно для пользователя, так как переход в S0iх составляет 450 микросекунд, а пробуждение - 3,2 миллисекунды (0,00045 с и 0,0032 с соответственно). Для сохранения экрана в активном состоянии разработана технология PSR (Panel Self-Refresh), подразумевающая наличие буфера, хранящего несколько последних кадров. Это позволяет снижать нагрузку на графический процессор, особенно при нечастом обновлении информации на экране (например, при чтении текста), что, в свою очередь, дает возможность снизить энергопотребление графического процессора.

Новый процессор Intel умеет экономить энергию значительно лучше предшественников

Правда, для этого необходима аппаратная поддержка со стороны монитора, так что широкое применение этот способ энергосбережения может найти в мобильном сегменте, где «монитор» и «вычислительная часть» являются одним устройством. Но для демонстрации наработок Intel пример очень подходит, тем более что они нашли реализацию в процессорах на архитектуре Haswell. Так, блок PCU (Power Control Unit) в Haswell умеет очень эффективно использовать энергию за счет множества «режимов работы», в каждом из которых активны только необходимые сейчас блоки. Это, по заверениям Intel, позволило снизить энергопотребление в простое почти в пять раз по сравнению с прошлым (третьим) поколением процессоров, Переключение между «режимами» ускорено на четверть, что позволяет более активно управлять энергопотреблением ядер и «засыпать их» даже в тех случаях,которые в прошлом поколении были нецелесообразны из-за долгой процедуры включения/выключения. Тут ядро пару миллисекунд «поспало», сэкономим доли милливатта, там «вздремнуло»... Так и набираются сэкономленные ватты.

Внутренняя архитектура процессора также была серьезно доработана, хотя глобально ничего не изменилось. Intel продолжает шлифовать и дорабатывать кусками архитектуру, применявшуюся ещё в Conroe. Правда, различий между Ivy Bridge и Haswell куда больше, чем между Sandy Bridge и Ivy Bridge. Последний, по моему скромному мнению, вообще был рестайлингом для «Санди»; из существенных изменений можно отметить лишь переход с 32 нм на 22 нм техпроцесс.

Архитектура Intel Haswell в виде схемы

В процессорном блоке Haswell сохранился 14-19 ступенчатый конвейер, без изменений перешел и кэш на полторы тысячи микроинструкций, а вот блок декодирования инструкций теперь единый и не делится между двумя потоками. Размер блока Out-of-Order Window (OoO) увеличен со 168 до 192 записей, а в Reservation Station добавились два порта, увеличив общее число до восьми. В Sandy Bridge было шесть портов для параллельного выполнения шести микроопераций. Три из них используются для операций с памятью (чтение/запись), три - математическими операциями. Один добавленный порт используется для выполнения целочисленных математических операций и ветвления, а второй - для вычисления адреса.

Были переработаны блоки FMA (Fused Multiply-Add) в портах 0-1, а также добавлена поддержка набора инструкций AVX2 (Advanced Vector Extensions 2). Это позволяет значительно повысить производительность как при однотипной, так и при смешанной нагрузке, но все-таки более всего выросла скорость выполнения операций с плавающей точкой - Intel заявляет о двукратном повышении производительности.

Новые наборы инструкций - залог будущей эффективности

На практике можно ожидать прирост при работе с мультимедийным контентом и в 3D.

Новый блок FMA способен дать серьёзный выигрыш FLOPS за такт

Не остался без внимания и КЭШ. Скорость работы L1 и шины между L1 и L2 были увеличены вдвое, с 32 до 64 байт за цикл в обоих случаях; латентность осталась без изменений. Доработан универсальный TLB (Translation Lookaside Buffer): с 4К до расширенного 4К+2M, ширина шины увеличена вдвое. Доступ к КЭШу L3 теперь шире благодаря возможности обрабатывать запросы data и non data одновременно.

Блок TSX поможет распределить нагрузку между ядрами процессора

В Haswell был добавлен набор инструкций TSX (Transactional Synchronization eXtensions), позволяющий повысить скорость работы за счет «умного» оперирования теми данными, к которым одновременно обращаются несколько ядер. Это должно повысить эффективность работы процессора с теми задачами, которые трудно распараллелить, а также дает программистам возможность переложить часть работы по распределению нагрузки между ядрами на процессор. TSX, как и AVX2 - удобный инструмент для разработчиков, которые, умело оперируя им, могут добиться значительного роста быстродействия для своих приложений. По этой же причине мгновенного результата «здесь и сейчас» от этих новых наборов инструкций ждать не стоит.

Одним из самых значимых событий этого года в сегменте настольных ПК безусловно можно считать выпуск нового семейства процессоров Intel Core четвертого поколения, известных под кодовым наименованием Haswell. В этой статье мы вкратце рассмотрим микроархитектуру Haswell и сравним производительность процессора Intel Core i7-4770 на базе этой микроархитектуры с производительностью процессора Intel Core i7-3770 на базе микроархитектуры предыдущего поколения Sandy Bridgе.

Напомним, что уже в течение многих лет выход новых поколений процессоров Intel подчиняется эмпирическому правилу TICK-TOCK («тик­так»), суть которого заключается в том, что перевод производства на новый технологический процесс (TICK) и внедрение новой процессорной микроархитектуры (TOCK) происходит поочередно, с периодичностью примерно в два года. То есть если в первый год происходит переход на новый техпроцесс производства, то на второй год на этом же техпроцессе внедряется новая процессорная микроархитектура. На следующий год происходит перенос микроархитектуры на новый техпроцесс производства и т.д.

В частности, в 2012 году компания Intel выпустила 22-нм версию процессоров на базе микроархитектуры Sandy Bridge, которые известны под кодовым наименованием Ivy Bridge (цикл TICK), а теперь настал черед выпуска 22-нм процессоров на базе новой процессорной микроархитектуры Haswell.

Подробно об особенностях новой микроархитектуры Haswell мы уже писали в КомпьютерПресс № 10’2012. Однако с тех пор прошло много времени, а самое главное - стали известны новые подробности этой микроархитектуры. А потому позволим себе в чем­то повториться и сделать краткий обзор микроархитектуры Haswell, акцентируясь на тех деталях, которые в нашем предыдущем обзоре были опущены.

Вычислительное ядро Haswell

Haswell - это кодовое название новой процессорной микроархитектуры, но по традиции этим же именем называются все базирующиеся на ней процессоры. Кроме того, Haswell - это кодовое название ядра процессора Haswell, что вполне логично, поскольку микроархитектура и ядро процессора - это две стороны одной медали.

Итак, рассмотрим вкратце микроархитектуру Haswell (или вычислительное ядро Haswell, что в принципе одно и то же).

Вычислительное ядро Haswell не претерпело кардинальных изменений в сравнении с вычислительным ядром Ivy Bridge/Sandy Bridge - были улучшены лишь отдельные блоки ядра процессора. А потому уместным будет напомнить в общих чертах микроархитектуру Sandy Bridge и остановиться на внесенных в нее изменениях.

Блок предпроцессора

Традиционно описание микроархитектуры ядра процессора начинается с блока предпроцессора (front-end), который отвечает за выборку инструкций x86 из кэша инструкций и их декодирование (рис. 1). В микроархитектуре Haswell блок предпроцессора претерпел минимальные изменения.

Рис. 1. Предпроцессор в микроархитектурах Haswell и Sandy Bridge

Инструкции x86 выбираются из кэша инструкций L1I (Instruction Сache), который не изменился в микроархитектуре Haswell. Он имеет размер 32 Кбайт, является 8-канальным и динамически разделяем между двумя потоками инструкций (поддержка технологии Hyper-Threading).

Из кэша L1I команды загружаются 16-байтными блоками в 16-байтный буфер предкодирования (Fetch Buffer).

Поскольку инструкции x86 имеют переменную длину (от 1 до 16 байт), а длина блоков, которыми команды загружаются из кэша, фиксированная, при декодировании команд определяются границы между отдельными командами (информация о размерах команд хранится в кэше инструкций L1I в специальных полях). Процедура выделения команд из выбранного блока называется предварительным декодированием (PreDecode).

После операции выборки команды организуются в очередь (Instruction Queue). В микроархитектуре Sandy Bridge и Haswell буфер очереди команд рассчитан на 20 команд в каждом из двух потоков, причем из буфера предкодирования за каждый такт в буфер очереди команд могут загружаться до шести выделенных команд.

После этого выделенные команды (x86-инструкции) передаются в декодер, где они преобразуются в машинные микрооперации (обозначаются как micro-ops или uOps).

Декодер ядра процессора Haswell остался без изменений. Он по-прежнему является четырехканальным и может декодировать в каждом такте до четырех инструкций x86. Как уже отмечалось, длина одной команды может достигать 16 байт, однако средняя длина команд составляет 4 байта. В среднем в каждом 16-байтном блоке загружаются четыре команды, которые при использовании четырехканального декодера одновременно декодируются за один такт.

Четырехканальный декодер состоит из трех простых декодеров, декодирующих простые инструкции в одну микрооперацию, и одного сложного, который способен декодировать одну инструкцию не более чем в четыре микрооперации (декодер типа 4-1-1-1). Для еще более сложных инструкций, декодирующихся более чем в четыре микрооперации, сложный декодер соединен с блоком uCode Sequenser, который и применяется для декодирования подобных инструкций.

При декодировании инструкций используются технологии Macro-Fusion и Micro-Fusion.

Macro-Fusion - это слияние двух x86-инструкций в одну сложную микрооперацию micro-ops, которая в дальнейшем будет выполняться как одна микрооперация. Естественно, такому слиянию могут подвергаться не любые инструкции, а только некоторые пары инструкций (например, инструкция сравнения и условного перехода). Без применения технологии Macro-Fusion за каждый такт процессора могут декодироваться только четыре инструкции (в четырехканальном декодере), а при использовании технологии Macro-Fusion в каждом такте могут считываться пять инструкций, которые за счет слияния преобразуются в четыре и подвергаются декодированию.

Отметим, что для эффективного поддержания технологии Macro-Fusion применяются расширенные блоки ALU (Arithmetical Logic Unit), способные поддержать выполнение слитых микроопераций.

Micro-Fusion - это слияние двух микроопераций (не x86-инструкций, а именно микроопераций) в одну, содержащую два элементарных действия. В дальнейшем две такие слитые микрооперации обрабатываются как одна, что позволяет снизить количество обрабатываемых микроопераций, а следовательно, увеличить общее количество исполняемых процессором инструкций за один такт.

Кроме того, в микроархитектуре Haswell и Sandy Bridge применяется кэш декодированных микроопераций (Uop Cache), в который поступают все декодированные микрооперации. Этот кэш рассчитан приблизительно на 1500 микроопераций средней длины. Кэш декодированных микроопераций представляет собой восемь банков (то есть данный кэш является 8-канальным), каждый из которых состоит из 32 кэш­строк, а каждая кэш­строка вмещает до шести декодированных микроопераций (uop). Отсюда и получается, что кэш может содержать примерно 1500 микроопераций.

Концепция кэша декодированных микроопераций заключается в том, чтобы сохранять в нем уже декодированные последовательности микроопераций. В результате, если нужно выполнить некую x86-инструкцию повторно, а соответствующая ей последовательность декодированных микроопераций все еще находится в кэше декодированных микроопераций, не требуется вторично выбирать эту инструкцию из кэша L1 и декодировать ее - из кэша на дальнейшую обработку поступают уже декодированные микрооперации.

После процесса декодирования x86-инструкций они, по четыре штуки за такт, поступают в буфер очереди декодированных инструкций (Decode Queue). В микроархитектуре Sandy Bridge этот буфер очереди декодированных инструкций был рассчитан на два потока команд по 28 микроопераций на каждый поток. В микроархитектурах Ivy Bridge и Haswell он не делится на два потока команд и рассчитан на 56 микроопераций. Такой подход оказывается более предпочтительным при выполнении однопоточного приложения (с одним потоком команд). В этом случае одному потоку команд доступен буфер емкостью на 56 микроопераций, а в микроархитектуре Sandy Bridge - только на 28 микроопераций.

Казалось бы, если сравнивать ядра процессоров Haswell и Ivy Bridge, то разницы в их предпроцессорах нет вообще, а предпроцессоры ядер Haswell и Sandy Bridge различаются лишь структурой буфера очереди декодированных инструкций.

Тем не менее, как заявляет компания Intel, некоторые улучшения в предпроцессор Haswell все же были внесены и касались усовершенствования блока предсказания ветвлений (Branch Predictors). Однако, какие именно улучшения были реализованы, компания Intel не раскрывает.

Заканчивая описание предпроцессора в микроархитектуре Haswell, нужно также упомянуть и о TLB-буфере.

Буфер TLB (Translation Look-aside Buffers) - это специальный кэш процессора, в котором сохраняются адреса декодированных инструкций и данных, что позволяет значительно сократить время доступа к ним. Этот кэш предназначен для сокращения времени преобразования виртуального адреса данных или инструкций в физический. Дело в том, что процессор использует виртуальную адресацию, а для доступа к данным в кэше или оперативной памяти нужны реальные физические адреса. Преобразование виртуального адреса в физический занимает приблизительно три такта процессора. TLB-кэш хранит результаты предыдущих преобразований, благодаря чему преобразование адреса возможно осуществлять за один такт.

В процессорах c микроархитектурой Haswell и Sandy Bridge (как и в процессорах Intel на базе других микроархитектур) используется двухуровневый кэш TLB, причем если кэш L2 TLB является унифицированным, то L1 TLB-кэш разделен на буфер данных (DTLB) и буфер инструкций (ITLB).

L1 TLB-кэши инструкций и данных в микроархитектуре Haswell не претерпели изменений - они точно такие же, как и в микроархитектуре Sandy Bridge. L1 ITLB-кэш инструкций рассчитан на 128 записей, в случае если каждая запись адресует страницу памяти емкостью 4 Кбайт. Таким образом, при применении 4 Кбайт страниц памяти L1 ITLB-кэш может адресовать 512 Кбайт памяти. В случае страниц емкостью 4 Кбайт ITLB-кэш является 4-канальным и статически разделен между двумя потоками команд. Кроме того, L1 ITLB-кэш может адресовать 2 Мбайт страниц памяти. В этом случае кэш содержит восемь записей на каждый поток и является полностью ассоциативным.

Блок внеочередного исполнения команд

После процесса декодирования x86-инструкций начинается этап их внеочередного исполнения (Out-of-Order).

На первом этапе происходит переименование и распределение дополнительных регистров процессора, которые не определены архитектурой набора команд. Техника переименования регистров будет бессмысленной без переупорядочения команд. Поэтому из буфера очереди декодированных инструкций (Decode Queue) микрооперации по четыре штуки за такт поступают в буфер переупорядочения (ReOrder Buffer), где происходит переупорядочение микроопераций не в порядке их поступления (Out-of-Order).

В микроархитектуре Sandy Bridge размер буфера переупорядочения рассчитан на 168 микроопераций, а в микроархитектуре Haswell - на 192 микрооперации.

Отметим, что буфер переупорядочения (ReOrder Buffer) и блок отставки (Retirement Unit) совмещены в едином блоке процессора, но первоначально производится переупорядочение инструкций, а блок Retirement Unit включается в работу позже, когда надо выдать исполненные инструкции в заданном программой порядке.

Далее происходит распределение микроопераций по исполнительным блокам. В блоке процессора Unified Scheduler формируются очереди микроопераций, в результате чего микрооперации попадают на один из портов функциональных устройств (Dispatch ports). Этот процесс называется диспетчеризацией (Dispatch), а сами порты выполняют функцию шлюза к функциональным устройствам.

В микроархитектурах Sandy Bridge и Haswell кластеры внеочередного выполнения команд (Out-of-Order Cluster) используют так называемые физические регистровые файлы (Physical Register File, PRF), в которых хранятся операнды микроопераций.

Напомним, что, когда в ядрах процессоров не применялись физические регистровые файлы (например, в микроархитектуре Nehalem), каждая микрооперация имела копию необходимого ей операнда (или операндов). Фактически это означало, что блоки кластера внеочередного выполнения команд должны были обладать достаточно большим размером, чтобы иметь возможность вмещать микрооперации вместе с требуемыми им операндами.

Использование PRF позволяет самим микрооперациям сохранять лишь указатели на операнды, но не сами операнды. С одной стороны, такой подход обеспечивает снижение энергопотребления процессора, поскольку перемещение по конвейеру микроопераций вместе с их операндами требует существенных затрат по энергопотреблению. С другой - применение физического регистрового файла позволяет сэкономить размер кристалла, а высвободившееся пространство использовать для увеличения размеров буферов кластера внеочередного выполнения команд.

Рис. 2. Блоки внеочередного выполнения команд

в микроархитектурах Haswell и Sandy Bridge

В микроархитектуре Sandy Bridge физический регистровый файл для целочисленных операндов (Integer Registers) рассчитан на 160 записей, а для операндов с плавающей запятой (AVX Registers) - на 144 записи.

В микроархитектуре Haswell физические регистровые файлы Integer Registers и AVX Registers рассчитаны на 168 записей.

Буферы чтения (Load) и записи (Store), которые используются для доступа к памяти, также увеличились. Например, если в микроархитектуре Sandy Bridge буферы Load и Store были рассчитаны на 64 и 36 записей соответственно, то в микроархитектуре Haswell они рассчитаны соответственно на 72 и 42 записи.

Размер буфера Unified Scheduler, в котором формируются очереди микроопераций к портам функциональных устройств, также изменился в микроархитектуре Haswell. Если в Sandy Bridge он был рассчитан на 54 микрооперации, то в Haswell - на 60.

Итак, если сравнивать архитектуры Haswell и Sandy Bridge, то в блоке внеочередного исполнения команд микроархитектура Haswell имеет не структурные, а лишь качественные изменения, касающиеся увеличения размеров буферов. Но никаких принципиальных изменений в блоке внеочередного исполнения команд в микроархитектуре Haswell нет.

Исполнительные блоки ядра процессора

Что касается исполнительных блоков ядра процессора, то в микроархитектуре Haswell они претерпели существенные изменения по сравнению с микроархитектурой Sandy Bridge. Так, в Sandy Bridge насчитывается шесть портов функциональных устройств (портов диспетчеризации): три вычислительных и три для работы с памятью (на рис. 3 показаны только вычислительные порты).

Рис. 3. Исполнительные блоки в микроархитектурах Sandy Bridge

и Haswell (порты для работы с памятью не показаны)

В микроархитектуре Haswell количество портов функциональных устройств увеличено до восьми. К тому, что было в микроархитектуре Sandy Bridge, добавили еще один порт для записи адреса (Store address) и вычислительный порт для операций с целыми числами и операций сдвига (Integer ALU & Shift). Таким образом, процессоры Haswell могут за один такт выполнять до восьми микроопераций, в то время как в микроархитектуре Sandy Bridge максимальное количество выполняемых за такт микроопераций равно шести.

Кроме того, в микроархитектуре Haswell немного изменены и сами исполнительные устройства. Связано это с тем, что в микроархитектуре Haswell появились дополнительные наборы инструкций: AVX2, FMA3 и BMI.

Набор инструкций AVX2 (Advanced Vector Instructions) является расширением набора инструкций AVX, который присутствует в микроархитектуре Sandy Bridge. Вообще, набор инструкций AVX является логическим продолжением наборов инструкций SSE, SSE2, SSE3 и SSE4. Для обработки данных в инструкциях AVX используется 16 векторных регистров разрядностью по 256 бит, благодаря чему можно во много раз ускорить многие операции. К примеру, умножение четырех 64-разрядных чисел с использованием AVX-команды возможно всего за один такт, в то время как без AVX-инструкции для этого потребуется четыре такта.

Главное отличие нового набора инструкций AVX2 от прежней версии AVX заключается в том, что если ранее 256-битные операции с AVX-регистрами были доступны только для операнда с плавающей запятой, а для целочисленных операндов были доступны лишь 128-битные операции, то в AVX2 256-битные операции стали доступны и для целочисленных операндов. Фактически, при использовании AVX за один такт можно реализовать 16 операций с числами одинарной точности и восемь операций с числами двойной точности. А при использовании AVX2 за один такт можно реализовать 32 операции с числами одинарной точности и 16 операций с числами двойной точности.

Кроме того, в AVX2 появилась улучшенная поддержка сдвигов и перестановок в векторных операциях. Есть и новые инструкции, используемые для сборки нескольких (четырех или восьми) несвязанных элементов в один векторный элемент, благодаря чему есть возможность более полно загружать 256-битные AVX-регистры.

Новый набор инструкций FMA3 (Fused Multiply Add) предназначен для проведения операций совмещенного умножения и сложения над тремя операндами.

Использование операций FMA3 позволяет более эффективно реализовать операции деления, извлечения квадратного корня, умножение векторов и матриц и т.д. Набор FMA3 включает 36 инструкций с плавающей точкой для выполнения 256-битных вычислений и 60 инструкций для 128-битных векторов.

В набор команд BMI (Bit Manipulation Instructions) входят 15 скалярных инструкций для битовых операций, которые работают с целочисленными регистрами общего назначения. Эти инструкции разбиты на три группы: манипуляции над отдельными битами, такие как вставка, сдвиг и извлечение бит, подсчет битов, например подсчет ведущих нулей в записи чисел, и целочисленное умножение произвольной точности. Данный набор инструкций позволяет ускорять ряд специфических операций, используемых, например, при шифровании.

Подсистема памяти в микроархитектуре Haswell

Одно из наиболее значимых изменений в микроархитектуре Haswell в сравнении с Sandy Bridge было сделано в подсистеме памяти. И дело не только в том, что увеличен размер буферов чтения (Load) и записи (Store), которые используются для доступа к памяти (72 и 42 записи соответственно). Главное, был добавлен еще один порт для записи адреса (Store address), кэш данных L1 стал более производительным, а пропускная способность между кэшами L1 и L2 увеличена. Рассмотрим эти изменения более подробно.

Доступ к подсистеме памяти начинается с того, что соответствующие микрооперации поступают в буферы чтения (Load) и записи (Store), которые в совокупности могут накапливать более ста микроопераций. В микроархитектуре Sandy Bridge порты функциональных устройств, которые маркируются на схемах как 2, 3 и 4, отвечали именно за доступ к памяти (рис. 4). Порты 2 и 3 связаны с функциональными устройствами генерации адреса (Address Generation Unit, AGU) для записи или чтения данных, а порт 4 связан с функциональным устройством для записи данных из ядра процессора в кэш данных L1 (DL1). Процедура генерации адреса занимает один или два такта процессора.

Рис. 4. Подсистема памяти в микроархитектурах Sandy Bridge и Haswell

В микроархитектуре Haswell к портам 1, 2 и 3 добавлен еще порт 7, который связан с функциональным устройством генерации адреса для записи данных (Store AGU). В результате ядро Haswell может поддерживать две операции загрузки данных и одну операцию записи данных за такт.

Выделенное функциональное устройство генерации адреса для записи данных немного проще в исполнении в сравнении с функциональными устройствами генерации адреса общего назначения (для записи и загрузки данных). Дело в том, что микрооперация записи данных просто записывает адрес (и, в конечном счете, сами данные) в буфер записи (store buffer). А микрооперация загрузки данных должна записывать в буфер чтения и также отслеживать содержимое буфера записи, для того чтобы исключить возможные конфликты.

Как только сгенерирован нужный виртуальный адрес, начинается просмотр кэша L1 DTLB на предмет соответствия этого виртуального адреса физическому. Сам кэш данных L1 DTLB в микроархитектуре Haswell не претерпел изменений. Он поддерживает 64, 32 и 4 записи для страниц памяти размером 4 Кбайт, 2 Мбайт и 1 Гбайт соответственно и является 4-канальным.

При промахе в кэше L1 DTLB начинается просмотр соответствующих записей в унифицированном кэше L2 TLB, который имеет ряд улучшений в микроархитектуре Haswell. Этот кэш поддерживает страницу размером 4 Кбайт и 2 Мбайт, является 8-канальным и рассчитан на 1024 записи. А в микроархитектуре Sandy Bridge L2 TLB кэш был рассчитан на 512 записей (то есть был вдвое меньше), поддерживал только страницы памяти размером 4 Кбайт и был 4-канальным.

Сам кэш данных L1 остался размером 32 Кбайт и 8-канальным (как и в микроархитектуре Sandy Bridge). При этом доступ в TLB-кэш и проверка тэгов кэша данных L1 может производиться параллельно.

Однако в микроархитектуре Haswell кэш данных L1 имеет более высокую пропускную способность. Он поддерживает одновременно одну 256-битную операцию чтения и две 256-битные операции записи, что в совокупности дает агрегированную полосу пропускания в 96 байт за такт. В микроархитектуре Sandy Bridge кэш данных L1 поддерживает одновременно одну 128-битную операцию чтения и две 128-битные операции записи, то есть имеет теоретическую полосу пропускания в два раза ниже. При этом реальная полоса пропускания кэша данных L1 в микроархитектуре Sandy Bridge более чем вдвое ниже полосы пропускания в микроархитектуре Haswell по причине того, что в Sandy Bridge только два функциональных блока AGU.

Кроме того, в микроархитектуре Haswell увеличена и пропускная способность между кэшами L1 и L2. Так, если в Sandy Bridge пропускная способность между кэшем L2 и L1 составляла 32 байта за цикл, то в Haswell она повышена до 64 байтов за цикл. И при этом кэш L2 в Haswell имеет ту же латентность, что и в Sandy Bridge. В заключение отметим, что, как и в микроархитектуре Sandy Bridge, в Haswell кэш L2 не эксклюзивен и не инклюзивен по отношению к кэшу L1.

Новые режимы энергосбережения в процессоре Haswell

Одно из нововведений в процессоре Haswell - это позволяющие снизить совокупное энергопотребление процессора новые состояния энергопотребления, которые называются S0ix и позаимствованы у процессоров Intel Atom (такие режимы энергопотребления были реализованы еще в процессорах Moorestown).

Напомним, что традиционно система может находиться либо в активном состоянии S0 (обычный рабочий режим), либо в одном из четырех состояний «сна» S1-S4.

В состоянии S1 все процессорные кэши сброшены и процессор прекратил выполнение инструкций. Однако поддерживается питание процессора и оперативной памяти, а устройства, которые не обозначены как включенные, могут быть отключены. Состояние S2 - это еще более глубокое состояние «сна», когда процессор отключен.

Состояние S3 (другое название - Suspend to RAM (STR) или режим ожидания - Standby) - это состояние, в котором на оперативную память (ОЗУ) продолжает подаваться питание и она остается практически единственным компонентом, потребляющим энергию.

Состояние S4 известно как гибернация (Hibernation). В этом состоянии всё содержимое оперативной памяти сохраняется в энергонезависимой памяти (например, на жестком диске или SSD).

Состояния S0ix (S0i1, S0i2, S0i3, S0i4) аналогичны состояниям S1, S2, S3 и S4 в смысле энергопотребления, но отличаются от них тем, что для перехода системы в активное состояние S0 требуется гораздо меньше времени. К примеру, для перехода из состояния S0 в состояние S0i3 требуется 450 мкс, а для обратного перехода - 3,1 мс.

Графическое ядро в микроархитектуре Haswell

Одно из основных нововведений в микроархитектуре Haswell - это новое графическое ядро c поддержкой DirectX 11.1, OpenCL 1.2 и OpenGL 4.0.

Но самое главное, что графическое ядро в микроархитектуре Haswell масштабируемое. Существуют варианты графического ядра с кодовыми названиями GT3, GT2 и GT1 (рис. 5).

Рис. 5. Блок-схема графического ядра Haswell

Ядро GT1 будет иметь минимальную производительность, а GT3 - максимальную.

В графическом ядре GT3 появится второй вычислительный блок, за счет чего удвоится количество блоков растеризации, пиксельных конвейеров, вычислительных ядер и сэмплеров. Ожидается, что GT3 будет вдвое производительнее GT2.

Ядро GT3 содержит 40 исполнительных блоков, 160 вычислительных ядер и четыре текстурных блока. Для сравнения напомним, что в графическом ядре Intel HD Graphics 4000 процессоров Ivy Bridge содержится 16 исполнительных устройств, 64 вычислительных ядра и два текстурных блока. Поэтому, несмотря на приблизительно одинаковые тактовые частоты их работы, графическое ядро Intel GT3 превосходит своего предшественника по уровню производительности. Кроме того, ядро GT3 имеет более высокую производительность благодаря интеграции памяти EDRAM (в ядре GT3e) в упаковку процессора.

Ядро GT2 содержит 20 исполнительных блоков, 80 вычислительных ядер и два текстурных модуля, а ядро GT1 - только 10 исполнительных блоков, 40 вычислительных ядер и один текстурный модуль.

Сами исполнительные блоки имеют по четыре вычислительных ядра наподобие тех, что используются в архитектуре AMD VLIW4.

Еще одно нововведение заключается в том, что при работе с памятью применятся технология Instant Access, которая позволяет вычислительным ядрам процессора и графическому ядру напрямую обращаться к оперативной памяти. В предыдущих версиях графического ядра вычислительные ядра процессора и графическое ядро тоже работали с общей оперативной памятью, но при этом память делилась на две области с динамически изменяемыми размерами. Одна из них отводилась для графического ядра, а другая - для вычислительных ядер процессора. Однако получить одновременный доступ к одному и тому же участку памяти графическое ядро и вычислительные ядра процессора не могли. И в случае, если графическому процессору требовались те же данные, что использовались вычислительным ядром процессора, ему приходилось копировать этот участок памяти. Это приводило к росту задержек, а кроме того, возникала проблема отслеживания когерентности данных.

Технология InstantAccess позволяет драйверу графического ядра ставить указатель на положение определенного участка в области памяти графического ядра, к которой вычислительному ядру процессора необходимо напрямую получить доступ. При этом вычислительное ядро процессора будет работать с этой областью памяти напрямую, без создания копии, а после выполнения необходимых действий область памяти будет возвращена в распоряжение графического ядра.

Семейство новых графических ядер GT1, GT2 и GT3 обладает улучшенными возможностями по кодированию-декодированию видеоданных. Поддерживается аппаратное декодирование форматов H.264/MPEG-4 AVC, VC-1, MPEG-2, MPEG-2 HD, Motion JPEG, DivX с разрешением вплоть до 4096×2304 пикселов. Заявляется, что графическое ядро способно одновременно декодировать несколько видеопотоков 1080p и воспроизводить видео 2160p без подтормаживания и пропуска кадров.

Появился и специальный блок улучшения качества видео, который называется Video Quality Engine и отвечает за шумоподавление, цветокоррекцию, деинтерлейсинг, адаптивное изменение контраста и т.д. Также новые графические ядра будут поддерживать функции стабилизации изображения, преобразования частоты кадров и расширенной гаммы.

Кроме того, графическое ядро в процессоре Haswell обеспечивает подключение до трех мониторов одновременно. Поддерживаются порты Display Port 1.2 с разрешениями до 3840×2160 и частотой 60 Гц, HDMI c разрешением до 4096×2304 и частотой 24 Гц (при максимальном разрешении), а также порт DVI.

Модельный ряд процессоров Haswell

Пока еще преждевременно говорить о модельном ряде процессоров Haswell. Естественно, в Интернете можно найти разнообразную и порой противоречивую информацию относительно планов компании Intel по выпуску процессоров Haswell. Однако официально эту информацию компания не подтверждает, поэтому неизвестно, какие именно модели процессоров будут объявлены в первую очередь.

Достоверно известно лишь, что процессоры Haswell будут официально называться Intel Core четвертого поколения и составят три серии: Core i7, Core i5 и Core i3. Как и предыдущие поколения процессоров Intel, модели процессоров Haswell маркируются четырехзначным числом, которое начинается с цифры 4 (первая цифра обозначает номер поколения процессоров).

Первоначально компания Intel объявит о выпуске процессоров для настольных ПК и ноутбуков серий Core i7 и Core i5, а более слабые и дешевые процессоры серии Core i3 появятся позже.

Процессоры для настольных ПК будут наделяться графическим ядром GT2 с официальным названием Intel HD Graphics 4600, однако это лишь слухи, поэтому вполне возможно, что в семействе процессоров для настольных ПК окажется модель с графическим ядром GT3 (официальное название Intel HD Graphics 5200).

Мобильные версии процессоров Haswell будут оснащаться графическим ядром либо GT3 (топовые модели), либо GT2.

Опять же по слухам, все версии мобильных процессоров будут четырехъядерными с поддержкой технологии Hyper-Threading (речь идет о семействе мобильных процессоров Core i7). Процессоры для настольных ПК семейств Core i7 и Core i5 также будут преимущественно (за исключением одной модели в семействе Core i5) четырехъядерными, однако технологию Hyper-Threading будут поддерживать только топовые модели семейства Core i7 и двухъядерная модель процессора семейства Core i5.

Все процессоры семейств Core i5 и Core i7 будут поддерживать технологию Turbo Boost.

Размер кэша L3 у процессоров семейств Core i7 и Core i5 может составлять 8, 6 и 4 Мбайт, ну а TDP этих процессоров варьируется от 35 до 84 Вт.

Процессоры для настольных ПК имеют разъем LGA 1150 и совместимы только с материнскими платами на базе новых чипсетов Intel 8-й серии.

Процессор Intel Core i7-4770

Если обо всем модельном ряде процессоров Haswell и их характеристиках на момент написания этой статьи официальной информации мы не имели, то о процессоре Intel Core i7-4770, который был у нас на тестировании, мы знали все. Этот процессор не самый топовый в семействе Intel Core i7 четвертого поколения и уступает лишь модели Intel Core i7-4770K, которая отличается от него тем, что имеет полностью разблокированный коэффициент умножения и на 100 МГц более высокую базовую тактовую частоту. Во всем остальном эти процессоры одинаковы.

Итак, процессор Intel Core i7-4770 является четырехъядерным, поддерживает технологию Hyper-Threading, а его базовая частота составляет 3,4 ГГц. В режиме Turbo Boost максимальная тактовая частота может достигать 3,9 ГГц. Процессор наделен кэшем L3 размером 8 Мбайт и графическим ядром GT2 (официальное название Intel HD Graphics 4600), которое работает на тактовой частоте 1,2 ГГц. Контроллер памяти в процессоре, как и прежде, двухканальный, а официальная максимальная частота поддерживаемой памяти DDR3 составляет 1600 МГц (можно, конечно, использовать и более скоростную память).

Опять же, как и ранее, процессор Intel Core i7-4770 имеет встроенный контроллер PCI Express 3.0 на 16 линий. Ну и последнее немаловажное обстоятельство - TDP этого процессора составляет 84 Вт.

Для сравнения напомним, что процессор Intel Core i7-3770 (кодовое наименование Ivy Bridge) предыдущего поколения имеет очень похожие характеристики. Он также является четырехъядерным, поддерживает Hyper-Threading и имеет кэш L3 размером 8 Мбайт. Немного отличаются базовые тактовые частоты этих процессоров: для модели Intel Core i7-4770 она составляет 3,4 ГГц, а для Intel Core i7-3770К - 3,5 ГГц. Однако в режиме Turbo Boost тактовые частоты этих процессоров совпадают: если загружено одно или два ядра процессора, то максимальная тактовая частота может составлять 3,9 ГГц (при условии, что не превышено максимальное энергопотребление и максимальный ток). В случае если загружены три ядра процессора, максимальная тактовая частота может составлять 3,8 ГГц, а при загрузке всех четырех ядер - 3,7 ГГц.

Отличаются в этих процессорах графические ядра и, конечно же, сама микроархитектура вычислительных ядер. А теперь маленькая деталь: процессор Intel Core i7-3770 имеет TDP 77 Вт, то есть меньше, чем Intel Core i7-4770. Что ж, видимо увеличение размеров буферов и количества регистров, дополнительные порты функциональных устройств и увеличение пропускной подсистемы памяти процессора даром не прошли. Всё это привело и к увеличению энергопотребления процессора. С этим, однако, вполне можно примириться, если за счет небольшого увеличения энергопотребления достигнут адекватный прирост производительности процессора. Что ж, осталось проверить, так ли это на самом деле.

Производительность в неигровых приложениях

Для тестирования процессора Intel Core i7-4770 мы использовали нашу утилиту ComputerPress Benchmark Script v.12.0, подробное описание которой можно найти в мартовском номере журнала. Напомним, что данная тестовая утилита основана на следующих реальных приложениях:

  • Xilisoft Video Converter Ultimate 7.7.2;
  • Wondershare Video Converter Ultimate 6.0.3.2;
  • Movavi Video Converter 10.2.1;
  • Adobe Premier Pro CS 6.0;
  • Photodex ProShow Gold 5.0.3276;
  • Adobe Audition CS 6.0;
  • Adobe Photoshop CS 6.0;
  • ABBYY FineReader 11;
  • WinRAR 4.20;
  • WinZip 17.0.

В качестве показателя производительности используется время выполнения тестовых заданий.

Понятно, что само по себе время выполнения тестовых заданий еще не позволяет оценить производительность процессора. Подобные результаты имеют смысл только в сравнении с некоторыми результатами, принимаемыми за референсные. Такое сопоставление результатов позволяет оценить, во сколько раз (или на сколько процентов) тестируемый процессор более производителен (а может, и менее) референсного при выполнении определенной задачи.

Мы сравнивали процессор Intel Core i7-4770 с процессором Intel Core i7-3770. Для наглядности представления результатов также рассчитывались общий интегральный показатель производительности процессора и интегральные оценки по отдельным группам тестов (видеоконвертирование, создание видеоконтента, аудиообработка, обработка цифровых фотографий, распознавание текста, архивирование и разархивирование данных).

Для расчета интегральной оценки производительности результаты тестирования процессора Intel Core i7-4770 нормировались относительно результатов процессора Intel Core i7-3770K. Нормированные результаты тестов разбивались на шесть логических групп (видеоконвертирование, аудиообработка, создание видеоконтента, обработка цифровых фотографий, распознавание текста, архивирование и разархивирование данных), и в каждой группе рассчитывался интегральный результат как среднегеометрическое от нормированных результатов. Для удобства представления результатов полученное значение умножалось на 1000. После этого рассчитывалось среднегеометрическое от полученных интегральных результатов, которое и представляет собой результирующий интегральный показатель производительности. Для процессора Intel Core i7-3770K интегральный результат производительности, а также интегральные результаты по каждой отдельной группе тестов составляют 1000 баллов.

Для тестирования процессора Intel Core i7-3770K использовалась следующая конфигурация ПК:

  • материнская плата - Gigabyte GA-Z77X-UD5H;
  • чипсет системной платы - Intel Z77 Express;
  • память - DDR3-1600;
  • видеокарта - процессорное графическое ядро Intel HD 4000;
  • Тестирование процессора Intel Core i7-4770 проводилось на следующем стенде:
  • материнская плата - Intel DH87MC;
  • чипсет системной платы - Intel H87 Express;
  • память - DDR3-1600;
  • объем памяти - 16 Гбайт (два модуля GEIL по 8 Гбайт);
  • режим работы памяти - двухканальный;
  • видеокарта - процессорное графическое ядро Intel HD 4600;
  • накопитель - Intel SSD 520 (240 Гбайт).

В обоих случаях применялась операционная система Microsoft Windows 8 Enterprise (64-bit).

Отметим, что материнская плата Intel DH87MC, которую мы использовали для тестирования процессора Intel Core i7-4770, - это инженерный сэмпл. Компания Intel отказалась от производства материнских плат под своим брендом и теперь занимается лишь референсным дизайном, то есть производит платы в качестве образца для своих партнеров. Поэтому плата Intel DH87MC никогда не поступит в продажу.

Как для процессора Intel Core i7-3770K, так и для процессора Intel Core i7-4770 тестирование проводилось с настройками BIOS по умолчанию, то есть режим Intel Turbo Boost был активирован, но никакого разгона процессоров не производилось.

Для обеспечения высокой точности результатов все тесты прогонялись по пять раз.

Результаты тестирования представлены в табл. 1 и на рис. 6.

Рис. 6. Интегральные результаты тестирования процессоров утилитой

ComputerPress Benchmark Script v.12.0

Как видите, интегральная производительность процессора Intel Core i7-4770 почти на 10% превосходит производительность процессора Core i7-3770K, причем наибольший прирост в производительности наблюдается в таких приложениях, как Adobe Photoshop CS6 (15%) и Adobe Premier Pro CS 6.0 (18%) и Photodex ProShow Gold 5.0.3276 (13%).

При этом нужно учесть, что процессоры Intel Core i7-4770 и Core i7-3770K работают на одной и той же тактовой частоте и наблюдаемая разница в производительности объясняется исключительно изменениями в микроархитектуре процессора Intel Core i7-4770. В неигровых приложениях новая микроархитектура процессора Haswell позволяет получить выигрыш в производительности в среднем на 10%.

Производительность в играх

Утилита ComputerPress Benchmark Script v.12.0 позволяет оценить производительность процессора лишь при работе с неигровыми приложениями, в которых возможности интегрированного графического ядра практически не используются.

Поэтому мы также оценили производительность графического ядра процессора Intel Core i7-4770 в 3D-играх с использованием бенчмаков 3DMark Professional и 3DMark 11 Advanced Edition.

Бенчмарк 3DMark Professional - это новый тест, который поддерживает как Windows-, так и Android-платформы. В состав этого бенчмарка входят три теста: Ice Storm, Cloud Gate и Fire Strike. Первый из них ориентирован на мобильные устройства типа смартфонов, планшетов или нетбуков, второй - на ноутбуки/ультрабуки и универсальные компьютеры среднего уровня; а третий - на производительные игровые ПК с мощной графикой.

Результаты тестирования процессоров с применением бенчмарков 3DMark Professional и 3DMark 11 Advanced Edition представлены в табл. 2 и табл.3 и на рис. 7 и 8.

Рис. 7. Результаты тестирования процессоров

Рис. 8. Результаты тестирования процессоров

Как видно из результатов тестов 3DMark Professional и 3DMark 11 Advanced Edition, графическое ядро Intel HD 4600 (процессор Core i7-4770) действительно имеет бо льшую производительность, чем ядро Intel HD 4000 (процессор Core i7-3770K). Однако разница по производительности в этих тестах не в два раза, как об этом заявляла компания Intel в своих презентационных материалах, а немного меньше. Тем не менее прогресс в производительности графической подсистемы налицо.

Открытым, однако, остался еще один вопрос. Да, производительность графической подсистемы в процессоре Core i7-4770 увеличилась почти вдвое по сравнению с процессором Core i7-3770K. Но достаточно ли этой производительности, чтобы на компьютере можно было играть без использования дискретной графической видеокарты? Если посмотреть на детальный результат в тестах 3DMark Professional и 3DMark 11 Advanced Edition (значение FPS в графических тестах), то можно сделать вывод, что для игр графическое ядро Intel HD 4600 не годится. Однако всё же бенчмарки 3DMark Professional и 3DMark 11 Advanced Edition - это специфические программы. А потому, чтобы дать объективный ответ на этот вопрос, обратимся к результатам тестирования процессора Core i7-4770 и в других игровых бенчмарках. В данном случае нет необходимости сравнивать результаты тестирования графических ядер процессоров Core i7-4770 и Core i7-3770K, поскольку нас интересует лишь абсолютный результат процессора Core i7-4770 в FPS.

  • Для этого тестирования мы использовали следующие бенчмарки:
  • Unigine Heaven Benchmark 4.0;
  • Unigine Valley 1.0;
  • Bioshock Infinite (встроенный бенчмарк);
  • Metro 2033 (встроенный бенчмарк).

Тестирование проводилось при разрешении экрана 1920×1080 (меньшее разрешение просто неактуально) и в двух режимах: максимальной производительности и максимального качества. Эти крайние настройки определяют своеобразную вилку, за пределы которой FPS выйти уже не может при любых настройках игры.

Настройки каждого бенчмарка на режимы максимальной производительности и качества представлены в табл. 4 , табл. 5 , табл. 6 и табл. 7 , а результаты тестирования - на рис. 9.

Рис 9. Результаты тестирования процессора Intel Core i7-4770 в играх

и игровых бенчмарках

Из результатов тестирования видно, что даже при настройке на минимальное качество (максимальную производительность) встроенное в процессор Intel Core i7-4770 графическое ядро не позволит играть в современные 3D-игры. Ни в одном из используемых нами бенчмарков среднее значение FPS не поднимется выше 30 FPS, что, конечно же, нельзя признать удовлетворительным результатом. А посему, вывод такой: действительно, новое графическое ядро Intel HD 4600 более производительное в сравнении с ядром Intel HD 4000, но это обстоятельство не означает, что встроенная графика позволит вам обходиться без дискретной графической карты. Для компьютера, на котором будут запускаться игры, встроенная графика явно не годится.

Заключение

В заключение нашего обзора процессора Intel Core i7-4770 подведем краткий итог.

В сравнении с процессором Intel Core i7-3770K производительность процессора Intel Core i7-4770 выросла примерно на 10% в неигровых приложениях. Однако, говоря о росте производительности процессоров Haswell, нужно иметь в виду очень важное обстоятельство.

Одно из главных достоинств процессоров Intel Core второго (Sandy Bridge) и третьего (Ivy Bridge) поколений заключалось в том, что они были хорошо разгоняемы и понятие базовой тактовой частоты было в какой­то мере виртуальным. Эти процессоры делились на полностью разблокированные (процессоры К-серии) и частично разблокированные (все остальные процессоры). Процессоры K-серии можно было разгонять путем изменения коэффициента умножения (максимальное значение для коэффициента умножения хоть и существует, но оно достаточно высокое).

Для частично разгоняемых процессоров можно было установить коэффициент умножения на четыре ступени выше, чем максимальное значение в режиме Turbo Boost. К примеру, процессор Intel Core i7-3770 c базовой тактовой частотой 3,4 ГГц можно разогнать до частоты 4,3 ГГц (коэффициент умножения 43), поскольку максимальная тактовая частота этого процессора в режиме Turbo Boost составляет 3,9 ГГц (коэффициент умножения 39).

Однако в процессорах Haswell, не относящихся к K-серии, такой частичный разгон заблокирован вообще, а значит разогнать их невозможно.

Казалось бы, кроме манипуляций с коэффициентом умножения процессор можно также разгонять путем увеличения частоты системной шины. Формально, действительно, можно. Но, как показывает практика, процессоры Intel Core второго, третьего и четвертого поколений практически невозможно разогнать за счет увеличения частоты системной шины. В частности, наши эксперименты с процессором Intel Core i7-4770 показали, что после увеличения частоты системной шины всего на 3 МГц система уже не загружается.

Зачем Intel заблокировала возможность частичного разгона - абсолютно непонятно. Скорее всего, этот недружественный шаг компании по отношению к пользователям и партнерам, занимающимся производством материнских плат, можно расценить как очередную маркетинговую ошибку компании.

Невозможность разгона процессоров Haswell, не относящихся к К-серии, приводит к следующему печальному выводу. С точки зрения стоимости и производительности выгоднее купить частично разблокированный процессор Intel Core i7-3770, чем абсолютно заблокированный процессор Intel Core i7-4770. Разогнав его до частоты 4,3 ГГц (до такой частоты он разгоняется без проблем), вы получите более высокую производительность в сравнении с процессором Intel Core i7-4770.

«Увлекающиеся практикой без науки - словно кормчий, ступающий на корабль без руля или компаса; он никогда не уверен, куда плывет. Всегда практика должна быть воздвигнута на хорошей теории…» (Леонардо да Винчи)

Статьи, посвящённые микроархитектуре принципиально новых процессоров Intel , обычно начинаются с отсылки к принятой в компании с 2007 года модели разработки «тик-так». Суть ее заключается в том, что разработка новых процессорных дизайнов и перевод производства на более совершенные технологические нормы чередуются друг с другом. Прошлая микроархитектура, Ivy Bridge, в этой классификации была «тиком», новая же, Haswell, - это «так». То есть в лице Haswell , по идее, мы должны увидеть кардинально обновлённый изнутри процессор, но выпускаемый по уже привычной 22-нм технологии с трёхмерными транзисторами.

Именно поэтому с предстоящим выходом Haswell связаны такие большие ожидания. Рынок персональных компьютеров находится в застое. Конкуренция между производителями x86-процессоров в высокопроизводительном сегменте сошла на нет, а сами настольные компьютеры потихоньку сдают свои позиции под натиском мобильных устройств. Не исправило этой ситуации даже появление операционной системы Windows 8 - ей не только не удалось вернуть былой интерес к персональным компьютерам, более того, у многих адептов традиционных форм-факторов она вызвала стойкую неприязнь. И теперь все энтузиасты ждут революции от Intel, надеясь на качественный скачок, который бы несмотря ни на что пробудил интерес к потерявшей былую динамику платформе x86. Кто-то верит, что классические десктопы и ноутбуки могут вновь сделаться модной тенденцией, а кто-то ожидает, что появление новой линейки процессоров хотя бы подтолкнёт владельцев уже имеющихся систем к их модернизации. Иными словами, Haswell в глазах энтузиастов производительных персональных компьютеров - это чуть ли не последняя надежда на оживление близкого сердцу сегмента рынка.

Однако у Intel на этот счёт, похоже, мнение совсем иное. Остывание интереса к производительным персональным компьютерам чувствуют и в компании, но, с учетом сложившейся конъюнктуры, планируется не пытаться разогревать старые рынки, а взяться за завоевание новых. Корректировке подвергается вся генеральная линия. Intel не намерена продолжать активно бороться за честь традиционных и привычных многим систем, а вместо этого она хочет заниматься внесением изменений в архитектуру x86 и имеющиеся продукты с тем, чтобы приспособить их для тех классов мобильных устройств, которые находятся сейчас на пике популярности. Отчасти этой цели служат начавшиеся коренные преобразования в хозяйстве Atom: активное продвижение процессоров этого класса в смартфоны и планшеты, а также подготовка новой микроархитектуры Silvermont. Но параллельно метаморфозы будут происходить и с процессорной линейкой Core, которая по замыслу разработчиков должна стать ещё более мобильной. И Haswell - хотя уже не первая, но, наверное, самая заметная веха на этом пути.


Все презентации и материалы для прессы, посвящённые перспективным процессорам, на первых же страницах рассказывают нам о том, что Haswell в первую очередь нацеливается на ультрабуки и ультрапортативные ноутбуки-трансформеры, которые легким движением руки превращаются в планшеты. И это как нельзя лучше отражает ту цель, которая стояла перед разработчиками новой микроархитектуры. Если на этапе создания микроархитектур Sandy Bridge и Ivy Bridge инженеры работали над дизайном процессоров с целевым энергопотреблением 35–45 Вт, в то время как остальные варианты получались путём варьирования числа ядер, частоты и напряжения, то с Haswell требования по потреблению были ещё более ужесточены. Теперь Intel считает наиболее привлекательным диапазон от 15 до 20 Вт. Таким образом, Haswell - ярко выраженная ультрамобильная микроархитектура, стоящая по уровню производительности на ступень выше Atom. Что же до десктопных модификаций Haswell, то это для Intel - побочный продукт. Конечно, получить из экономичного процессора обычный гораздо проще, чем выполнить это преобразование в обратную сторону. Но снятие ограничений по энергопотреблению и тепловыделению отнюдь не означает беспрепятственное масштабирование производительности. Так что насколько оправдает ожидания Haswell в своей десктопной ипостаси - вопрос не столь очевидный.

И здесь уместным будет вспомнить предыдущий цикл «так», процессоры с микроархитектурой Sandy Bridge. Они по сравнению со своими предшественниками поколения Westmere смогли обеспечить лишь примерно 15-процентный прирост производительности в десктопной среде именно потому, что разработчики стали смещать свои акценты на соотношение производительности и энергопотребления. Сейчас же разговор ведется и вовсе на другом языке: главные сильные стороны Haswell, по мнению производителя, - это превосходная экономичность и принципиально новый уровень графического быстродействия. Что же касается вычислительной производительности, то Intel почему-то не акцентирует на ней внимание, что вызывает всякие нехорошие подозрения. Только усугубляющиеся, если посмотреть на предварительные данные о быстродействии десктопных Haswell, которые к настоящему времени уже просочились в прессу.

Ждать выхода процессоров, построенных на микроархитектуре Haswell, осталось совсем недолго. И через несколько дней мы сможем дать развёрнутые ответы на любые вопросы. Однако перед этим уместно будет ознакомиться с теорией - она должна стать хоть и неприятным, но необходимым противоядием от слишком радужных иллюзий, которые вполне могли сформироваться в тягостном ожидании чего-то новенького.

Микроархитектура Haswell: тик или так

Честно говоря, вводная часть чрезмерно сгущает краски. Да, микроархитектура Haswell во многом действительно может считаться высокоэнергоэффективной, и разрабатывалась она в первую очередь с прицелом на мобильные применения. Однако Intel всё-таки не забывает о том, что принятая в компании бизнес-модель предполагает использование единого дизайна в обширной линейке продукции, включающей мобильные, десктопные и серверные компоненты. Это значит, что под модным фасадом низкого энергопотребления скрывается прочный фундамент, позволяющий направить Haswell в разные рыночные ниши. Иными словами, новая микроархитектура не потеряла своей универсальности. Путём манипулирования числом ядер, версиями графического движка, целевым уровнем энергопотребления, размером кеш-памяти и добавлением того или иного набора внешних интерфейсов из Haswell могут получаться разные по своей сути процессоры.


Впрочем, если касаться собственно микроархитектуры, то да, в ней на первом месте стоят нововведения, направленные на оптимизацию тепловых и энергетических режимов. Изменений же, способных поднять производительность, не так много, и на цикл разработки «так» они если и тянут, то с большим трудом. Действительно, когда Intel выпускала Nehalem или Sandy Bridge, перестройка затрагивала не только внутренние блоки вычислительных ядер, но и базовую концепцию процессорного дизайна. Каждый «так» казался чем-то действительно принципиально другим, а от степени новаторства захватывало дух. Но если посмотреть на обобщённую схему Haswell, то её легко перепутать с предшественником - Ivy Bridge.


Все функциональные блоки и принципы их объединения в процессоре остались теми же. Haswell наследует из прошлого все удачные технологии: турборежим, Hyper-Threading, кольцевую шину, но ничего нового к этому багажу не добавляет. Изменения есть лишь в недрах отдельных узлов. Причём инженерное вмешательство в глубинные слои микроархитектуры не слишком значительно. Исполнительный конвейер изменился не слишком сильно, его протяженность составляет те же 14–19 стадий, что и раньше. Фронтальная часть получила лишь отдельные косметические усовершенствования, а все сколько-нибудь значимые перемены касаются лишь механизма исполнения инструкций и поддержки новых наборов команд. Говоря о том, является ли Haswell более производительной микроархитектурой, нежели Ivy Bridge, Intel ссылается на улучшение быстродействия до 20–30 процентов, но следует иметь в виду, что эта оценка включает и выигрыш от использования новых команд AVX2, для которых длительный и непростой этап внедрения ещё впереди.

Экономичность: всё ради неё

Зато шагов, сделанных для улучшения экономичности процессорного дизайна, - хоть отбавляй. Львиная доля усилий разработчиков была потрачена на снижение энергопотребления, и, надо сказать, с точки зрения мобильных систем усилия эти прошли далеко не впустую. Ожидается, что системы на базе Haswell смогут работать от батареи примерно на 50 процентов дольше, чем аналогичные конфигурации на базе Ivy Bridge. В простое выигрыш Haswell по сравнению с процессорами предыдущего поколения составляет порядка 2–3 раз! А в состоянии готовности к работе при сохранении сетевых соединений (connected standby) общее потребление платформы по сравнению с системами на базе Sandy Bridge снизилось примерно в 20 раз.

Столь впечатляющий прогресс своими корнями уходит не в простое совершенствование технологического процесса, который на самом деле имеет лишь эволюционные отличия от 22-нм техпроцесса с трёхмерными транзисторами, используемого для производства Ivy Bridge. И уж тем более дело не в банальном увеличении количества зон процессорного кристалла, которые при отсутствии активности могут независимо друг от друга отключаться от питающей шины. Конечно, всё это вносит определённый вклад в экономичность Haswell, но подобные изменения происходят с каждым новым поколением интеловских процессоров, а качественный скачок случился только сейчас. Так что секрет успеха - в другом.

Вкратце: новые рубежи экономичности были достигнуты благодаря комплексу мероприятий, проведённых не столько с самим процессором, сколько с платформой и инфраструктурой в целом.

Во-первых, важную роль сыграла общая интеграция компонентов платформы: в процессорный кристалл перекочевала значительная часть схемы преобразователя питания, а для ультрамобильных применений был спроектирован специализированный SoC-вариант процессора, содержащий на той же подложке второй кристалл - набор системной логики.


Во-вторых, Intel провела значительную работу с основными производителями контроллеров, указав им на необходимость качественной поддержки состояний сна и глубокого сна. Попутно разработчики рассчитывают, наконец, добиться от производителей дисплейных матриц поддержки функции Panel Self Refresh, позволяющей сохранять изображение на экране без его постоянного обновления со стороны графического ядра.

В-третьих, на руку сыграла и операционная система Windows 8, ядро которой гораздо рачительнее относится к обработке прерываний, по возможности стараясь избегать разрозненных транзакций, пробуждающих процессор или устройства.

И наконец, в-четвёртых, в Haswell появился новый набор ACPI-состояний сна S0ix, похожих по уровню энергопотребления на S3/S4 (когда в пассив отправляются все составляющие платформы за исключением системной памяти), но со временем перевода системы в полностью рабочее состояние на уровне нескольких миллисекунд. Кроме того, добавились также и новые состояния простоя процессора C7 и далее, достигаемые при видимой работоспособности системы, но при которых с основной части CPU может быть полностью снято питающее напряжение.


Однако всё перечисленное в первую очередь касается мобильных платформ и длительности их работы от батареи. В настольных системах большинство из этих нововведений также имеет место, но для конечных пользователей они практически безразличны. Что же их затрагивает самым непосредственным образом, так это появление в процессоре Haswell новых зон, работающих на различных частотах. В Ivy Bridge таких зон было две: вычислительные ядра (вместе с кешем и системным агентом) и графическое ядро. Но это оказалось не лучшим решением с точки зрения экономичности, так как обращения графики к данным в L3-кеше приводили к выходу из энергосберегающих состояний всего процессора. Поэтому в Haswell Uncore-часть, объединяющая системный агент и кеш третьего уровня, получила свою собственную независимую частоту.

И это - отнюдь не позитивное изменение, а яркая иллюстрация тех приоритетов, которых придерживались инженеры Intel при разработке их нового дизайна. Асинхронная работа Uncore и вычислительных ядер приводит к тому, что кеш третьего уровня в Haswell имеет большую латентность, нежели у процессоров предыдущего поколения. Иными словами, ради улучшения экономичности Intel готова даже откатывать сделанные ранее для увеличения производительности шаги.

Но зато все меры, предпринятые Intel для снижения энергопотребления, позволяют компании значительно расширить спектр предлагаемых энергоэффективных процессоров Core. В мобильном сегменте ожидается появление обширной и включающей порядка двух десятков наименований U-серии, с характерным расчётным тепловыделением порядка 15 Вт. Кроме того, нас ожидает и Y-серия с тепловыделением на уровне 6–7 Вт. Эти цифры кажутся особенно впечатляющими, если принять во внимание, что речь идёт о тепловыделении сборки, включающей помимо процессорного ядра и кристалл набора логики.

Для тех, кто хотел побыстрее

Но всё-таки, увлёкшись идеями по переориентации процессоров Core на ультрамобильные ноутбуки-трансформеры и производительные планшеты, Intel не забыла о том, чтобы немного подрихтовать самое сердце своих процессоров. Хотя вычислительные ядра Haswell очень похожи на ядра Ivy Bridge, в них всё-таки можно обнаружить некоторое количество улучшений. Правда, сделаны эти улучшения совсем не из стремления поднять чистую производительность - количество обрабатываемых за такт инструкций. Причина их появления - внедрение в обиход новых инструкций AVX2 и желание увеличить эффективность работы технологии Hyper-Threading, которая должна будет компенсировать невозможность использования четырёх полноценных ядер в низковаттных процессорах. Но, к счастью, у сделанных нововведений есть и положительные побочные эффекты.

Передняя часть исполнительного конвейера Haswell осталась практически нетронутой. Новая микроархитектура, так же как и её предшественники, заточена под обработку четырёх инструкций за такт. Блок выборки инструкций и декодер имеют именно такую ширину. Остался без изменений и кеш инструкций первого уровня объёмом 32 Кбайт, а также введённый ещё в Ivy Bridge кеш для декодированных инструкций на полторы тысячи микроопераций. Преимуществ на этом этапе у Haswell перед прошлым дизайном есть только два. Во-первых, благодаря происходящему при каждом релизе нового процессорного дизайна увеличению размера всех внутренних буферов возросла точность работы блока предсказания переходов. Во-вторых, очередь уже декодированных инструкций получила явную оптимизацию под Hyper-Threading: её деление на два потока стало происходить динамически.


Собственно, отсутствие изменений в базовых алгоритмах выборки и декодирования инструкций и является явным указанием на то, что рассчитывать на увеличение темпа обработки инструкций в Haswell особенно не стоит. Более четырёх (или пяти в случае успешного срабатывания технологии macro-ops fusion) x86-команд эта архитектура переварить не может. И если ранее на цикле разработки «так» Intel делала нововведения, способные увеличить эффективность работы имеющихся декодеров, то теперь этого нет.

Заметные же изменения в микроархитектуре Haswell обнаруживаются, если двигаться по конвейеру глубже. Так, увеличение всех основных буферов коснулось не только предсказания переходов. Немаловажно, что при этом было увеличено окно внеочередного исполнения команд. Этим достигается некоторое улучшение возможностей по параллельной обработке инструкций одного потока, что в конечном итоге позволяет более плотно загружать работой исполнительные устройства (коих в Haswell стало не просто больше, а заметно больше).


Собственно, на фоне всех остальных достаточно жалких улучшений в потрохах микроархитектуры это, пожалуй, - главное достоинство нового микропроцессорного дизайна. Если в Ivy Bridge было предусмотрено всего шесть исполнительных портов, то в Haswell их стало восемь.


Таким образом, в теории Haswell может обрабатывать до восьми микроопераций за такт. Однако надо заметить, что три порта отведены на операции работы с памятью, то есть предназначаются для обслуживания вспомогательных микроопераций, возникающих при разборке x86-инструкций.

Поэтому первостепенное значение имеет появление отдельного порта для целочисленных операций и обработки ветвлений. Очевидно, предполагается, что со временем число используемых в программах 256-битных инструкций будет расти, и, чтобы они не блокировали работу самого обычного кода, его исполнение теперь может быть выделено на независимый порт. Такое «развязывание» портов по типам операций должно дать особенно сильный положительный эффект при одновременном исполнении одним ядром двух разнородных потоков с участием технологии Hyper-Threading. То есть мы вновь сталкиваемся с ростом её эффективности в Haswell.

Также в распоряжении процессора теперь оказалось суммарно четыре порта, способных работать с целочисленными инструкциями. А это значит, что самый ординарный целочисленный код может проходить через этап исполнения с тем же темпом, что и через декодер.

Впрочем, судя по общему подходу к проектированию новой микроархитектуры, Intel задумывалась о росте количества обрабатываемых за такт инструкций в последнюю очередь. Что же наверняка волновало разработчиков гораздо сильнее, так это работа с новыми командами из набора AVX2. В это множество инструкций входят 256-битные SIMD-команды для обработки целых чисел, разреженные операции с памятью и различные перестановки и сдвиги компонентов векторов. Но львиная и самая важная доля нового набора команд - принципиально новые вещественночисленные FMA-инструкции (Fused Multiply-Add), которые фактически одновременно включают в себя пару операций - умножение и сложение. Естественно, их выполнение старыми средствами вызвало бы значительные простои процессора, поэтому для них теперь сделано два отдельных порта и выделенные исполнительные устройства. В результате Haswell может выполнять по две сдвоенные FMA-инструкции за такт.


Таким образом, теоретически Haswell на AVX2-коде может показывать вдвое более высокую пиковую вещественночисленную производительность, нежели процессоры прошлых поколений. Хотя, на самом деле, если сопоставить скорость выполнения одной FMA-инструкции и раздельных инструкций умножения и сложения, то реальная величина ускорения окажется на уровне 60 процентов, что, конечно же, тоже очень неплохо.

В какой-то мере внедрение быстрого исполнения FMA-команд является ответом Intel на растущую популярность вычислений на графических процессорах. Набор AVX2 и имеющиеся аппаратные средства для его обработки делают Haswell отличной числодробилкой, а сами эти инструкции прекрасно вписываются в популярные вычислительные алгоритмы, используемые как в научных областях, так и при обработке различного мультимедийного контента.

Следовательно, процессоры Haswell всё-таки могут быть существенно производительнее своих предшественников. Но не за счёт более быстрого исполнения старого кода, а за счёт предоставления инструментов для лучшей реализации старых алгоритмов через новую систему инструкций. Это, естественно, требует определённых усилий от программистского сообщества, но зато не приводит к дополнительным затратам процессором электроэнергии, что отлично вписывается в ту генеральную линию, которой теперь придерживается Intel.

Желание сделать работу процессора с AVX2-инструкциями максимально гладкой заставило разработчиков Haswell задуматься об увеличении скорости работы кеш-памяти. Новые команды предполагают вдвое более быструю, чем ранее, обработку данных. Поэтому для поддержания баланса в новой микроархитектуре симметрично увеличена пропускная способность кеш-памяти первого и второго уровней. Подчеркнём, речь идёт именно о расширении полосы пропускания L1- и L2-кеша, латентность же кеш-памяти остаётся на том же уровне, что и раньше.


В результате кеш первого уровня стал способен отрабатывать два 32-байтных чтения и одну 32-байтную запись за такт. Кеш же второго уровня может принимать и отдавать за такт по 64 байта данных. И в том и в другом случае имеет место двукратное увеличение пропускной способности по сравнению с процессорными микроархитектурами прошлых поколений. Плюс к этому в Haswell, наконец, удалось ликвидировать все добавочные задержки, связанные с обращениями к невыровненным данным в L1-кеше.

К сожалению, при этом улучшения обошли кеш третьего уровня, который теперь работает на собственной частоте асинхронно с вычислительными ядрами. И хотя его частота близка к частоте основной части процессора, асинхронность вызывает увеличение латентности. Никакой же компенсации в виде роста пропускной способности не последовало. Внутрипроцессорная кольцевая шина в Haswell перенесена из Ivy Bridge без каких-либо изменений, так что вытянуть из L3-кеша более 32 байт данных за такт невозможно при всём желании.

Резюмируя, отметим, что хотя Haswell по микроархитектуре вычислительных ядер и похож на Ivy Bridge, улучшения, способные увеличить его скорость работы на обычном коде, всё-таки есть. Фактически между всеми этапами конвейера проведён серьёзный ребаланс, приведший к тому, что, хотя скорость выборки и декодирования инструкций и осталась практически той же, исполнение этих инструкций теперь может происходить ощутимо быстрее и с большей степенью параллелизма. Но отразится ли это на реальной производительности Haswell, зависит от того, действительно ли именно исполнение, а не декодирование было бутылочным горлышком в прошлых версиях микроархитектуры Core.

Интегрированная графика: выходим на уровень GeForce GT 650M

Тем не менее, для того, чтобы ощутить возросшую мощь Haswell с 100-процентной вероятностью, совершенно не обязательно переписывать под AVX2 имеющиеся программы. Дело в том, что в этом процессоре есть важная часть, занимающая примерно 30 процентов площади кристалла, над которой инженеры Intel поработали очень усердно. Это - интегрированное графическое ядро. Учитывая первостепенность мобильных применений своих процессоров, Intel в последние несколько лет проводит последовательные улучшения встраиваемой в них графики и стремится к тому, чтобы её собственный ускоритель смотрелся не хуже решений других разработчиков, включая и тех, которые графическими решениями занимаются целенаправленно. В Ivy Bridge мы уже видели почти двукратный рост графической производительности по сравнению с процессорами предыдущего поколения, произошедший одновременно с внедрением поддержки всех современных версий программных интерфейсов. Микроархитектура Haswell обещает поднять скорость работы графического ядра ещё примерно вдвое.


Планы у разработчиков, как видим, были грандиозные, но при этом, как и в вычислительных ядрах, в данном случае Intel смогла обойтись без внесения глубоких архитектурных изменений. Структура графического ядра осталось старой, а рост производительности обеспечивается в чистом виде экстенсивными методами. Новую же архитектуру видеоускорителя Intel обещает лишь в 2014 году - в следующем поколении процессоров с кодовым именем Broadwell. В результате, как и вычислительные ядра, графическое ядро Haswell навевает мысли о том, что «так» и из нового процессора получился не слишком правдоподобный. Впрочем, это не умаляет достигнутого роста быстродействия, который, безусловно, заслуживает того, чтобы познакомиться с его источниками несколько подробнее. Тем более что в новом поколении Intel HD Graphics место нашли весьма занимательные инженерные решения.


Если не считать отдельных оптимизаций графического конвейера, направленных на перенесение части нагрузки с драйвера на аппаратные блоки и на увеличение производительности большинства специализированных функциональных блоков, выполняющих в конвейере 3D-рендеринга подготовительные операции, новое графическое ядро сильно похоже на ядро из процессоров предыдущего поколения с добавленной поддержкой DirectX 11.1. Главное же преимущество нового дизайна - наличие существенно большего количества универсальных исполнительных устройств. Если максимальная версия графики Ivy Bridge располагала 16 исполнительными устройствами (включающими по 4 ALU каждое), то количество исполнительных устройств в графическом ядре Haswell может доходить до 40 штук.

Однако при этом Intel решила провести более явную сегментацию и на основе единого дизайна сделать несколько вариантов графики: GT1, GT2, GT3 и GT3e. Базовая версия - это GT2 с 20 исполнительными устройствами. Она предназначается для большинства десктопных моделей процессоров и предлагает на 4 устройства больше, чем старшая графика процессоров поколения Ivy Bridge. Однако её урезанная версия, GT1, имеет лишь 6 исполнительных устройств и мало отличается от графики, уже присутствующей в существующих процессорах Pentium и Celeron. Максимальный же вариант, GT3, который располагает 40 исполнительными устройствами, представляет собой GT2 с удвоенным исполнительным кластером. Такая прокачанная версия видеоускорителя нацеливается на большинство мобильных вариантов Haswell, включая в первую очередь процессоры для ультрабуков. Двух с половиной кратное увеличение количества исполнительных устройств и должно, по замыслу разработчиков, обеспечить двукратный рост производительности графики. Однако такая производительная версия видеодвижка, GT3, в настольные компьютеры не попадёт. А это значит, что у десктопной интегрированной графики Intel прирост производительности будет не кратный, а лишь примерно 30-процентный.


Любопытно, что на самом деле полупроводниковый кристалл Haswell будет иметь на одно или два исполнительных устройства больше, чем предусмотрено дизайном. Дополнительные устройства играют роль запасных, они нужны для подмены нерабочих блоков и для снижения количества бракованных процессоров.

Увеличение мощности исполнительного кластера графического ядра заставило разработчиков дизайна задуматься и о том, чтобы узким местом не стал этап наложения текстур. Поэтому скорость работы текстурного блока в Haswell была симметрично увеличена. Intel обещает четырёхкратный рост скорости текстурирования по сравнению с графикой Ivy Bridge, и это - вполне достаточное усиление, если учесть рост мощности остальной части движка.

Впрочем, несмотря на все принятые меры, даже производительность GT3 показалась Intel недостаточной, чтобы привлечь на сторону собственных интегрированных ядер самых требовательных пользователей. Поэтому для производительных игровых мобильных систем Intel создала специализированную заряженную модификацию GT3e. В процессорах с таким ядром, которые будут образовывать отдельную мобильную H-серию, встроенное графическое ядро GT3 будет дополняться быстрой eDRAM-памятью объёмом 128 Мбайт и 512-битной шиной. Идея состоит в том, что существенные ограничения на скорость встраиваемых видеоядер накладывает недостаточная пропускная способность системной памяти, которая в таких случаях играет также и роль видеопамяти. eDRAM же будет устанавливаться на одну подложку с процессорным ядром и выполнять роль L4-кеша, обеспечивая пропускную способность порядка 64 Гбайт/с. Однако никакого специализированного интерфейса между графическим ядром и eDRAM не предусматривается, так что такой L4-кеш будет буферизировать все обращения в память, а не только инициированные графическим ядром. Тем не менее Intel ожидает, что именно эта добавка сможет вывести Haswell по графической производительности на один уровень с NVIDIA GeForce GT 650M.


Но следует понимать, что добавление к процессорному кристаллу дополнительного кристалла eDRAM заметно увеличивает энергопотребление и стоимость процессора, поэтому CPU с GT3e предполагается использовать исключительно в высокопроизводительных геймерских ноутбуках, где речь об экономичности, компактности и бюджетности не идёт. А значит, компания AMD со своими APU поколения Richland пока что не будет ощущать особого давления со стороны конкурента. И особенно это касается десктопной среды: предлагать широкий ассортимент процессоров с производительными графическими ядрами для этого рыночного сегмента Intel не считает необходимым.

Впрочем, даже пользователи настольных систем смогут оценить прочие преимущества графического ядра нового поколения, например расширенные возможности по подключению мониторов. В Haswell поддерживается работа до трёх независимых дисплеев, причем все три подключения могут быть цифровыми. Благодаря же внедрению совместимости с последними версиями интерфейсов HDMI и DisplayPort, максимальные поддерживаемые разрешения достигли величин 4Kx2K.

Без улучшений не осталось и одно из любимых детищ Intel - встроенный в графическое ядро аппаратный видеокодер Quick Sync. Разработчики рассматривают его как один из путей снижения энергопотребления процессоров, так как Quick Sync позволяет высвобождать вычислительные ядра от энергоёмких и весьма распространённых задач кодирования и декодирования видео, перенося их выполнение на специализированный и экономичный узел. Поэтому в каждой новой версии процессорного дизайна производительность Quick Sync поднимается, а число поддерживаемых этой технологией форматов растёт. Так, Haswell в дополнение к уже освоенным форматам будет способен на аппаратном уровне работать с SVC (Scalable Video Coding - производная AVC H.264), декодировать MJPEG (motion JPEG) и кодировать видео в формате MPEG2. При этом будет обеспечена полноценная совместимость при кодировании и декодировании с видео в разрешении 4K (4096x2304, 4096x2160 и 3840x2160), которое в настоящее время приобретает всё большую популярность.

Возросла и чистая производительность кодера Quick Sync. Причём теперь ему присуща не только высокая пропускная способность, но и низкая латентность, открывающая аппаратному кодированию путь в телеконференции. Скорость же кодирования в Haswell заметно выше, чем у Ivy Bridge, однако в разных версиях графического ядра она различается, причём в разы. Зато качество получаемого при аппаратном кодировании видео улучшилось в любых модификациях графики. Обновлённая технология Quick Sync должна давать лучшее качество кодированного изображения, чем Ivy Bridge, даже при одинаковом битрейте.

Заключение

Очевидно, новая микроархитектура Haswell может вселять как надежды на светлое будущее, так и разочарование уровнем достигнутого прогресса. Всё зависит от того, на что вы рассчитываете. К сожалению, интеловская схема «тик-так» незримо подталкивает к завышению ожиданий, ведь Haswell относится к циклу разработки «так», то есть должен восприниматься как новое поколение микроархитектуры. Но принципиальных и революционных улучшений в нём сделано не так много. Речь идёт не о кардинальной переработке процессорного дизайна, а лишь о некотором наборе улучшений и усовершенствований. Конечно, улучшений этих немало, и можно даже говорить о переходе количества в качество. Но, как бы то ни было, Intel фактически форсировала имеющуюся микроархитектуру Ivy Bridge, а не предложила что-то принципиально новое. Причём основной упор при выполненной переработке делался не на поиски путей увеличения вычислительной производительности, а на улучшение энергоэффективности и развитие графических возможностей.

С точки же зрения традиционно процессорной парадигмы микроархитектура Haswell предлагает лишь поддержку нового набора инструкций AVX2, лучший параллелизм на уровне исполнения инструкций и возросшую пропускную способность кеш-памяти первого и второго уровней. Достаточно ли таких изменений для того, чтобы соответствовать ожиданиям приверженцев классических персональных компьютеров? Вряд ли. Поэтому большинство энтузиастов, увидев лишь незначительный прирост вычислительного быстродействия, лежащий предположительно в рамках 5-15 процентов, скорее всего, новыми процессорами будут недовольны. И это означает, что никакого всплеска интереса к привычным десктопам и ноутбукам не предвидится и с выходом нового семейства процессоров.

Но Intel, несмотря на всё это, может гордиться выполненной работой. Поставленную перед собой задачу компания решила. Дизайн Haswell получился настолько энергоэффективным и сбалансированным, что эти процессоры, вне всяких сомнений, смогут занять достойное место в лакомом для производителя подвиде мобильных устройств - производительных планшетах и ноутбуках-трансформерах. Намечающийся на этом рынке бум компания теперь точно не прозевает: в ответ на поползновения когорты приверженцев архитектуры ARM, а также на новые APU компании AMD у Intel теперь имеется хорошая домашняя заготовка. Ведь микроархитектура Haswell позволяет создавать модификации дизайна, которые обладают показателями энергопотребления, выражающимися в однозначных числах, и представляют при этом SoC-сборки, включающие не только процессор, но и набор системной логики.

На этом мы пока не ставим финальную точку. Данный материал лишь открывает цикл статей о процессорах с новой микроархитектурой. В самое ближайшее время мы сможем более подробно и с реальными процессорами в руках познакомиться как с десктопными, так и с мобильными воплощениями микроархитектуры Haswell. И тогда , быть может, наши выводы, сделанные лишь на основе знакомства с документацией, несколько изменятся. И в это действительно хочется верить…

THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама