DZWON

Są tacy, którzy czytają tę wiadomość przed tobą.
Zapisz się, aby otrzymywać najnowsze artykuły.
E-mail
Imię
Nazwisko
Jak chcesz przeczytać The Bell
Bez spamu

Rodzaj mikroarchitektury procesora odgrywa jedną z kluczowych ról w działaniu laptopa czy PC, ponieważ szybkość próbkowania i dekodowania danych oraz instrukcji wchodzących do procesora zależy od mikroarchitektury, a następnie ich wykonania i zapisu do pamięci RAM.

Porównanie mikroarchitektur procesorów Haswell, Broadwell i Skylake firmy Intel

W tej chwili mikroarchitektury trzech generacji firmy Intel są uważane za istotne i konkurujące ze sobą. Jest to rdzeń Haswell czwartej generacji, Broadwell piątej generacji i najnowsza mikroarchitektura Skylake szóstej generacji. Jak wiecie, tworzenie tych mikroarchitektur opiera się na rozbudowanej strategii zwanej „Tick-tock”. Tick \u200b\u200boznacza stworzenie nowej generacji procesorów w oparciu o zredukowany proces technologiczny. „Więc” oznacza również wypuszczenie nowych mikroprocesorów, ale bez zmiany technologii tworzenia. W artykule dokonana zostanie ich analiza porównawcza i na jej podstawie zostanie wyciągnięty wniosek o najbardziej produktywnym rdzeniu.

Haswell

- mikroarchitektura, opracowana w 2012 roku w technologii 22 nm. Obsługuje gniazda: LGA 1150, BGA 1364, LGA 2011-3. Współpracuje z paskiem RAM DDR4. Autobus: DMI2.

Zalety procesora z tą mikroarchitekturą:

1) Energooszczędne

2) Obsługuje DDR4

3) Niski koszt. Na przykład cena Intel Core I3 4160 z rdzeniem Haswell wynosi 7800 rubli.

1) Wyprodukowany w przestarzałej technologii 22 nm, w wyniku czego pod wieloma względami traci na ulepszonej wersji Broadwella.

Broadwell

- Ulepszona wersja Haswell, zaprojektowana dla procesorów z serii Intel Xeon, a także dla procesorów Intel Core I7 siódmej generacji. Wyprodukowany w technologii 14 nm. Należy do gałęzi „tick-tock” misji marketingowej „tick-tock”. W porównaniu do Haswell ma o 3-5% wyższą wydajność niż Haswell, zużywając energię o 30%, a także znacznie mniej rozpraszania ciepła w komputerze, 4,5 W w porównaniu z 15 Haswellem. Wszystko to tłumaczy się przede wszystkim zredukowanym procesem technologicznym, w którym wyprodukowano rdzeń, możliwością przetaktowania procesora tą mikroarchitekturą, a także obecnością 4 cache Crystalwell, co daje wyższy kurs wymiany z pamięcią RAM niż tylko 3 cache.

Podstawowe plusy:

1) Efektywne zużycie energii

2) Możliwość podkręcania

3) Obsługa DirectX 12

4) To właśnie w tej mikroarchitekturze pamięć podręczna L4 stała się powszechna, do tej pory używana tylko w nielicznych mikroprocesorach Haswell

5) Wyższa żywotność baterii niż Haswell

1) Koszt (cena waha się między 13-150000 w zależności od modelu procesora, ponieważ ta mikroarchitektura jest przeznaczona dla kamieni z serii Xeon i Core I7 firmy Intel, podczas gdy mikroprocesor Haswell działa również na kamieniach budżetowych)

2) Stosunek jakości do ceny. W testach mikroarchitektura wykazała niskie wyniki, wyprzedzając Haswell o około 3 procent, w tym w 3D Mark (Core I7-6850K na Broadwell-E: 19065 punktów, Core I7-5820 na Haswell-E - 16598 punktów). Jeśli weźmiemy pod uwagę to w odniesieniu do porównania Ivy Bridge i Haswell, to wynik nie jest imponujący.

Analiza porównawcza wydajności Broadwella i Haswella

Skylake

- mikroarchitektura 6. generacji, zaprojektowana, podobnie jak Haswell, głównie dla budżetowych procesorów energooszczędnych, takich jak ULV. Został opracowany zgodnie ze strategią „tik-tak” i dotyczy gałęzi „tak”. Oznacza to, że rdzeń powstał bez zmiany procesu technologicznego, ale z radykalną zmianą mikroarchitektury w stosunku do Broadwell.

Mikroprocesor działa na nowym, wysokowydajnym gnieździe LGA 1151, obsługuje DDR4, a ponadto, w przeciwieństwie do LGA 1150, współpracuje z USB 3.0, ma nową, znacznie wydajniejszą magistralę DMI3 i większą energooszczędność w porównaniu do swojego poprzednika.

1) Obsługa nowego gniazda LGA 1151, wydajniejszego niż gniazdo LGA 1150 - Broadwell

2) Obsługa USB 3.0

3) Możliwość podkręcenia GPU na nowym gnieździe

4) Obsługa DDR4 i optymalizacja pracy z tym paskiem RAM

5) Najlepsza efektywność energetyczna w stosunku do Broadwell

6) Jedną z głównych zalet jest obsługa nowej magistrali DMI 3, która daje 2 razy większą prędkość niż DMI 2, na której pracują Broadwell i Haswell. Ta zaleta jest szczególnie widoczna na przykładzie programu takiego jak Sony Vegas, gdzie wydajność Skylake jest prawie 1,5 raza wyższa.

7) Koszt (w przypadku budżetowych modeli Intel Core I3 średnia cena to 3000-7000 rubli)

W przypadku Broadwell i Skylake same zalety w porównaniu z Kaby Lake 7. generacji - najnowsza mikroarchitektura wyposażona w niewielką liczbę procesorów daje o kilka procent niższą wydajność.

Zreasumowanie:

Jeśli weźmiemy wszystkie wskaźniki, w tym koszt mikroarchitektur, to ocena opracowana przez autora będzie następująca:

1 miejsce: Skylake

2. miejsce: Haswell (ta mikroarchitektura, jak wykazały testy, chociaż jest starsza i mniej energooszczędna, ale pozostaje w tyle za Broadwellem o 2-3 procent pod względem wydajności, a ma niższy koszt)

3 miejsce: Broadwell

Wynik:

Pomimo różnych chwytów marketingowych, do których stosuje się Intel Corporation, nadal wykazuje pewien wynik i przynajmniej nieznacznie, ale poprawia wydajność i szybkość swoich procesorów z każdą generacją. Kto wie, być może do 2030 roku rozpocznie produkcję pierwszych procesorów kwantowych, które będą milion razy lepsze od obecnych, ale to już inna historia.

WPROWADZENIE Tak się składa, że \u200b\u200bco roku Intel aktualizuje mikroarchitekturę swoich procesorów, przeznaczoną dla zwykłych komputerów osobistych. Ten harmonogram stał się tak znajomy, że uważa się go za pewnik. Sandy Bridge został wydany na początku 2011 r., Ivу Bridge pojawił się w kwietniu 2012 r., A obecne wydawnictwa Haswell zostały zaprezentowane 4 czerwca ubiegłego roku. Biorąc pod uwagę obecną rutynę, rynek już czeka z potęgą i przede wszystkim procesorami nowej generacji - Broadwell. Jednak sprawy nie układały się z nimi zbyt dobrze. Wprowadzenie nowej technologii 14 nm, której Intel ma używać do produkcji Broadwell, napotkało trudności produkcyjne. Dlatego pierwotny plan, który zakładał nową generację konstrukcji procesora w połowie tego roku, musiał zostać skorygowany. Zgodnie z dostępnymi aktualnymi danymi, ogłoszenie mobilnych energooszczędnych opcji Broadwell nastąpi w sylwestra, a procesory oparte na tym projekcie będą przeznaczone do komputerów stacjonarnych i komputery przenośne będzie dostępny dopiero w przyszłym roku.

W tej sytuacji Intel postanowił w jakiś sposób rozjaśnić nieplanowane przedłużające się oczekiwanie na nowe produkty i wymyślił kampanię o kryptonimie Haswell Refresh. Jego istota polega na tym, że zamiast wypuszczać na rynek nowe procesory Broadwell, firma oferuje ulepszone modele starych, których wydajność poprawia nie nowa mikroarchitektura, ale zwiększone częstotliwości taktowania. Oficjalne ogłoszenie procesorów wchodzących w skład zestawu Haswell Refresh zaplanowano na 11 maja i już się odbyło. W cenniku Intela pojawiły się 42 nowe pozycje, z których 24 dotyczą systemów desktopowych różnych klas. W tej recenzji zapoznamy się z wersjami zaktualizowanego Haswell, które są przeznaczone dla zwykłych komputerów stacjonarnych i należą do rodzin Core i7, Core i5 oraz Core i3.

Dowiedz się więcej o Haswell Refresh dla komputerów stacjonarnych

Mówiąc o Haswell Refresh, Intel w rzeczywistości oznacza po prostu zwiększenie częstotliwości swoich procesorów Haswell LGA 1150. W wypuszczaniu tak zaktualizowanych produktów nie ma nic niezwykłego - firma sukcesywnie zwiększała częstotliwości swoich procesorów między zapowiedziami nowych mikroarchitektur a wcześniej, tuż przed tym, że takie zdarzenia były rozproszone i nie cieszyły się tak dużym zainteresowaniem. Charakterystyczną cechą Haswell Refresh jest to, że wzrost częstotliwości występuje nie w poszczególnych modelach, ale w całej linii jako całości, od góry do dołu.

Co więcej, tak wiele uwagi poświęca się Haswell Refresh nie ze względu na ich nowość czy zauważalny wzrost wydajności. Cały szum jest sztuczny, celowo generuje go sam Intel, próbując stworzyć wrażenie nieustającej innowacji, nawet pomimo odłożenia ogłoszenia Broadwell na późniejszy termin. Innymi słowy, wydanie Haswell Refresh to dość zwyczajna aktualizacja, a świeże procesory różnią się od starych, które są na rynku od prawie roku Haswell, jedynie częstotliwością zwiększoną o absurdalne 100 MHz. Czyli mówimy o nieznacznym wzroście produktywności, wynoszącym około 2-3 proc. I nic więcej.

Na szczęście kupujący nie muszą nic płacić za ten niewielki wzrost wydajności. Nowe procesory Haswell Refresh zajęły stare pozycje w cenniku, wypierając Haswell z zeszłego roku. W przypadku ofert komputerów stacjonarnych trwająca wymiana wygląda następująco:

Należy podkreślić, że wzrost częstotliwości taktowania następuje w ramach wcześniej ustalonych pakietów termicznych: 84 W dla Core i7 i Core i5 oraz 54 W dla Core i3. Jednak w tym samym czasie w sercu Haswell Refresh pozostają dokładnie te same kryształy półprzewodników, jak poprzednio. Poprawę potencjału częstotliwościowego zapewnia wyłącznie ulepszenie procesu technologicznego 22-nm Intela, podczas gdy rewizja rdzenia w nowych produktach nie zmienia się i zachowuje numer C0. Oznacza to, że nie należy oczekiwać fundamentalnej poprawy właściwości termicznych i elektrycznych, a także innych niuansów nowych procesorów.



Haswell Refresh Desktop Processors


Procesory Haswell Refresh wyglądają dokładnie tak samo, jak ich poprzednicy.



Po lewej - zwykły Haswell, po prawej - Haswell Refresh


Jedyna interesująca i fundamentalnie istotna zmiana związana z premierą Haswell Refresh wpłynie na przetaktowywanie procesorów z serii K, o których pełne informacje nie są jeszcze dostępne ze względu na fakt, że zostaną one zaprezentowane nieco później, przypuszczalnie 2 czerwca. Na razie Intel będzie nadal oferował starsze modele Core i7-4770K i Core i5-4670K dla overclockerów, ale procesory, które je zastąpią, zasługują na osobną historię.

Faktem jest, że w odmianach Haswell Refresh z darmowymi mnożnikami, które mają swój własny kod zbiorczy Devil's Canyon, zobaczymy nie tylko zwiększone częstotliwości paszportów. Intel zamierza uczynić te procesory bardziej atrakcyjnymi do overclockingu, dla którego planuje wprowadzić poważne zmiany w ich opakowaniu. Materiał przewodzący ciepło znajdujący się pomiędzy matrycą procesora a pokrywą rozpraszacza ciepła zostanie wymieniony na bardziej wydajny, a sama osłona będzie wykonana z innego stopu o lepszej przewodności cieplnej. Według wstępnych danych, rodzina Devil's Canyon będzie składać się z dwóch odblokowanych procesorów LGA 1150: Core i7-4790K oraz Core i5-4690K. Co więcej, otrzymają wyższy pakiet termiczny niż zwykły Haswell Refresh i zauważalnie zwiększone częstotliwości zegara nawet w trybie nominalnym.

Niestety to wszystko, co do tej pory wiadomo o Devil's Canyon, ale gdy próbki tych procesorów pojawią się w naszym laboratorium, z pewnością w naszych recenzjach udostępnimy wyczerpujące informacje na ich temat. Dziś porozmawiamy tylko o zwykłym pulpicie Haswell Refresh ze standardowym poziomem odprowadzania ciepła, które można już kupić w sklepach.

Jak dotąd w serii Core i7 jest tylko jedna nowość:


Core i7-4790 zwiększa częstotliwość taktowania starszej linii procesorów dla platformy LGA 1150 o 100 MHz, tym samym przewyższając przetaktowywany Core i7-4770K i zwykły Core i7-4771. W przeciwnym razie jest to typowy Core i7 generacji Haswell: ma cztery rdzenie, obsługuje technologię Hyper-Threading i ma obszerną pamięć podręczną trzeciego poziomu o wielkości 8 MB. Rdzeń graficzny, podobnie jak jego poprzednicy, należy do klasy GT2, czyli ma 20 urządzeń wykonawczych. Należy zaznaczyć, że dzięki technologii Turbo Boost 2.0 typowa częstotliwość pracy dla Core i7-4790 to 3,8 GHz.



Core i7-4790


Pełny zestaw technologii bezpieczeństwa, w tym vPro, TXT i VT-d, jest również w pełni obsługiwany przez ten procesor. Innymi słowy, Core i7-4790 jest nowym okrętem flagowym platformy LGA 1150, ale bez obsługi podkręcania.

Seria Core i5 ma trzy nowe procesory Haswell Refresh:



Częstotliwości tych procesorów w porównaniu z ich poprzednikami również wzrosły tylko o 100 MHz. Ale to okazało się wystarczające, aby starszy Core i5-4690 stał się szybszy niż Core i5-4670K i zajął pozycję lidera w tej linii. Pozostałe procesory są organicznie zlokalizowane w uprzednio wolnych gniazdach częstotliwości. Ich inne cechy nie uległy zmianie. Hyper-Threading nie jest obsługiwany w serii Core i5, pamięć podręczna L3 jest zmniejszona do 6 MB, używany rdzeń graficzny to GT2.



Core i5-4690



Core i5-4590



Core i5-4460


Młodszy procesor Core i5-4460 zajmuje szczególne miejsce w serii: wyłączył technologie zabezpieczeń vPro i TXT, a także nie obsługuje instrukcji pracy z pamięcią transakcyjną. Technologia Turbo Boost 2.0 zapewnia typową częstotliwość roboczą dla Core i5-4690 przy 3,7 GHz, dla Core i5-4590 z częstotliwością 3,5 GHz i dla Core i5-4460 z częstotliwością 3,2 GHz.

Seria Core i3 wraz z wydaniem Haswell Refresh urosła o trzy kolejne modyfikacje:



Tutaj również nastąpił wzrost częstotliwości zegara o 100 MHz przy zachowaniu wszystkich innych cech. Procesory Core i3, w przeciwieństwie do starszych modeli, są dwurdzeniowe, ale obsługują technologię wirtualnej wielowątkowości Hyper-Threading. Z tego powodu mają niższe obliczone rozpraszanie ciepła przy 54, a nie 84 watów. Należy zaznaczyć, że w momencie zapowiedzi Haswell Refresh nie było wolnych slotów częstotliwości w linii Core i3, więc okazało się, że model Core i3-4350 całkowicie pasuje do charakterystyk Core i3-4340. Jedyna różnica między nową modyfikacją jest większa niska cena.



Core i3-4360



Core i3-4350



Core i3-4150


Procesory Core i3-4360 i Core i3-4350 mają pamięć podręczną L3 o wielkości 4 MB, podczas gdy Core i3-4150 zmniejszył pamięć podręczną do 3 MB. Gorzej w młodszym modelu i rdzeniu graficznym. Chociaż formalnie wszystkie Core i3 są wyposażone w grafikę GT2, Core i3-4150 zmniejszył liczbę jednostek wykonawczych GPU z 20 do 16.

Dowolne procesory Haswell Refresh z gniazdem LGA 1150 dodatkowe warunki nie są nakładane na płyty główne. Pomimo faktu, że platforma została zaktualizowana tak, aby zbiegła się z ich pojawieniem się wraz z jej przeniesieniem na nowe chipsety dziewiątej serii (Z97 i H97), wszystkie nowe procesory działają bez problemów w starych płytach głównych LGA 1150 z chipsetami z serii 8. W przypadku płyt z zeszłego roku wymagana jest tylko aktualizacja systemu BIOS, aby je poprawnie wykryć.

Jeśli chodzi o możliwości przetaktowywania, Haswell Refresh, wydany do tej pory, nie ma ich w ogóle w żadnym tomie. Zwiększenie częstotliwości powyżej nominalnych poprzez zmianę mnożnika jest niemożliwe, a przetaktowywanie przez magistralę jest niezwykle ograniczone. W rzeczywistości granica, do której można podkręcić zegar bazowy, jest rzędu 105-110 MHz. Oznacza to, że nabycie Haswell Refresh w celu obsługi ich w nienormalnych trybach nie ma żadnego sensu. Jednak procesory bez overclockingu dla platformy LGA 1150 nadal pozwalają na przetaktowanie pamięci do poziomu DDR3-2400.

Jak testowaliśmy

Porównaliśmy nowe procesory należące do zestawu Haswell Refresh z ich poprzednikami, zwykłymi procesorami Haswell, które są w sprzedaży od prawie roku. W rezultacie lista komponentów sprzętowych biorących udział w testowaniu jest następująca:

Procesory:

Intel Core i7-4790 (Haswell, 4 rdzenie + HT, 3,6-4,0 GHz, 4x256 KB L2, 8 MB L3);
Intel Core i7-4770K (Haswell, 4 rdzenie + HT, 3,5-3,9 GHz, 4x256 KB L2, 8 MB L3);
Intel Core i5-4690 (Haswell, 4 rdzenie, 3,5-3,9 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4670K (Haswell, 4 rdzenie, 3,4-3,8 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4590 (Haswell, 4 rdzenie, 3,3-3,7 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4570 (Haswell, 4 rdzenie, 3,2-3,6 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4460 (Haswell, 4 rdzenie, 3,2-3,4 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4440 (Haswell, 4 rdzenie, 3,1-3,3 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i3-4360 (Haswell, 2 rdzenie + HT, 3,7 GHz, 2x256 KB L2, 4 MB L3);
Intel Core i3-4350 (Haswell, 2 rdzenie + HT, 3,6 GHz, 2x256 KB L2, 4 MB L3);
Intel Core i3-4340 (Haswell, 2 rdzenie + HT, 3,6 GHz, 2x256 KB L2, 4 MB L3);
Intel Core i3-4150 (Haswell, 2 rdzenie + HT, 3,5 GHz, 2x256 KB L2, 3 MB L3);
Intel Core i3-4130 (Haswell, 2 rdzenie + HT, 3,4 GHz, 2x256 KB L2, 3 MB L3).

Chłodnica procesora: Noctua NH-U14S.
Płyta główna: Gigabyte Z87X-UD3H (LGA1150, Intel Z87 Express).
Pamięć: 2x8 GB DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX).
Karta graficzna: NVIDIA GeForce GTX 780 Ti (3 GB / 384-bit GDDR5, 876-928 / 7000 MHz).
Podsystem dyskowy: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Zasilacz: Corsair AX760i (80 Plus Platinum, 760 W)

Testy przeprowadzono w systemie operacyjnym Microsoft Windows 8 Enterprise x64 przy użyciu następującego zestawu sterowników:

Sterownik chipsetu Intel 10.0.13;
Sterownik Intel Management Engine 10.0.0.1204;
Technologia Intel Rapid Storage 13.0.3.1001;
Sterownik NVIDIA GeForce 335.23.

Występ

Ogólna wydajność

Aby ocenić wydajność procesorów w typowych zadaniach, tradycyjnie używamy pakietu testowego Bapco SYSmark, który symuluje pracę użytkownika w rzeczywistych, typowych, nowoczesnych programach biurowych i aplikacjach do tworzenia i przetwarzania treści cyfrowych. Idea testu jest bardzo prosta: generuje pojedynczą metrykę charakteryzującą średnią ważoną prędkość komputera podczas codziennego użytkowania. Niedawno ten test porównawczy został ponownie zaktualizowany, a teraz używamy najnowszej wersji - SYSmark 2014.



Wyniki przedstawione na diagramie są dość oczekiwane. Biorąc pod uwagę, że nie ma ulepszeń i optymalizacji na poziomie mikroarchitektury w procesorach Haswell Refresh, szybkość zegara decyduje o wszystkim. A ponieważ w nowych procesorach wzrosła tylko o 100 MHz, różnica we wskaźnikach wydajności starych Haswellów i przedstawicieli wielu zastępujących je Haswell Refresh wynosi średnio 2,5 proc. Dokładniej: Core i7-4790 wyprzedza Core i7-4771 (aka Core i7-4770K) o 1,8 procent; Core i5-4690 jest lepszy od Core i5-4670 o 2,3 procent Core i5-4590 jest lepszy od Core i5-4570 o 2,3 procent, Core i5-4460 o 2,7 procent od Core i5-4440, Core i3-4360 o 3,1 procent od Core i3-4340, a Core i3-4150 wyprzedza Core i3-4130 o 2,3 procent.

Głębsze zrozumienie wyników SYSmark 2014 może zapewnić wgląd w wyniki wydajności uzyskane w różnych przypadkach użycia systemu. Scenariusz wydajności biura symuluje typowy plik praca w biurze: przygotowywanie tekstów, przetwarzanie arkuszy kalkulacyjnych, praca z pocztą elektroniczną i odwiedzanie stron internetowych. Skrypt wykorzystuje następujący zestaw aplikacji: Adobe Acrobat XI Pro, Google Chrome 32, Microsoft Excel 2013, Microsoft OneNote 2013, Microsoft Outlook 2013, Microsoft PowerPoint 2013, Microsoft Word 2013, WinZip Pro 17.5 Pro.



Scenariusz Media Creation symuluje tworzenie reklamy przy użyciu gotowych cyfrowych obrazów i wideo. Do tego celu służą popularne pakiety Adobe Photoshop CS6 Extended, Adobe Premiere Pro CS6 i Trimble SketchUp Pro 2013.



Scenariusz Dane / Analiza finansowa jest poświęcony analizie statystycznej i prognozowaniu inwestycji w oparciu o określony model finansowy. Skrypt wykorzystuje duże ilości danych liczbowych oraz dwie aplikacje Microsoft Excel 2013 i WinZip Pro 17.5 Pro.




Wydajność w grach

Jak wiadomo, wydajność platform wyposażonych w wysokowydajne procesory w zdecydowanej większości współczesnych gier determinowana jest mocą podsystemu graficznego. Dlatego testując procesory, wybieramy gry najbardziej zależne od procesora i dwukrotnie mierzymy liczbę klatek. W pierwszym przejściu testy przeprowadzane są bez włączania antyaliasingu iz ustawieniem dalekim od najwyższych rozdzielczości. Takie ustawienia pozwalają nam w zasadzie ocenić, jak dobrze radzą sobie procesory z obciążeniem gier, co oznacza, że \u200b\u200bpozwalają domniemywać, jak testowane platformy obliczeniowe będą się zachowywać w przyszłości, gdy na rynku pojawią się szybsze opcje akceleratorów graficznych. Drugi przebieg odbywa się z realistycznymi ustawieniami - przy wyborze rozdzielczości FullHD i maksymalnego poziomu pełnoekranowego antyaliasingu. Naszym zdaniem takie wyniki są nie mniej interesujące, ponieważ odpowiadają na często zadawane pytanie, jaki poziom wydajności w grach mogą zapewnić właśnie teraz - w nowoczesnych warunkach.





















Nie załadowaliśmy recenzji dużą liczbą testów gier, ponieważ wzrost wydajności zapewniany przez procesory Haswell Refresh nie jest zbyt zauważalny. Niemniej jednak na powyższych wykresach można zauważyć kilka różnych opcji sumowania wydajności gry.

Tak więc Batman: Arkham Origin to gra, w której wydajność dowolnego procesora Intela wystarczy do pełnego załadowania flagowej karty graficznej NVIDIA GeForce GTX 780 Ti. W efekcie widzimy w nim niezwykle nieznaczny wpływ wyboru procesora na wynik, a nowy Haswell Refresh nie wyróżnia się wcale na tle swoich poprzedników.

Civilization V: Brave New World to gra strategiczna, w której aktywne obliczenia są wykonywane na procesorze, jednak zbyt mocne procesory również nie są tutaj przydatne. Począwszy od Core i5-4570 i nowszych, wzrost wydajności jest prawie niezauważalny. Jednak nawet poniżej tej osobliwej granicy przewaga Haswell Refresh nad równoważnymi poprzednikami wynosi około 3 procent.

Metro: Last Light to strzelanka bardzo zależna od procesora, ale przy maksymalnych ustawieniach jakości (głównie z powodu teselacji) liczba klatek na sekundę jest nadal ograniczona mocą karty graficznej. Ale wraz ze spadkiem rozdzielczości widać niewielki efekt zwiększenia częstotliwości w nowo ogłoszonym odświeżaniu Haswell. Jego skala jest standardowa - około 2 proc.

Jeszcze ciekawiej wygląda sprawa w Thief. To jedna z niewielu gier, do których odnoszą się negatywnie technologia Hyper-Threading w czterordzeniowych procesorach. Jest zoptymalizowany pod kątem czterech wątków, a dodatkowe rdzenie wirtualne w Core i7 tylko zmniejszają wydajność. Jeśli mówimy o efekcie zastąpienia Haswell Haswell Refresh, to znowu jest on nieistotny: nie więcej niż 3 procent przy zmniejszonej rozdzielczości i nie więcej niż 1 procent przy maksymalnych ustawieniach grafiki.

Testy w aplikacji

W Autodesk 3ds max 2014 mierzymy prędkość renderowania w mental ray specjalnie przygotowanej złożonej sceny.



Wydajność w nowym programie Adobe Premiere Pro CC jest testowana przez pomiar czasu renderowania do H.264 projektu Blu-Ray zawierającego materiał HDV 1080p25 z nakładką różnych efektów.



Mierzymy wydajność w nowym Adobe Photoshop CC, korzystając z naszego własnego testu porównawczego, który jest twórczo przerobionym testem szybkości programu Photoshop dla artystów retuszujących, który obejmuje typowe przetwarzanie czterech obrazów z 24-megapikselowego aparatu cyfrowego.



Aby zmierzyć szybkość procesorów podczas kompresji informacji, używamy archiwizatora WinRAR 5.0, za pomocą którego archiwizujemy folder z różnymi plikami o maksymalnym współczynniku kompresji łącznie 1,7 GB.



Aby ocenić szybkość transkodowania wideo do formatu H.264, wykorzystaliśmy test x264 FHD Benchmark 1.0.1 (64-bitowy), oparty na pomiarze czasu kodowania przez koder x264 oryginalnego wideo do formatu MPEG-4 / AVC o rozdzielczości [email chroniony] i ustawienia domyślne. Należy zauważyć, że wyniki tego testu porównawczego mają ogromne znaczenie praktyczne, ponieważ koder x264 jest sercem wielu popularnych narzędzi transkodujących, na przykład HandBrake, MeGUI, VirtualDub itp. Okresowo aktualizujemy koder używany do pomiarów wydajności, aw testach wzięła udział wersja r2431, która implementuje obsługę wszystkich nowoczesnych zestawów instrukcji, w tym AVX2.



Żadna aplikacja nie może ujawnić żadnych zauważalnych zalet procesorów Haswell Rafresh w stosunku do ich poprzedników. To całkiem naturalne. Jedyną zmianą w nowych procesorach jest zwiększona częstotliwość. Więc po prostu nie ma miejsca, w którym można by zauważyć zauważalny wzrost wydajności. Wyniki nowych Core i7-4790, Core i5-4690, Core i5-4590, Core i5-4460, Core i3-4360, Core i3-4350 i Core i3-4150 są lepsze niż w ofertach tej samej klasy i to ten sam koszt maksymalnie o 3 procent.

Zużycie energii

Zmiany wydajności wprowadzone przez Haswell Refresh nie są wcale imponujące. Nie powinno być żadnych innych ulepszeń w nowych modyfikacjach procesorów, zakładając, że są one oparte na starym krysztale półprzewodników rewizji. Jednak nie ma nadziei na jakąkolwiek poprawę wydajności cieplnej i energetycznej, która mogłaby wynikać z ulepszonych procesów produkcyjnych. Sprawdźmy.

O ile nie określono inaczej, poniższe wykresy przedstawiają całkowite zużycie energii przez systemy (z wyłączeniem monitora) mierzone na wyjściu z gniazdka, do którego jest podłączone zasilanie systemu testowego, i stanowią sumę zużycia energii przez wszystkie elementy wchodzące w skład systemu. Całkowita wartość automatycznie uwzględnia sprawność samego zasilacza, jednak biorąc pod uwagę, że model zasilacza, którego używamy, Corsair AX760i, posiada certyfikat 80 Plus Platinum, jego wpływ powinien być minimalny. Aby poprawnie oszacować zużycie energii, włączyliśmy tryb turbo i wszystkie dostępne technologie oszczędzania energii: C1E, C6 i Enhanced Intel SpeedStep.

Najpierw zmierzono zużycie na biegu jałowym.



Wszyscy przetwórcy wykazali tutaj rzadką jednomyślność. Jest to zrozumiałe: w czasie bezczynności Haswell przechodzi w stan oszczędzania energii i zmniejsza zużycie energii do prawie zerowych wartości. Dlatego liczby pokazane na schemacie są bardziej reprezentatywne dla zużycia pozostałej części platformy testowej.

Następnie zmierzyliśmy maksymalne obciążenie pod obciążeniem generowane przez 64-bitowe narzędzie LinX 0.6.5 z obsługą zestawu instrukcji AVX2, w oparciu o pakiet Linpack.



Powyższy diagram bardzo wyraźnie pokazuje brak jakiejkolwiek poprawy zużycia energii w procesorach Haswell Refresh. Nowsze i szybsze modele wymagają więcej prądu niż ich poprzednicy. Jednocześnie przetaktowanie do 100MHz przeprowadzone w nowych modyfikacjach CPU przekłada się na około 5% wzrost zużycia energii. Zauważ, że pomimo tego Intel nie uznał za konieczne zwiększenia limitów pakietu termicznego Haswell. Innymi słowy, rozpraszanie ciepła dowolnego Core i7 i Core i5 powinno pasować do 84-watowej ramy, a Core i3 - do 54-watowej ramy.

Biorąc pod uwagę, że pobór mocy zainicjowany przez narzędzie Linpack oparte na pakiecie Linpack jest znacznie wyższy niż realistyczny średni poziom, zmierzyliśmy również zużycie przy bardziej „przyziemnym” obciążeniu - transkodowaniu wideo przy użyciu 64-bitowej wersji kodeka x264 w wersji r2431.



Ogólnie obraz jest dokładnie taki sam, jak w przypadku obciążenia generowanego przez LinX. Mniejsze są tylko bezwzględne wartości zużycia energii. Niemniej jednak procesory Haswell Refresh zużywają więcej niż ich poprzednicy z tej samej klasy o te same 5 procent. Wszystko to oznacza tylko jedno: nie nastąpiła żadna poprawa w zużyciu nowych modeli Haswell.

Nie ma wyraźnych zmian w reżimie temperaturowym nowych produktów. Oczywiście w zwykłym Haswell Refresh materiał przenoszący ciepło pod pokrywką pozostaje tak samo niefortunny jak wcześniej. Gdy ładowane są nowe procesory, temperatura rdzenia rośnie niemal natychmiast i pozostaje na wysokim poziomie, nawet jeśli w systemie zainstalowana jest wydajna chłodnica. Na przykład w naszym przypadku podczas korzystania z chłodnicy Noctua NH-U14S starszy Haswell Refresh, Core i7-4790, gdy działało narzędzie LinX, bardzo szybko nagrzał się do 84 stopni. I to bez podkręcania, w trybie nominalnym!



Przypomnijmy, że maksymalna temperatura, w której procesory Haswell obejmują dławienie, wynosi 100 stopni.

wnioski

Podsumowując, trzeba przyznać, że głośną nazwę Haswell Refresh nadano zupełnie zwykłym procesorom, które wraz z wydaniem nie wnoszą praktycznie nic nowego. Intel nie wykonał żadnych prac inżynieryjnych w celu ich wydania. Dlatego konsumenckie walory świeżych procesorów dla platformy LGA 1150 praktycznie nie różnią się od tego, co było oferowane wcześniej. Liczba rdzeni, ilość pamięci podręcznej, rodzaj zintegrowanego rdzenia graficznego, zestaw obsługiwanych technologii - wszystko pozostało niezmienione. Nie dokonano żadnych optymalizacji na poziomie kryształu półprzewodnika, więc rozpraszanie ciepła i zużycie energii Haswell Refresh pozostały na typowym poziomie Haswell.

Jedynym miejscem, w którym można zobaczyć przynajmniej pewien ruch do przodu, są częstotliwości zegara. Biorąc jednak pod uwagę, że wzrost częstotliwości nie jest wspierany przez żadne ulepszenia technologiczne ani inżynieryjne, a jest jedynie prostym przetaktowaniem starych modeli, ich wzrost okazał się wyjątkowo słaby. W rzeczywistości, w ramach Haswell Refresh, Intel zwiększył prędkość swoich procesorów do najniższego możliwego delta - 100 MHz. W związku z tym podczas testów zaobserwowaliśmy dokładnie ten sam, minimalny wzrost wydajności. Nowe procesory Haswell Refresh okazały się o 2-3 procent szybsze niż stare procesory Haswell i nic więcej.

To wszystko sprawia, że \u200b\u200bwyjście Haswell Refresh może być interesujące tylko wtedy, gdy nie migrowałeś jeszcze na platformę LGA 1150. Biorąc pod uwagę, że koszt nowych modeli nie jest wyższy niż starych, przy zakupie nowego komputera całkiem naturalne jest teraz zapytać w sklepach dokładnie nowe modyfikacje procesora. A jeśli Twojego ulubionego dostawcy Haswell Refresh nie ma jeszcze w cenniku, lepiej trochę odłożyć zakup, ale później dostać trochę więcej wysoka wydajność za te same pieniądze.

Ponadto nie zapominajmy, że za około trzy tygodnie spodziewamy się wydania kilku kolejnych procesorów, formalnie związanych ze zaktualizowanym Haswell, Core i7-4790K i Core i5-4690K. Te procesory o nazwie kodowej Devil's Canyon, w przeciwieństwie do modeli recenzowanych dzisiaj, obiecują być świetnym prezentem dla entuzjastów. Będą miały zauważalnie lepsze częstotliwości taktowania, niższe temperatury pracy i lepsze przetaktowanie. Ale nie wyprzedzajmy siebie: pełną recenzję Core i7-4790K i Core i5-4690K możesz przeczytać nieco później na naszej stronie internetowej.

Po przeprowadzeniu w zeszłym roku pełnej aktualizacji Sandy Bridge i przestawieniu go na nowy proces techniczny Intel zbliżył się do następnego kroku „tak”, przepisanego sobie kilka lat wcześniej.

Tik-tak Intela nie zawsze jest bombą, ale zdecydowanie symbolem postępu technologicznego

W krokach „tock”, jak pokazuje ilustracja, konieczne jest wprowadzenie nowej architektury. I tak się stało - świat zobaczył mikroarchitekturę o nazwie kodowej Haswell i 14 modeli procesorów Core i5 i i7 dla gniazda LGA 1150 (znanego również jako Socket H3), które są na niej oparte, osiem z nich to „zwykłe”, a sześć o małej mocy. Ogólnie rzecz biorąc, temat zużycia energii (a dokładniej „zużycia energii adekwatnego do aktualnej mocy obliczeniowej”) przewija się przez mikroarchitekturę Haswell, ponieważ Intel widzi wielką przyszłość dla jej tworzenia w segmencie mobilnym i bez procesora lub SoC z umiarkowanymi apetytami tam nic nie ma. Sądząc po porównaniach w otwartych źródłach, Intel uważa rękodzieło na procesorach ARM za swojego głównego konkurenta, ponieważ już dobrze zakorzeniło się w segmencie mobilnym i wykazało tam swoją żywotność.

Intel już wiele zrobił w dziedzinie zasilania procesorów. Odchodząc od pierwotnej regulacji TDP jedynie za pomocą napięcia procesora dostarczanego do niego z przetwornika płyty głównej i częstotliwości taktowania rdzenia, Intel przeniósł część konwerterów do CPU, odkrywając tym samym możliwość dokładniejszego (a przez to efektywnego) dozowania napięcia na każdym z inne bloki znajdujące się na krysztale. W tym czasie procesor przestał być tylko procesorem w pierwotnym znaczeniu tego słowa i zawierał kontroler pamięci i inne części mostka północnego (NB), co w pewnym momencie pozwoliło znacznie uprościć układ płyt głównych i zmniejszyć zużycie energii przez pakiet CPU + NB.

Praca z mocą prowadzona była również w kierunku racjonalnego użytkowania, gdy jedna lub druga jednostka funkcjonowała (odczyt - zużywała energię elektryczną) tylko w odpowiednich momentach, aw okresach bezczynności wyłączała się i nie marnowała energii. Jednym z owoców pracy w tym kierunku było pojawienie się w układach Intela wraz ze stanem S0 stanu S0ix, co znacząco obniżyło pobór mocy procesora w czasie bezczynności do stanu „uśpienia” (stan S3, laptop przechodzi do niego po zamknięciu ekranu w stanie roboczym). W rzeczywistości system może "spać" całkowicie przezroczyście dla użytkownika, ponieważ przejście do S0ix trwa 450 mikrosekund, a czas budzenia wynosi 3,2 milisekundy (odpowiednio 0,00045 s i 0,0032 s). Aby ekran był aktywny, opracowano technologię PSR (Panel Self-Refresh), która zakłada obecność bufora przechowującego kilka ostatnich klatek. Zmniejsza to obciążenie GPU, zwłaszcza gdy informacje na ekranie są rzadko odświeżane (na przykład podczas czytania tekstu), co z kolei umożliwia zmniejszenie poboru mocy przez GPU.

Nowy procesor Intela może oszczędzać energię znacznie lepiej niż jego poprzednicy

To prawda, że \u200b\u200bwymaga to wsparcia sprzętowego ze strony monitora, więc ta metoda oszczędzania energii może być szeroko stosowana w segmencie mobilnym, gdzie „monitor” i „część obliczeniowa” stanowią jedno urządzenie. Ale dla zademonstrowania rozwoju Intela przykład jest bardzo odpowiedni, zwłaszcza że znaleźli implementację w procesorach w architekturze Haswell. Tak więc jednostka PCU firmy Haswell (jednostka sterująca zasilaniem) jest w stanie bardzo efektywnie wykorzystywać energię dzięki różnym „trybom pracy”, w każdym z których aktywne są tylko te bloki, które są aktualnie potrzebne. To, zgodnie z zapewnieniami Intela, zmniejszyło zużycie energii w stanie bezczynności prawie pięciokrotnie w porównaniu z poprzednią (trzecią) generacją procesorów. Przełączanie między „trybami” jest przyspieszone o jedną czwartą, co pozwala aktywniej zarządzać zużyciem energii przez rdzenie i „uzupełniać je” nawet w tych przypadkach , które w ostatniej generacji były niepraktyczne ze względu na długą procedurę włączania / wyłączania. Tutaj rdzeń "spał" przez kilka milisekund, zaoszczędzimy ułamki miliwata, tam "zdrzemnął się" ... Więc zaoszczędzone waty się kumulują.

Poważnie poprawiono również wewnętrzną architekturę procesora, choć globalnie nic się nie zmieniło. Intel kontynuuje polerowanie i udoskonalanie architektury używanej w Conroe w częściach. Jednak istnieje więcej różnic między Ivy Bridge i Haswell niż między Sandy Bridge i Ivy Bridge. Ta ostatnia, moim skromnym zdaniem, była generalnie zmianą stylizacji Sandy; Spośród znaczących zmian można odnotować jedynie przejście od 32 nm do 22 nm procesu technicznego.

Architektura Intel Haswell jako schemat

Jednostka procesora Haswell zachowuje 14-19-stopniowy potok, pamięć podręczna dla 1500 mikroinstrukcji również została przeniesiona bez zmian, ale jednostka dekodowania instrukcji jest teraz pojedyncza i nie jest dzielona między dwa wątki. Rozmiar bloku Out-of-Order Window (OoO) został zwiększony ze 168 do 192 wpisów, a do Reservation Station dodano dwa porty, zwiększając całkowitą liczbę do ośmiu. Sandy Bridge miał sześć portów do równoległego wykonywania sześciu mikrooperacji. Trzy z nich są używane do operacji pamięciowych (odczyt / zapis), trzy są używane do operacji matematycznych. Jeden dodany port jest używany do obliczeń całkowitych i rozgałęzień, a drugi do obliczania adresu.

Bloki FMA (Fused Multiply-Add) w portach 0-1 zostały przeprojektowane i dodano obsługę zestawu instrukcji AVX2 (Advanced Vector Extensions 2). Pozwala to znacznie zwiększyć wydajność zarówno przy tym samym typie, jak i przy obciążeniu mieszanym, ale nadal najbardziej wzrosła szybkość wykonywania operacji zmiennoprzecinkowych - Intel twierdzi, że wydajność wzrosła dwukrotnie.

Nowe zestawy instrukcji do przyszłych zastosowań

W praktyce można spodziewać się wzrostu podczas pracy z treściami multimedialnymi i 3D.

Nowy blok FMA jest w stanie zapewnić poważne FLOPS na wzmocnienie zegara

Nie zignorowano też gotówki. Szybkość L1 i magistrali między L1 i L2 została podwojona, z 32 do 64 bajtów na cykl w obu przypadkach; opóźnienie pozostało niezmienione. Uniwersalny TLB (Translation Lookaside Buffer) został ulepszony: od 4K do rozszerzonego 4K + 2M szerokość magistrali jest podwojona. Dostęp do pamięci podręcznej L3 jest teraz szerszy ze względu na możliwość jednoczesnego przetwarzania żądań danych i innych.

Blok TSX pomoże rozłożyć obciążenie między rdzeniami procesora

Haswell dodał zestaw instrukcji TSX (Transactional Synchronization eXtensions), który pozwala na zwiększenie szybkości pracy dzięki „inteligentnemu” działaniu danych, do których jednocześnie uzyskuje dostęp wiele rdzeni. Powinno to poprawić wydajność procesora przy tych zadaniach, które są trudne do zrównoleglenia, a także dać programistom możliwość przeniesienia części pracy polegającej na rozkładaniu obciążenia między rdzeniami na procesor. TSX, podobnie jak AVX2, jest przydatnym narzędziem dla programistów, którzy umiejętnie go wykorzystując, mogą osiągnąć znaczny wzrost wydajności swoich aplikacji. Z tego samego powodu nie należy oczekiwać natychmiastowych rezultatów „tu i teraz” od tych nowych zestawów instrukcji.

Za jedno z najważniejszych wydarzeń w tym roku w segmencie komputerów stacjonarnych można uznać wypuszczenie nowej rodziny procesorów Intel Core czwartej generacji o kryptonimie Haswell. W tym artykule przyjrzymy się szybko mikroarchitekturze Haswell i porównamy wydajność procesora Intel Core i7-4770 opartego na tej mikroarchitekturze z wydajnością procesora Intel Core i7-3770 opartego na mikroarchitekturze Sandy Bridge poprzedniej generacji.

Przypomnijmy, że od wielu lat wypuszczanie nowych generacji procesorów Intela podlega praktycznej zasadzie TICK-TOCK, której istotą jest przeniesienie produkcji do nowego procesu technologicznego (TICK) i wprowadzenie nowej mikroarchitektury procesora (TOCK) na przemian z częstotliwością około dwóch lat. Oznacza to, że jeśli w pierwszym roku nastąpi przejście do nowego procesu produkcyjnego, to w drugim roku wprowadzana jest nowa mikroarchitektura procesora na tym samym procesie technicznym. W następnym roku mikroarchitektura zostaje przeniesiona do nowego procesu produkcyjnego itp.

W szczególności w 2012 roku Intel wypuścił 22-nanometrową wersję procesorów opartą na mikroarchitekturze Sandy Bridge, która jest znana pod kryptonimem Ivy Bridge (cykl TICK), a teraz przyszła kolej na wypuszczenie 22-nanometrowych procesorów opartych na nowej mikroarchitekturze Haswell.

Szczegółowo opisaliśmy już funkcje nowej mikroarchitektury Haswell w ComputerPress # 10'2012. Jednak od tego czasu minęło dużo czasu, a co najważniejsze, poznano nowe szczegóły tej mikroarchitektury. Dlatego pozwolimy sobie na powtórzenie czegoś i dokonamy krótkiego przeglądu mikroarchitektury Haswell, skupiając się na szczegółach, które zostały pominięte w naszej poprzedniej recenzji.

Haswell Computing Core

Haswell to nazwa kodowa nowej mikroarchitektury procesorów, ale tradycyjnie wszystkie oparte na niej procesory noszą tę samą nazwę. Ponadto Haswell to nazwa kodowa rdzenia procesora Haswell, co jest całkiem logiczne, ponieważ mikroarchitektura i rdzeń procesora to dwie strony tego samego medalu.

Rozważmy więc pokrótce mikroarchitekturę Haswella (lub rdzeń obliczeniowy Haswella, który jest w zasadzie tym samym).

Rdzeń obliczeniowy Haswell nie przeszedł drastycznych zmian w porównaniu z rdzeniem obliczeniowym Ivy Bridge / Sandy Bridge - poprawiono tylko niektóre bloki rdzenia procesora. Dlatego należy ogólnie przypomnieć mikroarchitekturę Sandy Bridge i zastanowić się nad wprowadzonymi w niej zmianami.

Blok preprocesora

Tradycyjnie opis mikroarchitektury rdzenia procesora rozpoczyna się od bloku preprocesora (front-end), który jest odpowiedzialny za pobieranie instrukcji x86 z pamięci podręcznej instrukcji i ich dekodowanie (rys. 1). W mikroarchitekturze Haswell blok preprocesora przeszedł minimalne zmiany.

Postać: 1. Preprocesor w mikroarchitekturach Haswell i Sandy Bridge

Instrukcje x86 są pobierane z L1I (pamięć podręczna instrukcji), która nie uległa zmianie w mikroarchitekturze Haswell. Ma rozmiar 32 KB, jest 8-kanałowy i dynamicznie dzielony między dwa strumienie instrukcji (obsługa technologii Hyper-Threading).

Z pamięci podręcznej L1I instrukcje są ładowane w 16-bajtowych blokach do 16-bajtowego bufora pobierania.

Ponieważ instrukcje x86 mają zmienną długość (od 1 do 16 bajtów), a długość bloków używanych do ładowania instrukcji z pamięci podręcznej jest stała, podczas dekodowania instrukcji ustalane są granice między poszczególnymi instrukcjami (informacje o rozmiarach instrukcji są przechowywane w pamięci podręcznej instrukcji L1I w specjalnych polach). Procedura wyodrębniania instrukcji z wybranego bloku nosi nazwę PreDecode.

Po operacji pobierania zespoły są organizowane w kolejkę (kolejka instrukcji). W mikroarchitekturach Sandy Bridge i Haswell bufor kolejki poleceń jest zaprojektowany dla 20 poleceń w każdym z dwóch strumieni, a do bufora kolejki poleceń można załadować do sześciu dedykowanych poleceń na cykl zegara.

Następnie wybrane instrukcje (instrukcje x86) są przekazywane do dekodera, gdzie są konwertowane na maszynowe mikrooperacje (oznaczone jako mikrooperacje lub uOps).

Dekoder rdzenia procesora Haswell pozostaje niezmieniony. Nadal jest czterokanałowy i może dekodować do czterech instrukcji x86 na zegar. Jak już wspomniano, długość jednego polecenia może wynosić do 16 bajtów, ale średnia długość polecenia wynosi 4 bajty. Średnio w każdym 16-bajtowym bloku ładowane są cztery instrukcje, które w przypadku czterokanałowego dekodera są jednocześnie dekodowane w jednym cyklu zegara.

Czterokanałowy dekoder składa się z trzech prostych dekoderów, które dekodują proste instrukcje do jednej mikrooperacji i jednego złożonego dekodera, który może zdekodować jedną instrukcję w nie więcej niż czterech mikrooperacjach (dekoder typu 4-1-1-1). W przypadku jeszcze bardziej złożonych instrukcji, które są dekodowane w więcej niż czterech mikrooperacjach, złożony dekoder jest podłączony do bloku uCode Sequenser, który jest używany do dekodowania takich instrukcji.

Instrukcje są dekodowane przy użyciu technologii Macro-Fusion i Micro-Fusion.

Macro-Fusion to połączenie dwóch instrukcji x86 w jedną złożoną mikrooperację mikrooperacji, która będzie dalej wykonywana jako jedna mikrooperacja. Oczywiście nie wszystkie instrukcje mogą być poddane takiemu scaleniu, ale tylko niektóre pary instrukcji (na przykład instrukcja porównania i gałąź warunkowa). Bez użycia technologii Macro-Fusion można zdekodować tylko cztery instrukcje na cykl procesora (w czterokanałowym dekoderze), podczas gdy przy użyciu technologii Macro-Fusion można odczytać pięć instrukcji w każdym cyklu, które są konwertowane na cztery przez scalenie i poddawane dekodowaniu.

Należy pamiętać, że w celu efektywnego wsparcia technologii Macro-Fusion stosowane są rozszerzone jednostki ALU (Arithmetical Logic Unit), które mogą wspierać wykonywanie mikrooperacji.

Micro-Fusion to połączenie dwóch mikrooperacji (nie instrukcji x86, ale mikrooperacji) w jedną zawierającą dwie podstawowe akcje. W przyszłości dwie takie połączone mikrooperacje będą przetwarzane jako jedna, co umożliwia zmniejszenie liczby przetwarzanych mikrooperacji, aw konsekwencji zwiększenie całkowitej liczby instrukcji wykonywanych przez procesor w jednym cyklu.

Ponadto mikroarchitektury Haswell i Sandy Bridge używają zdekodowanej pamięci podręcznej mikrooperacji (Uop Cache), która odbiera wszystkie zdekodowane mikrooperacje. Ta pamięć podręczna jest oceniana na około 1500 mikrooperacji o średniej długości. Zdekodowana pamięć podręczna mikrooperacji to osiem banków (to znaczy ta pamięć podręczna jest 8-kanałowa), z których każdy składa się z 32 linii pamięci podręcznej, a każda linia pamięci podręcznej zawiera do sześciu zdekodowanych mikrooperacji (uop). Stąd okazuje się, że cache może zawierać około 1500 mikrooperacji.

Koncepcja zdekodowanej pamięci podręcznej mikrooperacji polega na przechowywaniu w niej już zdekodowanych sekwencji mikrooperacji. W rezultacie, jeśli pewna instrukcja x86 musi zostać ponownie wykonana, a odpowiadająca jej sekwencja zdekodowanych mikrooperacji nadal znajduje się w zdekodowanej pamięci podręcznej mikrooperacji, nie ma potrzeby wybierania tej instrukcji z pamięci podręcznej L1 i ponownego jej dekodowania - zdekodowane mikrooperacje są wysyłane z pamięci podręcznej do dalszego przetwarzania.

Po procesie dekodowania instrukcji x86, po cztery sztuki na zegar, przechodzą do bufora kolejki dekodowania. W mikroarchitekturze Sandy Bridge ten bufor kolejki dekodowanych instrukcji został zaprojektowany dla dwóch strumieni instrukcji po 28 mikrooperacji na strumień. W mikroarchitekturach Ivy Bridge i Haswell nie jest podzielony na dwa strumienie instrukcji i jest przeznaczony dla 56 mikrooperacji. Takie podejście jest preferowane w przypadku uruchamiania aplikacji jednowątkowej (z jednym wątkiem poleceń). W tym przypadku dla jednego strumienia instrukcji dostępny jest bufor o pojemności 56 mikrooperacji, aw mikroarchitekturze Sandy Bridge tylko 28 mikrooperacji.

Wydawałoby się, że jeśli porównamy rdzenie procesorów Haswell i Ivy Bridge, to nie ma żadnej różnicy w ich preprocesorach, a preprocesory rdzeni Haswell i Sandy Bridge różnią się jedynie strukturą bufora kolejki dekodowanych instrukcji.

Jednak firma Intel twierdzi, że wprowadzono pewne ulepszenia do preprocesora Haswell i obejmują ulepszenia w Branch Predictors. Jednak jakie ulepszenia zostały wdrożone, Intel nie ujawnia.

Kończąc opis preprocesora w mikroarchitekturze Haswell, należy również wspomnieć o buforze TLB.

TLB (Translation Look-aside Buffers) to specjalna pamięć podręczna procesora, która przechowuje adresy dekodowanych instrukcji i danych, co może znacznie skrócić czas dostępu do nich. Ta pamięć podręczna została zaprojektowana w celu skrócenia czasu potrzebnego na konwersję wirtualnych danych lub adresu instrukcji na fizyczny. Faktem jest, że procesor korzysta z adresowania wirtualnego, a do uzyskania dostępu do danych w pamięci podręcznej lub pamięci RAM potrzebne są prawdziwe adresy fizyczne. Konwersja adresu wirtualnego na adres fizyczny zajmuje około trzech cykli procesora. Pamięć podręczna TLB przechowuje wyniki poprzednich konwersji, dzięki czemu konwersja adresów może odbywać się w jednym cyklu zegara.

Procesory z mikroarchitekturą Haswell i Sandy Bridge (a także procesory Intel oparte na innych mikroarchitekturach) używają dwupoziomowej pamięci podręcznej TLB, a jeśli pamięć podręczna L2 TLB jest zunifikowana, wówczas pamięć podręczna L1 TLB jest dzielona na bufor danych (DTLB) i bufor instrukcji (ITLB) ...

Pamięci podręczne L1 TLB instrukcji i danych w mikroarchitekturze Haswell nie uległy zmianie - są dokładnie takie same, jak w mikroarchitekturze Sandy Bridge. Pamięć podręczna instrukcji L1 ITLB jest zaprojektowana na 128 wpisów, jeśli każdy wpis dotyczy strony 4 KB pamięci. Tak więc, wykorzystując 4 KB stron pamięci L1, pamięć podręczna ITLB może adresować 512 KB pamięci. W przypadku stron 4K pamięć podręczna ITLB jest 4-kanałowa i statycznie dzielona między dwa strumienie instrukcji. Ponadto pamięć podręczna L1 ITLB może adresować 2 MB stron pamięci. W tym przypadku pamięć podręczna zawiera osiem wpisów na wątek i jest w pełni asocjacyjna.

Blok wykonania poza kolejnością

Po procesie dekodowania instrukcji x86 rozpoczyna się etap ich wykonywania poza kolejnością.

Pierwszym krokiem jest zmiana nazwy i przydzielenie dodatkowych rejestrów procesora, które nie są zdefiniowane w architekturze zestawu instrukcji. Technika zmiany nazwy rejestru byłaby bezcelowa bez zmiany kolejności instrukcji. Dlatego z bufora Decode Queue mikrooperacje są wysyłane po cztery elementy na zegar do bufora ReOrder, gdzie mikrooperacje są zmieniane w kolejności ich przybycia (poza kolejnością).

W mikroarchitekturze Sandy Bridge rozmiar bufora zmiany kolejności jest zaprojektowany dla 168 mikrooperacji, aw mikroarchitekturze Haswell - dla 192 mikrooperacji.

Należy zwrócić uwagę, że Bufor ReOrder i Jednostka Wycofana są połączone w jedną jednostkę procesora, ale instrukcje są początkowo ponownie porządkowane, a Jednostka Wycofywana jest uruchamiana później, gdy konieczne jest wydanie wykonanych instrukcji w kolejności określonej przez program.

Następnie następuje rozkład mikrooperacji między jednostkami wykonawczymi. W bloku procesora Unified Scheduler tworzone są kolejki mikrooperacji, w wyniku których mikrooperacje są wysyłane do jednego z portów Dispatch. Ten proces nazywa się wysyłką, a same porty działają jako brama do działających urządzeń.

W mikroarchitekturach Sandy Bridge i Haswell klastry poza kolejnością używają tak zwanych plików rejestru fizycznego (PRF), które przechowują operandy mikrooperacji.

Przypomnijmy, że gdy w rdzeniach procesorów nie były używane żadne pliki rejestrów fizycznych (na przykład w mikroarchitekturze Nehalem), każda mikrooperacja miała kopię argumentu (lub ów), których potrzebowała. W rzeczywistości oznaczało to, że bloki niedziałającego klastra wykonawczego musiały być wystarczająco duże, aby mogły pomieścić mikrooperacje wraz z wymaganymi operandami.

Użycie PRF pozwala mikrooperacjom samym przechowywać tylko wskaźniki do operandów, ale nie same operandy. Z jednej strony podejście to zapewnia zmniejszenie poboru mocy przez procesor, ponieważ poruszanie się wzdłuż potoku mikrooperacji wraz z ich argumentami wymaga znacznego zużycia energii. Z drugiej strony, użycie pliku rejestru fizycznego oszczędza rozmiar kryształu, a zwolnione miejsce można wykorzystać do zwiększenia rozmiaru buforów klastra wykonywania poleceń poza kolejnością.

Postać: 2. Bloki wykonywania poleceń poza kolejnością

w mikroarchitekturach Haswell i Sandy Bridge

W mikroarchitekturze Sandy Bridge fizyczny plik rejestru dla operandów całkowitych (rejestry całkowite) jest przeznaczony dla 160 rekordów, a dla operandów zmiennoprzecinkowych (rejestrów AVX) - dla 144 rekordów.

W mikroarchitekturze Haswell fizyczne zbiory rejestrów Integer Registers i AVX Registers są zaprojektowane dla 168 rekordów.

Wzrosły również bufory odczytu (ładowania) i zapisu (przechowywania) używane do uzyskiwania dostępu do pamięci. Na przykład, jeśli w mikroarchitekturze Sandy Bridge bufory Load i Store zostały zaprojektowane odpowiednio dla 64 i 36 rekordów, to w mikroarchitekturze Haswell zostały zaprojektowane odpowiednio dla 72 i 42 rekordów.

Rozmiar bufora Unified Scheduler, w którym kolejki mikrooperacji są tworzone na portach funkcjonalnych urządzeń, również się zmienił w mikroarchitekturze Haswell. Jeśli w Sandy Bridge był zaprojektowany na 54 mikrooperacje, to w Haswell było ich 60.

Tak więc, jeśli porównamy architektury Haswell i Sandy Bridge, to w bloku nieuporządkowanego wykonywania poleceń mikroarchitektura Haswell nie ma zmian strukturalnych, a jedynie jakościowe zmiany dotyczące wzrostu rozmiarów buforów. Ale nie ma żadnych fundamentalnych zmian w bloku niedziałającego wykonywania poleceń w mikroarchitekturze Haswell.

Jednostki wykonawcze rdzeni procesora

Jeśli chodzi o jednostki wykonawcze rdzenia procesora, w mikroarchitekturze Haswell przeszły one znaczące zmiany w porównaniu z mikroarchitekturą Sandy Bridge. Tak więc w Sandy Bridge jest sześć portów funkcjonalnych urządzeń (porty dyspozytorskie): trzy obliczeniowe i trzy do pracy z pamięcią (rys. 3 pokazuje tylko porty obliczeniowe).

Postać: 3. Jednostki wykonawcze w mikroarchitekturach Sandy Bridge

i Haswell (porty do pracy z pamięcią nie są pokazane)

Mikroarchitektura Haswell zwiększyła liczbę funkcjonalnych portów urządzeń do ośmiu. Do tego, co znajdowało się w mikroarchitekturze Sandy Bridge, dodano kolejny port do rejestrowania adresu (adres sklepu) i portu obliczeniowego dla operacji na liczbach całkowitych i operacji przesunięcia (Integer ALU i Shift). Tak więc procesory Haswell mogą wykonać do ośmiu mikrooperacji na cykl zegara, podczas gdy w mikroarchitekturze Sandy Bridge maksymalna liczba mikrooperacji wykonywanych na cykl zegara wynosi sześć.

Ponadto w mikroarchitekturze Haswell same siłowniki są nieco zmienione. Wynika to z faktu, że w mikroarchitekturze Haswell pojawiły się dodatkowe zestawy instrukcji: AVX2, FMA3 i BMI.

Zestaw instrukcji AVX2 (Advanced Vector Instructions) jest rozszerzeniem zestawu instrukcji AVX, który jest obecny w mikroarchitekturze Sandy Bridge. Ogólnie zestaw instrukcji AVX jest logiczną kontynuacją zestawów instrukcji SSE, SSE2, SSE3 i SSE4. Do przetwarzania danych w instrukcjach AVX wykorzystuje się 16 rejestrów wektorowych o szerokości 256 bitów, co pozwala na wielokrotne przyspieszenie wielu operacji. Na przykład pomnożenie czterech liczb 64-bitowych za pomocą instrukcji AVX jest możliwe w zaledwie jednym cyklu zegara, natomiast bez instrukcji AVX zajęłoby to cztery cykle.

Główna różnica między nowym zestawem instrukcji AVX2 a poprzednią wersją AVX polega na tym, że jeśli wcześniejsze operacje 256-bitowe z rejestrami AVX były dostępne tylko dla operandów zmiennoprzecinkowych, a tylko operacje 128-bitowe były dostępne dla operandów całkowitych, to w AVX2 256 Operacje -bitowe stały się również dostępne dla operandów całkowitych. W rzeczywistości, używając AVX, można zaimplementować 16 operacji o pojedynczej precyzji i osiem operacji podwójnej precyzji w jednym cyklu zegara. W przypadku korzystania z AVX2 w jednym cyklu zegara można zrealizować 32 operacje o pojedynczej precyzji i 16 operacji o podwójnej precyzji.

Ponadto AVX2 wprowadza ulepszoną obsługę tłumaczeń i permutacji w operacjach wektorowych. Istnieją również nowe instrukcje używane do składania wielu (czterech lub ośmiu) niezwiązanych ze sobą elementów w jeden element wektorowy, umożliwiając pełniejsze załadowanie 256-bitowych rejestrów AVX.

Nowy zestaw instrukcji FMA3 (Fused Multiply Add) jest przeznaczony do wykonywania operacji łączonego mnożenia i dodawania na trzech operandach.

Korzystanie z operacji FMA3 umożliwia wydajniejsze wdrażanie dzielenia, ekstrakcji pierwiastka kwadratowego, mnożenia wektorów i macierzy itp. Zestaw FMA3 zawiera 36 instrukcji zmiennoprzecinkowych do wykonywania 256-bitowych obliczeń i 60 instrukcji dla wektorów 128-bitowych.

Zestaw instrukcji BMI (instrukcje manipulacji bitami) zawiera 15 skalarnych instrukcji bitowych, które działają na rejestrach całkowitych ogólnego przeznaczenia. Instrukcje te są podzielone na trzy grupy: manipulowanie pojedynczymi bitami, takie jak wstawianie, przesuwanie i wyodrębnianie bitów, zliczanie bitów, na przykład liczenie wiodących zer w liczbach oraz mnożenie liczb całkowitych z dowolną dokładnością. Ten zestaw instrukcji pozwala przyspieszyć szereg określonych operacji, na przykład podczas szyfrowania.

Podsystem pamięci w mikroarchitekturze Haswell

Jedna z najbardziej znaczących zmian w mikroarchitekturze Haswella w porównaniu z Sandy Bridge dotyczyła podsystemu pamięci. I nie chodzi tylko o to, że zwiększono rozmiar buforów odczytu (Load) i zapisu (Store), które służą do dostępu do pamięci (odpowiednio 72 i 42 rekordy). Najważniejsze jest to, że dodano jeszcze jeden port do zapisu adresu (adres sklepu), pamięć podręczna danych L1 stała się bardziej wydajna, a przepustowość między pamięcią podręczną L1 i L2 została zwiększona. Przyjrzyjmy się bliżej tym zmianom.

Dostęp do podsystemu pamięci zaczyna się od tego, że odpowiednie mikrooperacje wchodzą do buforów odczytu (ładowania) i zapisu (przechowywania), które łącznie mogą gromadzić ponad sto mikrooperacji. W mikroarchitekturze Sandy Bridge za dostęp do pamięci odpowiadały porty urządzeń funkcjonalnych, które na schematach oznaczono jako 2, 3 i 4 (rys. 4). Porty 2 i 3 są powiązane z jednostkami generowania adresów (AGU) do zapisu lub odczytu danych, a port 4 jest powiązany z jednostką funkcjonalną do zapisywania danych z rdzenia procesora do pamięci podręcznej danych L1 (DL1). Procedura generowania adresu zajmuje jeden lub dwa cykle procesora.

Postać: 4. Podsystem pamięci w mikroarchitekturach Sandy Bridge i Haswell

W mikroarchitekturze Haswell port 7 został dodany do portów 1, 2 i 3, który jest powiązany z funkcjonalnym urządzeniem do generowania adresu do zapisu danych (Store AGU). W rezultacie rdzeń Haswell może obsługiwać dwie operacje ładowania danych i jedną operację zapisu danych na cykl zegara.

Dedykowana funkcja generowania adresu do zapisu danych jest nieco prostsza w implementacji niż ogólne urządzenia z funkcją generowania adresu (do zapisu i pobierania danych). Chodzi o to, że mikrooperacja zapisu danych po prostu zapisuje adres (i ostatecznie same dane) do bufora magazynu. A mikrooper ładujący dane powinien zapisywać do bufora odczytu, a także śledzić zawartość bufora zapisu, aby wykluczyć ewentualne konflikty.

Po wygenerowaniu prawidłowego adresu wirtualnego rozpoczyna skanowanie pamięci podręcznej L1 DTLB, aby sprawdzić, czy ten adres wirtualny jest zgodny z adresem fizycznym. Sama pamięć podręczna danych L1 DTLB w mikroarchitekturze Haswell nie uległa zmianie. Obsługuje 64, 32 i 4 zapisy dla stron pamięci 4 KB, 2 MB i 1 GB i jest 4-kanałowy.

W przypadku braku pamięci podręcznej L1 DTLB rozpoczyna się skanowanie odpowiednich wpisów w ujednoliconej pamięci podręcznej L2 TLB, która zawiera kilka ulepszeń w mikroarchitekturze Haswell. Ta pamięć podręczna obsługuje strony 4 KB i 2 MB, jest 8-kanałowa i ma pojemność 1024 wpisów. A w mikroarchitekturze Sandy Bridge L2 TLB pamięć podręczna została zaprojektowana na 512 wpisów (czyli o połowę mniej), obsługiwała tylko 4 KB stron pamięci i była 4-kanałowa.

Sama pamięć podręczna danych L1 pozostała 32 KB i 8-kanałowa (jak w mikroarchitekturze Sandy Bridge). W takim przypadku dostęp do pamięci podręcznej TLB i sprawdzanie tagów pamięci podręcznej danych L1 może odbywać się równolegle.

Jednak w mikroarchitekturze Haswell pamięć podręczna danych L1 ma wyższą przepustowość. Obsługuje jeden 256-bitowy odczyt i dwa 256-bitowe zapisy w tym samym czasie, dla łącznej przepustowości 96 bajtów na zegar. W mikroarchitekturze Sandy Bridge pamięć podręczna danych L1 obsługuje jedną 128-bitową operację odczytu i dwie 128-bitowe operacje zapisu w tym samym czasie, to znaczy ma teoretyczną przepustowość dwukrotnie niższą. Jednocześnie rzeczywista przepustowość pamięci podręcznej danych L1 w mikroarchitekturze Sandy Bridge jest o ponad połowę mniejsza niż w mikroarchitekturze Haswell ze względu na fakt, że w Sandy Bridge znajdują się tylko dwie jednostki funkcjonalne AGU.

Ponadto mikroarchitektura Haswell zwiększyła również przepustowość między pamięcią podręczną L1 i L2. Tak więc, jeśli w Sandy Bridge przepustowość między pamięcią podręczną L2 i L1 wynosiła 32 bajty na cykl, to w Haswell została zwiększona do 64 bajtów na cykl. I podczas gdy pamięć podręczna L2 w Haswell ma takie samo opóźnienie jak w Sandy Bridge. Podsumowując, zauważamy, że podobnie jak w mikroarchitekturze Sandy Bridge, pamięć podręczna L2 firmy Haswell nie jest wyłączna i nie obejmuje pamięci podręcznej L1.

Nowe tryby oszczędzania energii w procesorze Haswell

Jedną z innowacji w procesorze Haswell jest nowy stan mocy, który pozwala zmniejszyć całkowite zużycie energii przez procesor, który nazywa się S0ix i jest zapożyczony z procesorów Intel Atom (takie tryby mocy zostały zaimplementowane w procesorach Moorestown).

Przypomnijmy, że tradycyjnie system może znajdować się w stanie aktywnym S0 (normalny tryb pracy) lub w jednym z czterech stanów „uśpienia” S1-S4.

W stanie S1 wszystkie pamięci podręczne procesora są opróżniane, a procesor przestał wykonywać instrukcje. Jednak zasilanie procesora i pamięci RAM jest utrzymywane, a urządzenia, które nie są oznaczone jako włączone, można wyłączyć. Stan S2 jest jeszcze głębszym stanem „uśpienia”, gdy procesor jest wyłączony.

Stan S3 (zwany również zawieszeniem do pamięci RAM (STR) lub gotowością) to stan, w którym pamięć o dostępie swobodnym (RAM) jest nadal zasilana i pozostaje praktycznie jedynym składnikiem zużywającym energię.

Stan S4 jest nazywany hibernacją. W tym stanie cała zawartość pamięci RAM jest przechowywana w pamięci nieulotnej (na przykład na dysku twardym lub dysku SSD).

Stany S0ix (S0i1, S0i2, S0i3, S0i4) są podobne do stanów S1, S2, S3 i S4 pod względem zużycia energii, ale różnią się od nich tym, że przejście systemu do stanu aktywnego S0 zajmuje znacznie mniej czasu. Na przykład przejście ze stanu S0 do stanu S0i3 wymaga 450 μs, a przejście odwrotne - 3,1 ms.

Rdzeń graficzny w mikroarchitekturze Haswell

Jedną z głównych innowacji w mikroarchitekturze Haswell jest nowy rdzeń graficzny obsługujący DirectX 11.1, OpenCL 1.2 i OpenGL 4.0.

Ale co najważniejsze, rdzeń graficzny mikroarchitektury Haswell jest skalowalny. Istnieją warianty rdzenia graficznego o nazwach kodowych GT3, GT2 i GT1 (Rysunek 5).

Postać: 5. Schemat blokowy rdzenia graficznego Haswell

Rdzeń GT1 będzie miał najniższą wydajność, a GT3 najwyższą.

Druga jednostka obliczeniowa pojawi się w rdzeniu graficznym GT3, podwajając w ten sposób liczbę jednostek rasteryzacyjnych, potoków pikseli, rdzeni obliczeniowych i próbników. Oczekuje się, że GT3 będzie dwukrotnie wydajniejszy niż GT2.

Rdzeń GT3 zawiera 40 jednostek wykonawczych, 160 rdzeni przetwarzających i cztery jednostki teksturujące. Dla porównania przypomnijmy, że rdzeń graficzny Intel HD Graphics 4000 w procesorach Ivy Bridge zawiera 16 jednostek wykonawczych, 64 rdzenie przetwarzające i dwie jednostki teksturujące. Dlatego pomimo w przybliżeniu tych samych częstotliwości zegara, rdzeń graficzny Intel GT3 przewyższa swojego poprzednika pod względem wydajności. Ponadto rdzeń GT3 ma lepszą wydajność dzięki integracji EDRAM (w rdzeniu GT3e) z pakietem procesora.

Rdzeń GT2 zawiera 20 jednostek wykonawczych, 80 rdzeni przetwarzających i dwie jednostki teksturujące, podczas gdy rdzeń GT1 zawiera tylko 10 jednostek wykonawczych, 40 rdzeni przetwarzających i jedną jednostkę teksturującą.

Same jednostki wykonawcze mają cztery rdzenie obliczeniowe, podobne do tych stosowanych w architekturze AMD VLIW4.

Kolejną innowacją jest to, że podczas pracy z pamięcią używana jest technologia Instant Access, która umożliwia rdzeniom przetwarzającym procesora i rdzenia graficznego bezpośredni dostęp do pamięci RAM. W poprzednie wersje rdzeń graficzny, rdzenie przetwarzające procesora i rdzeń graficzny również współpracowały ze współdzieloną pamięcią RAM, ale pamięć została podzielona na dwa obszary o dynamicznie zmienianych rozmiarach. Jeden z nich był zarezerwowany dla rdzenia graficznego, a drugi dla rdzeni przetwarzających procesora. Jednak rdzeń graficzny i rdzenie przetwarzające procesora nie mogły uzyskać jednoczesnego dostępu do tego samego obszaru pamięci. A jeśli GPU potrzebował tych samych danych, które były używane przez rdzeń obliczeniowy procesora, musiał skopiować ten fragment pamięci. Doprowadziło to do wzrostu opóźnień, a dodatkowo pojawił się problem ze śledzeniem spójności danych.

Technologia InstantAccess umożliwia sterownikowi jądra grafiki wskazanie miejsca w pamięci rdzenia graficznego, do którego rdzeń obliczeniowy procesora musi mieć bezpośredni dostęp. W takim przypadku rdzeń obliczeniowy procesora będzie pracował bezpośrednio z tym obszarem pamięci, bez tworzenia kopii, a po wykonaniu niezbędnych czynności obszar pamięci zostanie zwrócony do dyspozycji rdzenia graficznego.

Rodzina nowych rdzeni graficznych GT1, GT2 i GT3 ma ulepszone możliwości kodowania / dekodowania wideo. Obsługuje dekodowanie sprzętowe formatów H.264 / MPEG-4 AVC, VC-1, MPEG-2, MPEG-2 HD, Motion JPEG, DivX do 4096 × 2304 pikseli. Mówi się, że rdzeń graficzny jest w stanie jednocześnie dekodować wiele strumieni wideo 1080p i odtwarzać wideo 2160p bez zacinania się lub gubienia klatek.

Pojawił się również specjalny blok poprawiający jakość wideo, który nazywa się Video Quality Engine i odpowiada za redukcję szumów, korekcję kolorów, usuwanie przeplotu, adaptacyjną zmianę kontrastu itp. Ponadto nowe rdzenie graficzne będą obsługiwać stabilizację obrazu, konwersję szybkości klatek i rozszerzoną gamma.

Dodatkowo rdzeń graficzny w procesorze Haswell pozwala na podłączenie do trzech monitorów jednocześnie. Obsługuje Display Port 1.2 o rozdzielczości do 3840 × 2160 @ 60 Hz, HDMI o rozdzielczości do 4096 × 2304 @ 24 Hz (przy maksymalnej rozdzielczości), a także port DVI.

Linia procesorów Haswell

Mówienie o ofercie procesorów Haswell jest jeszcze przedwczesne. Oczywiście w Internecie można znaleźć różnorodne, a czasem sprzeczne informacje dotyczące planów Intela dotyczących wypuszczenia procesorów Haswell. Firma nie potwierdza jednak oficjalnie tych informacji, więc nie wiadomo, które modele procesorów zostaną ogłoszone jako pierwsze.

Wiadomo tylko na pewno, że procesory Haswell będą oficjalnie nazywane Intel Core czwartej generacji i będą tworzyły trzy serie: Core i7, Core i5 oraz Core i3. Podobnie jak poprzednie generacje procesorów Intela, modele procesorów Haswell są oznaczone czterocyfrową liczbą rozpoczynającą się od 4 (pierwsza cyfra oznacza numer generacji procesora).

Intel początkowo ogłosi procesory z serii Core i7 i Core i5 do komputerów stacjonarnych i laptopów, a słabsze i tańsze procesory z serii Core i3 pojawią się później.

Procesory do komputerów stacjonarnych będą miały rdzeń graficzny GT2, oficjalnie nazwany Intel HD Graphics 4600, ale to tylko plotki, więc możliwe jest, że rodzina komputerów stacjonarnych będzie zawierała model z rdzeniem graficznym GT3 (oficjalnie Intel HD Graphics 5200).

Mobilne wersje procesorów Haswell będą wyposażone w rdzeń graficzny GT3 (topowe modele) lub GT2.

Ponownie, zgodnie z plotkami, wszystkie wersje procesorów mobilnych będą czterordzeniowe z obsługą Hyper-Threading ( nadchodzi o rodzinie procesorów mobilnych Core i7). Procesory do komputerów stacjonarnych z rodzin Core i7 i Core i5 również będą w przeważającej mierze (z wyjątkiem jednego modelu z rodziny Core i5) czterordzeniowe, ale tylko topowe modele z rodziny Core i7 i dwurdzeniowy model z rodziny Core i5 będą obsługiwać technologię Hyper-Threading.

Wszystkie procesory z rodzin Core i5 oraz Core i7 będą obsługiwać technologię Turbo Boost.

Rozmiar pamięci podręcznej L3 dla rodzin procesorów Core i7 i Core i5 może wynosić 8, 6 i 4 MB, ale TDP tych procesorów waha się od 35 do 84 W.

Procesory do komputerów stacjonarnych mają gniazdo LGA 1150 i są kompatybilne tylko z płytami głównymi opartymi na nowych chipsetach Intel z serii 8.

Procesor Intel Core i7-4770

Jeśli nie mieliśmy oficjalnych informacji o całej gamie modeli procesorów Haswell i ich charakterystyce w momencie pisania tego tekstu, to wiedzieliśmy wszystko o procesorze Intel Core i7-4770, który mieliśmy do testowania. Ten procesor nie jest najwyższej klasy w rodzinie Intel Core i7 czwartej generacji i ustępuje tylko Intel Core i7-4770K, który różni się od niego tym, że ma w pełni odblokowany mnożnik i wyższą o 100 MHz podstawową częstotliwość taktowania. W przeciwnym razie te procesory są takie same.

Tak więc procesor Intel Core i7-4770 jest czterordzeniowy, obsługuje technologię Hyper-Threading, a jego podstawowa częstotliwość to 3,4 GHz. W tryb turbo Zwiększenie maksymalnej szybkości zegara może osiągnąć 3,9 GHz. Procesor jest wyposażony w 8 MB pamięci podręcznej L3 i rdzeń graficzny GT2 (oficjalnie nazywany Intel HD Graphics 4600), który działa z częstotliwością zegara 1,2 GHz. Kontroler pamięci w procesorze jak poprzednio jest dwukanałowy, a oficjalna maksymalna częstotliwość obsługiwanej pamięci DDR3 to 1600 MHz (można oczywiście użyć szybszej pamięci).

Ponownie, jak poprzednio, procesor Intel Core i7-4770 ma na pokładzie 16-liniowy kontroler PCI Express 3.0. I wreszcie, TDP tego procesora wynosi 84 W.

Dla porównania przypomnijmy, że poprzednia generacja Intel Core i7-3770 (nazwa kodowa Ivy Bridge) ma bardzo podobne cechy. Jest również czterordzeniowy, obsługuje technologię Hyper-Threading i ma 8 MB pamięci podręcznej L3. Bazowe taktowania tych procesorów są nieco inne: dla Intel Core i7-4770 jest to 3,4 GHz, a dla Intel Core i7-3770K - 3,5 GHz. Jednak w trybie Turbo Boost szybkości taktowania tych procesorów są takie same: jeśli załadowany jest jeden lub dwa rdzenie procesora, maksymalna częstotliwość taktowania może wynosić 3,9 GHz (pod warunkiem, że maksymalny pobór mocy i maksymalny prąd nie zostaną przekroczone). Jeśli załadowane są trzy rdzenie procesora, maksymalna prędkość zegara może wynosić 3,8 GHz, a gdy wszystkie cztery rdzenie są obciążone, może wynosić 3,7 GHz.

Rdzenie graficzne i oczywiście sama mikroarchitektura rdzeni obliczeniowych różnią się w tych procesorach. Teraz trochę szczegółów: procesor Intel Core i7-3770 ma TDP 77W, czyli mniej niż Intel Core i7-4770. No cóż, najwyraźniej wzrost rozmiaru buforów i ilości rejestrów, dodatkowe porty funkcjonalnych urządzeń i wzrost przepustowości pamięci procesora nie poszły na marne. Wszystko to doprowadziło do wzrostu zużycia energii przez procesor. Jednak można się z tym pogodzić, jeśli dzięki niewielkiemu wzrostowi zużycia energii zostanie osiągnięty odpowiedni wzrost wydajności procesora. Cóż, okaże się, czy tak jest naprawdę.

Wydajność w aplikacjach innych niż gry

Aby przetestować procesor Intel Core i7-4770, użyliśmy naszego narzędzia ComputerPress Benchmark Script v.12.0, szczegółowy opis które można znaleźć w marcowym numerze magazynu. Przypomnij sobie, że to narzędzie testowe jest oparte na następujących rzeczywistych aplikacjach:

  • Xilisoft Video Converter Ultimate 7.7.2;
  • Wondershare Video Converter Ultimate 6.0.3.2;
  • Movavi Video Converter 10.2.1;
  • Adobe Premier Pro CS 6.0;
  • Photodex ProShow Gold 5.0.3276;
  • Adobe Audition CS 6.0;
  • Adobe Photoshop CS 6.0;
  • ABBYY FineReader 11;
  • WinRAR 4.20;
  • WinZip 17.0.1

Czas wykonania zadań testowych jest używany jako wskaźnik wydajności.

Oczywiste jest, że sam czas wykonania zadań testowych nie pozwala nam jeszcze oszacować wydajności procesora. Takie wyniki mają znaczenie tylko w porównaniu z niektórymi wynikami traktowanymi jako odniesienie. Takie porównanie wyników pozwala oszacować, ile razy (lub o jaki procent) testowany procesor jest bardziej produktywny (a może mniej) niż referencyjny podczas wykonywania określonego zadania.

Porównaliśmy procesor Intel Core i7-4770 z procesorem Intel Core i7-3770. Aby zapewnić przejrzystość prezentacji wyników, obliczyliśmy również ogólny integralny wskaźnik wydajności procesora i integralne szacunki dla oddzielnych grup testów (konwersja wideo, tworzenie treści wideo, przetwarzanie dźwięku, przetwarzanie zdjęć cyfrowych, rozpoznawanie tekstu, archiwizacja danych i ich przywracanie).

Aby obliczyć zintegrowaną ocenę wydajności, wyniki testów procesora Intel Core i7-4770 zostały znormalizowane w stosunku do wyników procesora Intel Core i7-3770K. Znormalizowane wyniki testów podzielono na sześć grup logicznych (konwersja wideo, przetwarzanie audio, tworzenie treści wideo, cyfrowe przetwarzanie zdjęć, rozpoznawanie tekstu, archiwizacja danych i ich usuwanie), aw każdej grupie wynik całkowy obliczono jako średnią geometryczną znormalizowanych wyników. Dla ułatwienia prezentacji wyników uzyskaną wartość pomnożono przez 1000. Następnie obliczono średnią geometryczną otrzymanych wyników całkowych, będącą wynikowym wskaźnikiem całkowania. W przypadku procesora Intel Core i7-3770K zintegrowany wynik wydajności, a także zintegrowane wyniki dla każdej indywidualnej grupy testowej, wynoszą 1000 punktów.

Następująca konfiguracja komputera została użyta do przetestowania procesora Intel Core i7-3770K:

  • płyta główna - Gigabyte GA-Z77X-UD5H;
  • chipset płyta główna - Intel Z77 Express;
  • pamięć - DDR3-1600;
  • karta graficzna - procesor graficzny Intel HD 4000;
  • Procesor Intel Core i7-4770 został przetestowany na następującym stanowisku:
  • płyta główna - Intel DH87MC;
  • chipset płyty głównej - Intel H87 Express;
  • pamięć - DDR3-1600;
  • pojemność pamięci - 16 GB (dwa moduły GEIL po 8 GB każdy);
  • tryb pracy pamięci - dwukanałowy;
  • karta graficzna - procesor graficzny Intel HD 4600;
  • dysk - Intel SSD 520 (240 GB).

W obu przypadkach wykorzystano system operacyjny Microsoft Windows 8 Enterprise (64-bitowy).

Zauważ, że płyta główna Intel DH87MC, której użyliśmy do testowania procesora Intel Core i7-4770, jest próbką inżynierską. Intel zrezygnował z produkcji płyt głównych pod własną marką i teraz zajmuje się tylko projektami referencyjnymi, to znaczy produkuje płyty główne jako próbkę dla swoich partnerów. Dlatego płyta Intel DH87MC nigdy nie trafi do sprzedaży.

Zarówno Intel Core i7-3770K, jak i Intel Core i7-4770 są testowane z ustawienia BIOS domyślnie, to znaczy tryb Intel Turbo Boost był włączony, ale nie było podkręcania procesora.

Aby zapewnić wysoką dokładność wyników, wszystkie testy przeprowadzono pięciokrotnie.

Wyniki badań przedstawiono w tabeli. 1 i rys. 6.

Postać: 6. Integralne wyniki testowania procesorów przez narzędzie

ComputerPress Benchmark Script v.12.0

Jak widać, zintegrowana wydajność procesora Intel Core i7-4770 jest prawie 10% wyższa niż procesora Core i7-3770K, przy czym największy wzrost wydajności obserwuje się w aplikacjach takich jak Adobe Photoshop CS6 (15%) i Adobe Premier Pro CS 6.0 (18% ) oraz Photodex ProShow Gold 5.0.3276 (13%).

Należy pamiętać, że procesory Intel Core i7-4770 oraz Core i7-3770K pracują z tą samą częstotliwością taktowania, a obserwowana różnica w wydajności wynika wyłącznie ze zmian w mikroarchitekturze procesora Intel Core i7-4770. W zastosowaniach niezwiązanych z grami nowa mikroarchitektura procesora Haswell osiąga średni wzrost wydajności o 10%.

Wydajność w grach

Narzędzie ComputerPress Benchmark Script v.12.0 umożliwia ocenę wydajności procesora tylko podczas pracy z aplikacjami innymi niż gry, w których praktycznie nie wykorzystuje się możliwości zintegrowanego rdzenia graficznego.

Dlatego też oceniliśmy wydajność procesora graficznego Intel Core i7-4770 w grach 3D, korzystając z testów porównawczych 3DMark Professional i 3DMark 11 Advanced Edition.

Benchmark 3DMark Professional to nowy test porównawczy obsługujący platformy Windows i Android. Ten benchmark obejmuje trzy testy: Ice Storm, Cloud Gate i Fire Strike. Pierwsza z nich koncentruje się na urządzeniach mobilnych, takich jak smartfony, tablety czy netbooki, druga - na laptopach / ultrabookach i komputerach ogólnego przeznaczenia; a trzecia dotyczy wydajnych komputerów do gier z wydajną grafiką.

Wyniki testów procesorów z wykorzystaniem benchmarków 3DMark Professional i 3DMark 11 Advanced Edition przedstawiono w tabeli. 2 i 3 oraz rys. 7 i 8.

Postać: 7. Wyniki testów procesorów

Postać: 8. Wyniki testów procesorów

Jak widać z wyników testów porównawczych 3DMark Professional i 3DMark 11 Advanced Edition, rdzeń graficzny Intel HD 4600 (procesor Core i7-4770) rzeczywiście ma olepsza wydajność niż Intel HD 4000 (procesor Core i7-3770K). Jednak różnica w wydajności w tych testach nie jest dwukrotnie większa niż podaje Intel w materiałach prezentacyjnych, ale nieco mniej. Niemniej jednak postęp w wydajności podsystemu graficznego jest ewidentny.

Jednak jedno pytanie pozostało otwarte. Tak, wydajność grafiki w Core i7-4770 prawie się podwoiła w porównaniu z Core i7-3770K. Ale czy ta wydajność jest wystarczająca, aby komputer był odtwarzalny bez użycia oddzielnej karty graficznej? Jeśli spojrzysz na szczegółowe wyniki testów 3DMark Professional i 3DMark 11 Advanced Edition (wartość FPS w testach graficznych), możemy stwierdzić, że rdzeń graficzny Intel HD 4600 nie nadaje się do gier. Jednak testy porównawcze 3DMark Professional i 3DMark 11 Advanced Edition są nadal określonymi programami. Dlatego, aby udzielić obiektywnej odpowiedzi na to pytanie, przejdźmy do wyników testów procesora Core i7-4770 oraz w innych testach porównawczych gier. W tym przypadku nie ma potrzeby porównywania wyników testów rdzeni graficznych procesorów Core i7-4770 i Core i7-3770K, gdyż interesuje nas tylko bezwzględny wynik Core i7-4770 w FPS.

  • Do tego testu wykorzystaliśmy następujące testy porównawcze:
  • Unigine Heaven Benchmark 4.0;
  • Unigine Valley 1.0;
  • Bioshock Infinite (wbudowany test porównawczy);
  • Metro 2033 (wbudowany test porównawczy).

Testy przeprowadzono przy rozdzielczości ekranu 1920 × 1080 (niższa rozdzielczość jest po prostu nieistotna) oraz w dwóch trybach: maksymalna wydajność i maksymalna jakość. Te ekstremalne ustawienia definiują rodzaj rozwidlenia, poza którym FPS nie może już iść z żadnymi ustawieniami gry.

Ustawienia każdego wzorca dla trybów maksymalnej wydajności i jakości przedstawiono w tabeli. 4, tab. 5, tab. 6 i tab. 7, a wyniki badań na rys. dziewięć.

Rys 9. Wyniki testów procesora Intel Core i7-4770 w grach

i testy porównawcze gier

Wyniki testów pokazują, że nawet przy ustawieniu minimalnej jakości (maksymalnej wydajności) rdzeń graficzny wbudowany w procesor Intel Core i7-4770 nie pozwoli na granie w nowoczesne gry 3D. W żadnym z benchmarków, z których korzystamy, średnia wartość FPS nie wzrośnie powyżej 30 FPS, czego oczywiście nie można uznać za wynik zadowalający. Dlatego wniosek jest taki: rzeczywiście, nowy rdzeń graficzny Intel HD 4600 jest bardziej produktywny w porównaniu z rdzeniem Intel HD 4000, ale fakt ten nie oznacza, że \u200b\u200bzintegrowana grafika pozwoli ci obejść się bez oddzielnej karty graficznej. W przypadku komputera, na którym będą działać gry, zintegrowana grafika wyraźnie nie jest odpowiednia.

Wniosek

Podsumowując naszą recenzję procesora Intel Core i7-4770, podsumujmy.

W porównaniu z procesorem Intel Core i7-3770K, wydajność procesora Intel Core i7-4770 wzrosła o około 10% w zastosowaniach innych niż gry. Jednak mówiąc o wzroście wydajności procesorów Haswell, należy mieć na uwadze bardzo ważną okoliczność.

Jedną z głównych zalet procesorów Intel Core drugiej (Sandy Bridge) i trzeciej (Ivy Bridge) generacji było to, że były dobrze podkręcone, a koncepcja częstotliwości zegara bazowego była nieco wirtualna. Te procesory zostały podzielone na w pełni odblokowane (procesory serii K) i częściowo odblokowane (wszystkie inne procesory). Procesory z serii K można przetaktować, zmieniając współczynnik mnożenia (chociaż maksymalna wartość współczynnika mnożenia istnieje, jest dość wysoka).

W przypadku procesorów częściowo przetaktowanych mnożnik można ustawić o cztery stopnie wyżej niż maksymalna wartość w trybie Turbo Boost. Na przykład procesor Intel Core i7-3770 z podstawową częstotliwością taktowania 3,4 GHz można podkręcić do 4,3 GHz (FSF 43), ponieważ maksymalna prędkość taktowania tego procesora w trybie Turbo Boost wynosi 3,9 GHz (współczynnik FS 39 ).

Jednak w procesorach Haswell innych niż seria K takie częściowe podkręcanie jest w ogóle blokowane, co oznacza, że \u200b\u200bnie można ich przetaktować.

Wydawałoby się, że oprócz manipulowania mnożnikiem procesor można też podkręcić zwiększając częstotliwość magistrala systemowa... Formalnie rzeczywiście możesz. Ale, jak pokazuje praktyka, procesory Intel Core drugiej, trzeciej i czwartej generacji są prawie niemożliwe do podkręcenia poprzez zwiększenie częstotliwości magistrali systemowej. W szczególności nasze eksperymenty z procesorem Intel Core i7-4770 wykazały, że po zwiększeniu częstotliwości magistrali systemowej tylko o 3 MHz system przestał się uruchamiać.

Dlaczego Intel zablokował możliwość częściowego przetaktowania jest absolutnie niezrozumiałe. Najprawdopodobniej ten nieprzyjazny krok firmy wobec użytkowników i partnerów zaangażowanych w produkcję płyt głównych można uznać za kolejny błąd marketingowy firmy.

Niemożność podkręcenia procesorów Haswell spoza serii K prowadzi do następującego smutnego wniosku. Pod względem kosztów i wydajności bardziej opłaca się kupić częściowo odblokowany procesor Intel Core i7-3770 niż całkowicie zablokowany procesor Intel Core i7-4770. Przetaktowując go do 4,3 GHz (które może przetaktować bez problemów), uzyskasz lepszą wydajność w porównaniu z procesorem Intel Core i7-4770.

„Ci, którzy lubią ćwiczyć bez nauki, są jak sternik wchodzący na statek bez steru ani kompasu; nigdy nie jest pewien, gdzie płynie. Praktykę należy zawsze budować na dobrej teorii… ”(Leonardo da Vinci)

Artykuły na temat mikroarchitektury całkowicie nowych procesorów Intel, zwykle rozpoczynają się od odniesienia do modelu rozwoju firmy w 2007 roku. Jej istota polega na tym, że opracowywanie nowych konstrukcji procesorów i przenoszenie produkcji do bardziej zaawansowanych standardów technologicznych przebiega naprzemiennie. Poprzednia mikroarchitektura, Ivy Bridge, w tej klasyfikacji była „teak”, nowa, Haswell, jest „taka”. To znaczy w twarz HaswellTeoretycznie powinniśmy zobaczyć kardynalnie zaktualizowany procesor od wewnątrz, ale wyprodukowany przy użyciu znanej już technologii 22 nm z trójwymiarowymi tranzystorami.

Dlatego są tak wysokie oczekiwania co do nadchodzącej wersji Haswell. Rynek komputery osobiste jest w stagnacji. Zniknęła konkurencja między producentami procesorów x86 w segmencie wysokowydajnym, i komputery osobiste powoli tracą na znaczeniu pod naporem urządzeń mobilnych. Nawet pojawienie się systemu operacyjnego Windows 8 nie naprawiło tej sytuacji - nie tylko nie odwrócił dawnego zainteresowania komputerami osobistymi, co więcej, wywołał uporczywą wrogość wśród wielu zwolenników tradycyjnych formatów. A teraz wszyscy entuzjaści czekają na rewolucję Intela, licząc na jakościowy skok, który mimo wszystko obudzi zainteresowanie platformą x86, która straciła dawną dynamikę. Ktoś uważa, że \u200b\u200bklasyczne komputery stacjonarne i laptopy mogą znów stać się modnym trendem, inni oczekują, że pojawienie się nowej linii procesorów przynajmniej zmusi posiadaczy istniejących systemów do ich modernizacji. Innymi słowy, Haswell to prawie ostatnia nadzieja na ożywienie bliskiego im segmentu rynku w oczach miłośników wydajnych komputerów osobistych.

Wydaje się jednak, że Intel ma zupełnie inne zdanie w tej sprawie. Firma odczuwa również ochłodzenie zainteresowania produktywnymi komputerami osobistymi, ale biorąc pod uwagę obecną sytuację, nie planuje się rozgrzewać starych rynków, ale podbijać nowe. Cała linia ogólna podlega korekcie. Intel nie zamierza dalej aktywnie walczyć o honor tradycyjnych i znanych wielu systemom, ale zamiast tego chce zaangażować się w wprowadzanie zmian w architekturze x86 i istniejących produktach w celu dostosowania ich do tych klas urządzeń mobilnych, które są obecnie u szczytu popularności. Po części temu celowi służą fundamentalne przemiany, jakie zapoczątkowały się w gospodarce atomu: aktywna promocja procesorów tej klasy w smartfonach i tabletach, a także przygotowanie nowej mikroarchitektury Silvermont. Ale równolegle metamorfozy będą następować z linią procesorów Core, która zgodnie z planem twórców powinna stać się jeszcze bardziej mobilna. I Haswell - choć nie pierwszy, ale prawdopodobnie najważniejszy kamień milowy na tej drodze.


Wszystkie prezentacje i materiały prasowe na temat obiecujących procesorów na pierwszych stronach mówią nam, że Haswell koncentruje się przede wszystkim na ultrabookach i ultraprzenośnych konwertowalnych laptopach, które jednym ruchem ręki zamieniają się w tablety. I to doskonale odzwierciedla cel, przed którym stanęli twórcy nowej mikroarchitektury. Jeśli na etapie tworzenia mikroarchitektur Sandy Bridge i Ivy Bridge inżynierowie pracowali nad projektami procesorów o docelowym poborze mocy 35-45 W, podczas gdy pozostałe opcje uzyskano poprzez zmianę liczby rdzeni, częstotliwości i napięcia, to w przypadku Haswell wymagania dotyczące zużycia były jeszcze bardziej rygorystyczne. Intel uważa obecnie, że zakres 15 do 20 W jest najbardziej atrakcyjny. Tak więc Haswell jest wyraźną ultramobilną mikroarchitekturą, która pod względem wydajności jest o jeden krok wyżej niż Atom. Jeśli chodzi o modyfikacje pulpitu Haswell, jest to produkt uboczny firmy Intel. Oczywiście znacznie łatwiej jest wyjąć zwykły procesor z procesora ekonomicznego, niż wykonać tę konwersję w przeciwnym kierunku. Ale usunięcie ograniczeń dotyczących zużycia energii i rozpraszania ciepła nie oznacza wcale płynnego skalowania wydajności. Więc ile Haswell spełni oczekiwania w swoim wcieleniu na komputery stacjonarne, nie jest oczywistym pytaniem.

I tu należałoby przypomnieć sobie poprzedni cykl „so”, procesory z mikroarchitekturą Sandy Bridge. W porównaniu do swoich poprzedników generacji Westmere, byli w stanie zapewnić tylko około 15-procentowy wzrost wydajności w środowisku stacjonarnym, właśnie dlatego, że programiści zaczęli zwracać uwagę na stosunek wydajności do zużycia energii. Teraz rozmowa prowadzona jest w zupełnie innym języku: główne atuty Haswell, zdaniem producenta, to doskonała wydajność i całkowicie nowy poziom wydajności grafiki. Jeśli chodzi o wydajność obliczeniową, Intel z jakiegoś powodu nie skupia się na niej, co budzi wszelkiego rodzaju złe podejrzenia. Zaostrzyło się tylko, gdy spojrzysz na wstępne dane dotyczące wydajności pulpitu Haswell, które do tej pory wyciekły już do prasy.

Oczekiwanie na wydanie procesorów opartych na mikroarchitekturze Haswell nie trwa długo. Za kilka dni będziemy mogli udzielić szczegółowych odpowiedzi na wszelkie pytania. Jednak wcześniej należałoby zapoznać się z tą teorią - powinna stać się, choć nieprzyjemna, ale koniecznym antidotum na zbyt różowe złudzenia, które równie dobrze mogły powstać w bolesnym oczekiwaniu na coś nowego.

Mikroarchitektura Haswella: tak lub tak

Szczerze mówiąc, prolog jest przesadzony. Tak, mikroarchitekturę Haswell rzeczywiście można uznać na wiele sposobów za wysoce energooszczędną i została opracowana przede wszystkim z myślą o aplikacjach mobilnych. Jednak Intel nadal ma na uwadze, że model biznesowy firmy zakłada wykorzystanie jednego projektu w szerokiej gamie produktów, w tym podzespołach mobilnych, stacjonarnych i serwerowych. Oznacza to, że pod modną, \u200b\u200bniskoenergetyczną fasadą znajduje się solidna podstawa, dzięki której Haswell trafia do różnych nisz rynkowych. Innymi słowy, nowa mikroarchitektura nie straciła swojej wszechstronności. Manipulując liczbą rdzeni, wersjami silnika graficznego, docelowym poziomem zużycia energii, rozmiarem pamięci podręcznej i dodaniem jednego lub drugiego zestawu zewnętrznych interfejsów firmy Haswell można uzyskać procesory o różnym charakterze.


Jeśli jednak mówimy o samej mikroarchitekturze, to tak, innowacje mające na celu optymalizację reżimów cieplnych i energetycznych są na pierwszym miejscu. Nie ma tak wielu zmian, które mogą zwiększyć produktywność, a jeśli tak, to z wielkim trudem „tak” ciągną cykl rozwoju. Rzeczywiście, kiedy Intel wypuścił Nehalem lub Sandy Bridge, remont wpłynął nie tylko na wewnętrzne bloki rdzeni obliczeniowych, ale także na podstawową koncepcję konstrukcji procesora. Każde „tak” wydawało się czymś zasadniczo innym, a stopień innowacyjności zapierał dech w piersiach. Ale jeśli spojrzysz na uogólniony obwód Haswell, łatwo go pomylić z jego poprzednikiem, Ivy Bridge.


Wszystkie bloki funkcjonalne i zasady ich integracji w procesorze pozostały takie same. Haswell dziedziczy wszystkie udane technologie z przeszłości: tryb turbo, Hyper-Threading, magistralę pierścieniową, ale nie dodaje nic nowego do tego bagażu. Zmiany dotyczą tylko głębokości poszczególnych węzłów. Co więcej, ingerencja inżynieryjna w głębokie warstwy mikroarchitektury nie jest zbyt znacząca. Przenośnik wykonawczy nie zmienił się zbytnio, jego długość to takie same 14-19 stopni jak poprzednio. Przednia część otrzymała tylko kilka kosmetycznych poprawek, a wszystkie znaczące zmiany dotyczą tylko mechanizmu wykonywania instrukcji i obsługi nowych zestawów poleceń. Intel cytuje poprawę wydajności nawet o 20-30 procent, mówiąc o tym, czy Haswell jest potężniejszą mikroarchitekturą niż Ivy Bridge, ale należy pamiętać, że te szacunki obejmują zysk z zastosowania nowych instrukcji AVX2, dla których jest to długi i trudny etap wdrożenie jeszcze nie nastąpiło.

Ekonomia: wszystko dla niej

Ale kroki podjęte w celu poprawy wydajności konstrukcji procesora są więcej niż wystarczające. Lwia część wysiłków deweloperów została przeznaczona na zmniejszenie zużycia energii i, muszę powiedzieć, z punktu widzenia systemów mobilnych, wysiłki te nie poszły na marne. Oczekuje się, że systemy oparte na Haswell będą mogły działać na baterii około 50 procent dłużej niż porównywalne konfiguracje oparte na Ivy Bridge. Haswell wygrywa 2-3 razy z procesorami poprzedniej generacji! I w stanie gotowości do pracy oszczędzając połączenia sieciowe (połączony tryb gotowości) całkowite zużycie platformy spadło około 20 razy w porównaniu z systemami opartymi na Sandy Bridge.

Ten imponujący postęp nie jest zakorzeniony w prostym ulepszeniu procesu, który w rzeczywistości ma tylko ewolucyjne różnice w stosunku do procesu tranzystora 3D 22 nm używanego do produkcji Ivy Bridge. Co więcej, nie chodzi o banalne zwiększenie liczby stref kryształu procesora, które w przypadku braku aktywności można niezależnie odłączyć od szyny zasilającej. Oczywiście wszystko to wnosi pewien wkład w ekonomię Haswella, ale takie zmiany zachodzą z każdą nową generacją procesorów Intela, a jakościowy skok nastąpił dopiero teraz. Więc sekret sukcesu tkwi gdzie indziej.

Krótko mówiąc: nowe granice wydajności zostały osiągnięte dzięki zestawowi działań przeprowadzonych nie tyle z samym procesorem, ile z platformą i infrastrukturą jako całością.

Po pierwsze, ważną rolę odegrała ogólna integracja komponentów platformy: znaczna część obwodu przetwornika mocy migrowała do układu procesora, a do zastosowań ultramobilnych zaprojektowano specjalną wersję SoC procesora, zawierającą drugi kryształ na tym samym podłożu - zestaw logiki systemu.


Po drugie, Intel wykonał znaczną pracę z głównymi producentami kontrolerów, aby wskazać na potrzebę wysokiej jakości snu i obsługi głębokiego snu. Po drodze programiści liczą na to, że wreszcie producenci matryc wyświetlaczy będą wspierać funkcję Panel Self Refresh, która pozwala na zapisywanie obrazu na ekranie bez ciągłej aktualizacji z rdzenia graficznego.

Po trzecie, system operacyjny Windows 8 również grał w ręce, którego jądro jest znacznie bardziej gorliwe w obsłudze przerwań, starając się w jak największym stopniu unikać różnych transakcji, które budzą procesor lub urządzenia.

I wreszcie, po czwarte, Haswell ma nowy zestaw stanów uśpienia S0ix ACPI, podobnych pod względem poboru mocy do S3 / S4 (gdy wszystkie komponenty platformy są wysyłane do pasywnych z wyjątkiem pamięci systemowej), ale z czasem system jest w pełni sprawny dla kilka milisekund. Ponadto dodano nowe stany bezczynności procesora C7 i dalsze, które są osiągane przy widocznej sprawności systemu, ale w których napięcie zasilania można całkowicie usunąć z głównej części procesora.


Jednak wszystkie powyższe dotyczą przede wszystkim platform mobilnych i czasu ich pracy na baterii. Na komputerach stacjonarnych większość tych innowacji ma również miejsce, ale użytkownicy końcowi są prawie obojętni. To, co wpływa na nie najbardziej bezpośrednio, to pojawienie się nowych stref w procesorze Haswell, pracujących na różnych częstotliwościach. W Ivy Bridge istniały dwie takie strefy: rdzenie obliczeniowe (wraz z pamięcią podręczną i agentem systemowym) oraz rdzeń graficzny. Ale okazało się, że nie najlepszym rozwiązaniem z punktu widzenia wydajności, gdyż dostęp grafiki do danych w pamięci podręcznej L3 prowadził do wyjścia ze stanów energooszczędnych całego procesora. Dlatego w Haswell część Uncore, łącząca agenta systemowego i pamięć podręczną trzeciego poziomu, otrzymała własną niezależną częstotliwość.

I to nie jest pozytywna zmiana, ale żywa ilustracja priorytetów, do których inżynierowie Intela trzymali się przy opracowywaniu nowego projektu. Asynchroniczne działanie rdzeni Uncore i obliczeniowych prowadzi do tego, że pamięć podręczna trzeciego poziomu w Haswell ma większe opóźnienie niż w procesorach poprzedniej generacji. Innymi słowy, w celu poprawy wydajności Intel jest nawet gotowy do cofnięcia kroków podjętych wcześniej w celu zwiększenia wydajności.

Jednak wszystkie środki podjęte przez firmę Intel w celu zmniejszenia zużycia energii pozwalają firmie znacznie rozszerzyć gamę oferowanych energooszczędnych procesorów Core. W segmencie mobilnym spodziewana jest obszerna seria U, obejmująca około dwóch tuzinów, z charakterystycznym obliczonym wydzielaniem ciepła na poziomie około 15 watów. Ponadto spodziewamy się serii Y z odprowadzaniem ciepła na poziomie 6-7 W. Liczby te wydają się szczególnie imponujące, jeśli weźmiemy pod uwagę, że mówimy o odprowadzaniu ciepła przez zespół, który zawiera oprócz rdzenia procesora chip chipsetu.

Dla tych, którzy chcieli szybko

Mimo to, porwany pomysłami zmiany orientacji procesorów Core na ultramobilne konwertowalne laptopy i wydajne tablety, Intel nie zapomniał o nieznacznym dostosowaniu samego serca swoich procesorów. Chociaż rdzenie obliczeniowe Haswell są bardzo podobne do rdzeni Ivy Bridge, wciąż można znaleźć wiele ulepszeń. To prawda, że \u200b\u200bte ulepszenia wcale nie wynikały z dążenia do podniesienia czystej wydajności - liczby instrukcji przetwarzanych na cykl zegara. Powodem ich pojawienia się jest wprowadzenie do życia codziennego nowych instrukcji AVX2 oraz chęć zwiększenia wydajności technologii Hyper-Threading, co powinno zrekompensować brak możliwości wykorzystania czterech pełnych rdzeni w procesorach o małej mocy. Ale na szczęście wprowadzone innowacje mają również pozytywne skutki uboczne.

Przedni koniec przenośnika wykonawczego Haswell pozostaje w dużej mierze nietknięty. Nowa mikroarchitektura, podobnie jak jej poprzednicy, została wyostrzona do przetwarzania czterech instrukcji na cykl zegara. Blok pobierania instrukcji i dekoder mają dokładnie taką szerokość. Pamięć podręczna instrukcji pierwszego poziomu o objętości 32 KB, a także pamięć podręczna dekodowanych instrukcji dla półtora tysiąca mikrooperacji, wprowadzona do Ivy Bridge, również pozostała niezmieniona. Na tym etapie Haswell ma tylko dwie zalety w stosunku do poprzedniego projektu. Po pierwsze, ze względu na wzrost rozmiaru wszystkich buforów wewnętrznych, który występuje z każdym wydaniem nowej konstrukcji procesora, zwiększa się dokładność bloku predykcji rozgałęzień. Po drugie, kolejka już zdekodowanych instrukcji została wyraźnie zoptymalizowana pod kątem Hyper-Threading: została dynamicznie podzielona na dwa wątki.


Właściwie brak zmian w podstawowych algorytmach pobierania i dekodowania instrukcji jest wyraźną wskazówką, że nie warto liczyć na wzrost szybkości przetwarzania instrukcji w Haswell. Ta architektura nie może przetrawić więcej niż czterech (lub pięciu w przypadku udanej fuzji makrooperacji) poleceń x86. A jeśli wcześniej w cyklu rozwojowym Intel wprowadził innowacje, które mogłyby zwiększyć wydajność istniejących dekoderów, teraz tak nie jest.

Zauważalne zmiany w mikroarchitekturze Haswell są wykrywane przy przesuwaniu się głębiej wzdłuż przenośnika. Zatem wzrost wszystkich podstawowych buforów wpłynął nie tylko na przewidywanie gałęzi. Ważne jest, aby okno do wykonywania poleceń poza kolejnością zostało zwiększone. Osiąga to niewielką poprawę możliwości równoległego przetwarzania instrukcji jednego wątku, co ostatecznie pozwala na bardziej gęste obciążenie jednostek wykonawczych (których Haswell stał się nie tylko większy, ale zauważalnie większy).


W rzeczywistości, na tle wszystkich innych, raczej marnych ulepszeń podrobów mikroarchitektury, jest to prawdopodobnie główna zaleta nowej konstrukcji mikroprocesora. Jeśli w Ivy Bridge było tylko sześć portów egzekucyjnych, to w Haswell było ich osiem.


Zatem teoretycznie Haswell może przetwarzać do ośmiu mikrooperacji na zegar. Należy jednak zauważyć, że trzy porty są zarezerwowane dla operacji pamięciowych, to znaczy są przeznaczone do obsługi pomocniczych mikrooperacji, które powstają podczas deasemblacji instrukcji x86.

Dlatego niezwykle ważne jest posiadanie oddzielnego portu dla operacji na liczbach całkowitych i rozgałęzień. Oczywiście zakłada się, że z czasem liczba 256-bitowych instrukcji wykorzystywanych w programach będzie rosła i aby nie blokowały one działania najpopularniejszego kodu, jego wykonanie można teraz przypisać do niezależnego portu. To „oddzielenie” portów według typów operacji powinno mieć szczególnie silny pozytywny efekt, gdy jeden rdzeń wykonuje jednocześnie dwa heterogeniczne wątki z udziałem technologii Hyper-Threading. Oznacza to, że ponownie mamy do czynienia ze wzrostem jego skuteczności w Haswell.

Ponadto procesor ma teraz do dyspozycji łącznie cztery porty, zdolne do pracy z instrukcjami całkowitymi. Oznacza to, że najbardziej zwyczajny kod całkowity może przejść przez etap wykonania z taką samą szybkością, jak przez dekoder.

Jednak sądząc po ogólnym podejściu do projektowania nowej mikroarchitektury, Intel jako ostatni pomyślał o zwiększeniu liczby instrukcji przetwarzanych na cykl zegara. To, co zapewne bardziej martwiło deweloperów, to praca z nowymi zespołami z zestawu AVX2. Ten zestaw instrukcji zawiera 256-bitowe instrukcje SIMD do obsługi liczb całkowitych, rzadkich operacji pamięciowych oraz różnych permutacji i przesunięć elementów wektora. Jednak lwia część i najważniejsza część nowego zestawu instrukcji to zasadniczo nowe instrukcje zmiennoprzecinkowe FMA (Fused Multiply-Add), które w rzeczywistości obejmują jednocześnie parę operacji - mnożenie i dodawanie. Oczywiście ich wykonanie przy użyciu starych narzędzi spowodowałoby znaczne przestoje procesora, więc teraz są dla nich dwa oddzielne porty i dedykowane urządzenia wykonawcze. W rezultacie Haswell może wykonać dwie podwójne instrukcje FMA na cykl zegara.


Zatem teoretycznie Haswell w kodzie AVX2 może wykazywać dwukrotnie wyższą wydajność w świecie rzeczywistym niż procesory poprzednich generacji. Chociaż w rzeczywistości, jeśli porównamy szybkość wykonywania jednej instrukcji FMA i oddzielnych instrukcji mnożenia i dodawania, to realne przyspieszenie będzie na poziomie 60 procent, co oczywiście jest również bardzo dobre.

W pewnym stopniu wprowadzenie szybkiego wykonywania poleceń FMA jest odpowiedzią Intela na rosnącą popularność obliczeń na GPU. Zestaw AVX2 i dostępny sprzęt do jego przetwarzania sprawiają, że Haswell jest doskonałą łamaczem liczb, a same te instrukcje doskonale pasują do popularnych algorytmów obliczeniowych stosowanych zarówno w dziedzinach naukowych, jak i podczas przetwarzania różnych treści multimedialnych.

W rezultacie procesory Haswell mogą być nadal znacznie wydajniejsze niż ich poprzednicy. Ale nie przez szybsze wykonanie starego kodu, ale przez dostarczenie narzędzi do lepszego implementowania starych algorytmów poprzez nowy system instrukcji. To oczywiście wymaga pewnego wysiłku ze strony społeczności programistów, ale nie prowadzi to do dodatkowych kosztów dla procesora energii elektrycznej, co idealnie wpisuje się w ogólną linię, do której obecnie przylega Intel.

Chęć, aby procesor działał z instrukcjami AVX2 tak płynnie, jak to tylko możliwe, skłonił programistów Haswell do rozważenia zwiększenia szybkości pamięci podręcznej. Nowe polecenia mają przetwarzać dane dwukrotnie szybciej niż wcześniej. Dlatego, aby zachować równowagę w nowej mikroarchitekturze, symetrycznie zwiększono przepustowość pamięci podręcznej pierwszego i drugiego poziomu. Podkreślamy, że mówimy o zwiększeniu przepustowości pamięci podręcznej L1 i L2, podczas gdy opóźnienie pamięci podręcznej pozostaje na tym samym poziomie co poprzednio.


W rezultacie pamięć podręczna pierwszego poziomu stała się zdolna do przetwarzania dwóch 32-bajtowych odczytów i jednego 32-bajtowego zapisu na cykl. Pamięć podręczna drugiego poziomu może odbierać i wysyłać 64 bajty danych na zegar. W obu przypadkach następuje dwukrotny wzrost przepustowości w porównaniu z mikroarchitekturami procesorów poprzednich generacji. Ponadto Haswell w końcu zdołał wyeliminować wszystkie dodatkowe opóźnienia związane z dostępem do niewyrównanych danych w pamięci podręcznej L1.

Niestety, ulepszenia ominęły pamięć podręczną L3, która teraz działa na własnej częstotliwości asynchronicznie z rdzeniami obliczeniowymi. I chociaż jego częstotliwość jest zbliżona do częstotliwości głównej części procesora, asynchronia powoduje wzrost opóźnienia. Nie było rekompensaty w postaci wzrostu przepustowości. Wbudowana magistrala pierścieniowa w Haswell została przeniesiona z Ivy Bridge bez żadnych zmian, więc nie można pobrać więcej niż 32 bajty danych na cykl z pamięci podręcznej L3, jeśli chcesz.

Podsumowując, zauważamy, że chociaż Haswell jest podobny do Ivy Bridge pod względem mikroarchitektury rdzeni obliczeniowych, wciąż istnieją ulepszenia, które mogą zwiększyć jego szybkość działania na zwykłym kodzie. W rzeczywistości przeprowadzono poważne przywrócenie równowagi między wszystkimi etapami rurociągu, co doprowadziło do tego, że chociaż prędkość pobierania i dekodowania instrukcji pozostała praktycznie taka sama, wykonanie tych instrukcji może być teraz zauważalnie szybsze i z większym stopniem równoległości. Ale to, czy wpłynie to na rzeczywistą wydajność Haswell, zależy od tego, czy było to faktycznie wykonanie, a nie dekodowanie, co było wąskim gardłem w poprzednich wersjach mikroarchitektury Core.

Zintegrowana grafika: osiągnięcie poziomu GeForce GT 650M

Niemniej jednak, aby doświadczyć zwiększonej mocy Haswell ze 100% prawdopodobieństwem, nie jest wcale konieczne przepisywanie istniejących programów na AVX2. Faktem jest, że w tym procesorze znajduje się ważna część, która zajmuje około 30 procent powierzchni matrycy, nad którą inżynierowie Intela bardzo ciężko pracowali. To jest zintegrowany rdzeń graficzny. Mając na uwadze prymat aplikacji mobilnych swoich procesorów, Intel od kilku lat konsekwentnie udoskonala osadzoną w nich grafikę i stara się, aby jego własny akcelerator wyglądał nie gorzej niż rozwiązania innych programistów, w tym świadomie zajmujących się rozwiązaniami graficznymi. W Ivy Bridge widzieliśmy już prawie dwukrotny wzrost wydajności grafiki w porównaniu z procesorami poprzedniej generacji, wraz z wprowadzeniem obsługi wszystkich nowoczesnych interfejsów API. Mikroarchitektura Haswell obiecuje około dwukrotne zwiększenie szybkości rdzenia graficznego.


Plany twórców, jak widać, były imponujące, ale jednocześnie, podobnie jak w przypadku rdzeni obliczeniowych, w tym przypadku Intel potrafił się obejść bez wprowadzania głębokich zmian architektonicznych. Struktura rdzenia graficznego pozostaje taka sama, a wzrost produktywności zapewnia w czystej postaci szeroko zakrojone metody. Intel obiecuje nową architekturę akceleratora wideo dopiero w 2014 roku - w następnej generacji procesorów o nazwie kodowej Broadwell. W rezultacie, podobnie jak rdzenie obliczeniowe, rdzeń graficzny Haswell budzi myśl, że „tak” i nowy procesor okazał się niezbyt wiarygodny. Nie umniejsza to jednak osiągniętego wzrostu wydajności, który z pewnością zasługuje na bardziej szczegółowe zapoznanie się z jego źródłami. Ponadto w nowym generacji Intel Grafika HD znalazła miejsce w bardzo ciekawych rozwiązaniach inżynierskich.


Poza pewnymi optymalizacjami potoku graficznego mającymi na celu przeniesienie części obciążenia ze sterownika na jednostki sprzętowe i zwiększenie wydajności większości wyspecjalizowanych jednostek funkcjonalnych, które wykonują operacje przygotowawcze w potoku renderowania 3D, nowy rdzeń graficzny jest bardzo podobny do rdzenia z procesorów poprzedniej generacji z dodatkowym wsparciem DirectX 11.1. Główną zaletą nowej konstrukcji jest obecność znacznie większej liczby uniwersalnych siłowników. Jeśli maksymalna wersja grafiki Ivy Bridge miała 16 jednostek wykonawczych (w tym 4 ALU każda), to liczba jednostek wykonawczych w rdzeniu graficznym Haswell może osiągnąć 40 sztuk.

Jednak w tym samym czasie Intel zdecydował się na bardziej wyraźną segmentację i na podstawie jednego projektu stworzył kilka opcji graficznych: GT1, GT2, GT3 i GT3e. Podstawowa wersja to GT2 z 20 siłownikami. Jest przeznaczony dla większości modeli procesorów do komputerów stacjonarnych i oferuje o 4 więcej urządzeń niż starsza grafika procesora Ivy Bridge. Jednak jego okrojona wersja, GT1, ma tylko 6 jednostek wykonawczych i niewiele różni się od grafiki już obecnej w istniejących procesorach Pentium i Celeron. Maksymalny wariant GT3, który ma 40 siłowników, to GT2 z podwójnym zespołem wykonawczym. Ta ulepszona wersja akceleratora wideo jest przeznaczona dla większości mobilnych wariantów Haswell, w tym głównie procesorów do ultrabooków. Dwuipółkrotny wzrost liczby jednostek wykonawczych powinien, zgodnie z planem twórców, zapewnić dwukrotny wzrost wydajności grafiki. Jednak tak potężna wersja silnika wideo, GT3, nie trafi na komputery stacjonarne. Oznacza to, że zintegrowana grafika Intel do komputerów stacjonarnych nie będzie miała wielokrotnego wzrostu wydajności, ale tylko o około 30 procent.


Co ciekawe, w rzeczywistości kryształ półprzewodnikowy Haswell będzie miał jeden lub dwa siłowniki więcej niż przewidywano. Dodatkowe urządzenia pełnią rolę zapasowych, są potrzebne do wymiany niedziałających bloków i zmniejszenia liczby wadliwych procesorów.

Wzrost mocy klastra wykonawczego rdzenia graficznego sprawił, że projektanci zaczęli myśleć o tym, by nie stać się wąskim gardłem na etapie mapowania tekstur. Dlatego prędkość jednostki tekstur w Haswell została symetrycznie zwiększona. Intel obiecuje czterokrotnie większą prędkość teksturowania w porównaniu z grafiką Ivy Bridge, co jest sporym wzrostem, jeśli weźmie się pod uwagę zwiększoną moc pozostałej części silnika.

Jednak pomimo wszystkich podjętych środków, nawet wydajność GT3 wydawała się Intelowi niewystarczająca, aby przyciągnąć najbardziej wymagających użytkowników do strony własnych zintegrowanych rdzeni. Dlatego Intel stworzył wyspecjalizowaną, płatną modyfikację GT3e dla wydajnych mobilnych systemów do gier. W procesorach z takim rdzeniem, które będą stanowić osobną mobilną serię H, zintegrowany rdzeń graficzny GT3 zostanie uzupełniony o szybką pamięć eDRAM o pojemności 128 MB i 512-bitową magistralę. Chodzi o to, że niewystarczająca przepustowość pamięci systemowej narzuca znaczne ograniczenia prędkości wbudowanych rdzeni wideo, które w takich przypadkach pełnią również rolę pamięci wideo. eDRAM zostanie zainstalowany na jednym podłożu z rdzeń procesora i działają jako pamięć podręczna L4, zapewniając przepustowość około 64 GB / s. Nie ma jednak dedykowanego interfejsu między rdzeniem graficznym a pamięcią eDRAM, więc taka pamięć podręczna L4 będzie buforować wszystkie dostępy do pamięci, a nie tylko te inicjowane przez rdzeń graficzny. Niemniej jednak Intel oczekuje, że ten konkretny dodatek będzie w stanie przynieść Haswell pod względem wydajności graficznej na równi z NVIDIA GeForce GT 650M.


Należy jednak rozumieć, że dodanie dodatkowego kryształu eDRAM do kryształu procesora znacznie zwiększa zużycie energii i koszt procesora, dlatego procesor z GT3e ma być używany wyłącznie w wysokowydajnych laptopach do gier, w których nie mówi się o wydajności, zwartości i budżecie. Oznacza to, że AMD ze swoimi APU generacji Richland nie odczuje jeszcze dużej presji ze strony konkurenta. Dotyczy to zwłaszcza środowiska stacjonarnego: Intel nie uważa za konieczne oferowania szerokiej gamy procesorów z wydajnymi rdzeniami graficznymi dla tego segmentu rynku.

Jednak nawet użytkownicy komputerów stacjonarnych docenią inne zalety silnika graficznego nowej generacji, takie jak ulepszona łączność z monitorem. Haswell obsługuje do trzech niezależnych wyświetlaczy, a wszystkie trzy połączenia mogą być cyfrowe. Dzięki wprowadzeniu kompatybilności z najnowszymi wersjami interfejsów HDMI i DisplayPort, maksymalne obsługiwane rozdzielczości osiągnęły 4Kx2K.

Jedno z ulubionych dzieł Intela - sprzętowy koder wideo Quick Sync wbudowany w rdzeń graficzny - nie pozostał bez ulepszeń. Twórcy uważają to za jeden ze sposobów na zmniejszenie zużycia energii przez procesory, ponieważ Quick Sync pozwala uwolnić rdzenie obliczeniowe od energochłonnych i bardzo powszechnych zadań kodowania i dekodowania wideo, przenosząc ich wykonanie do wyspecjalizowanego i ekonomicznego węzła. Dlatego wraz z każdą nową wersją konstrukcji procesora wydajność Quick Sync rośnie, a liczba formatów obsługiwanych przez tę technologię rośnie. Tak więc Haswell, oprócz już opanowanych formatów, będzie mógł pracować z SVC (Scalable Video Coding - pochodna AVC H.264) na poziomie sprzętowym, dekodować MJPEG (motion JPEG) i kodować wideo w formacie MPEG2. Jednocześnie zapewniona zostanie pełna kompatybilność kodowania i dekodowania z wideo w coraz bardziej popularnej rozdzielczości 4K (4096x2304, 4096x2160 i 3840x2160).

Wydajność netto kodera Quick Sync również uległa poprawie. A teraz ma nie tylko dużą przepustowość, ale także małe opóźnienia, co otwiera drogę do kodowania sprzętowego w telekonferencjach. Szybkość kodowania w Haswell jest zauważalnie wyższa niż w Ivy Bridge, ale w różne wersje rdzenia graficznego, różni się i czasami. Jednak jakość wideo uzyskanego przy kodowaniu sprzętowym poprawiła się przy wszelkich modyfikacjach grafiki. Zaktualizowana technologia Quick Sync powinna zapewniać najwyższej jakości zakodowany obraz niż Ivy Bridge, nawet przy tej samej przepływności.

Wniosek

Oczywiście nowa mikroarchitektura Haswell może budzić zarówno nadzieje na świetlaną przyszłość, jak i rozczarowanie osiągniętym poziomem postępu. Wszystko zależy od tego, na co liczysz. Niestety schemat „tik-tak” Intela w niewidoczny sposób prowadzi do przeszacowania oczekiwań, ponieważ Haswell należy do cyklu rozwojowego „tak”, to znaczy należy go postrzegać jako nową generację mikroarchitektury. Ale nie dokonano w nim wielu fundamentalnych i rewolucyjnych ulepszeń. Nie mówimy o kardynalnym przeprojektowaniu konstrukcji procesora, a jedynie o zestawie ulepszeń i ulepszeń. Oczywiście tych ulepszeń jest wiele, a nawet możemy mówić o przejściu od ilości do jakości. Tak czy inaczej, Intel faktycznie wymusił istniejącą mikroarchitekturę Ivy Bridge i nie zaoferował czegoś zasadniczo nowego. Ponadto główny nacisk podczas przeprowadzanego przetwarzania nie był położony na znalezienie sposobów na zwiększenie wydajności obliczeniowej, ale na poprawę efektywności energetycznej i rozwijanie możliwości graficznych.

Z punktu widzenia tradycyjnego paradygmatu procesora, mikroarchitektura Haswell oferuje jedynie obsługę nowego zestawu instrukcji AVX2, lepszą równoległość na poziomie wykonywania instrukcji oraz zwiększoną przepustowość pamięci podręcznej pierwszego i drugiego poziomu. Czy te zmiany wystarczą, aby sprostać oczekiwaniom entuzjastów klasycznych komputerów PC? Ledwie. Dlatego większość entuzjastów, widząc tylko niewielki wzrost szybkości obliczeniowej, prawdopodobnie rzędu 5-15 procent, prawdopodobnie będzie niezadowolonych z nowych procesorów. A to oznacza, że \u200b\u200bpo premierze nowej rodziny procesorów nie należy spodziewać się wzrostu zainteresowania znanymi komputerami stacjonarnymi i laptopami.

Ale mimo wszystko Intel może być dumny z wykonanej pracy. Firma rozwiązała postawione przed sobą zadanie. Konstrukcja Haswella okazała się na tyle energooszczędna i wyważona, że \u200b\u200bprocesory te niewątpliwie będą w stanie zająć należne im miejsce w smacznym dla producenta podtypie urządzeń mobilnych - produktywnych tabletach i konwertowalnych laptopach. Firma nie omija teraz boomu na tym rynku: w odpowiedzi na wtargnięcie kohorty zwolenników architektury ARM, a także nowych APU AMD, Intel ma teraz dobrą bazę domową. W końcu mikroarchitektura Haswell pozwala na tworzenie modyfikacji projektowych, które mają wskaźniki zużycia energii wyrażone w postaci pojedynczych cyfr, a jednocześnie reprezentują zespoły SoC, które zawierają nie tylko procesor, ale także zestaw logiki systemu.

Nie kładziemy jeszcze na to ostatniej uwagi. Ten materiał otwiera tylko serię artykułów o procesorach z nową mikroarchitekturą. W najbliższej przyszłości będziemy mogli bardziej szczegółowo zapoznać się z rzeczywistymi procesorami w rękach zarówno z komputerowymi, jak i mobilnymi wcieleniami mikroarchitektury Haswell. I wtedyByć może nasze wnioski wyciągnięte jedynie na podstawie znajomości dokumentacji nieco się zmienią. I naprawdę chcę w to wierzyć ...

DZWON

Są tacy, którzy czytają tę wiadomość przed tobą.
Zapisz się, aby otrzymywać najnowsze artykuły.
E-mail
Imię
Nazwisko
Jak chcesz przeczytać The Bell
Bez spamu