LA CAMPANA

C'è chi ha letto questa notizia prima di te.
Iscriviti per ricevere gli ultimi articoli.
E-mail
Nome
Cognome
Come vuoi leggere The Bell
Niente spam

Il tipo di microarchitettura del processore gioca uno dei ruoli chiave nelle prestazioni di un laptop o PC, perché la velocità di campionamento e decodifica dei dati e delle istruzioni che entrano nel processore dipende dalla microarchitettura, quindi dalla loro esecuzione e scrittura su RAM.

Confronto di microarchitetture di processori Haswell, Broadwell e Skylake di Intel

Al momento, le microarchitetture di tre generazioni di Intel sono considerate rilevanti e in competizione tra loro. È il core Haswell di quarta generazione, Broadwell di quinta generazione e l'ultima microarchitettura Skylake di sesta generazione. Come sapete, la creazione di queste microarchitetture si basa su una vasta strategia chiamata "Tick-tock". Tick \u200b\u200bsignifica la creazione di una nuova generazione di processori basati su un processo tecnologico ridotto. "Così" implica anche il rilascio di nuovi microprocessori, ma senza cambiare la tecnologia della creazione. L'articolo effettuerà un'analisi comparativa di essi e, sulla base, verrà fatta una conclusione sul nucleo più produttivo.

Haswell

- microarchitettura, sviluppata nel 2012 utilizzando la tecnologia a 22 nm. Supporta prese: LGA 1150, BGA 1364, LGA 2011-3. Funziona con la barra RAM DDR4. Autobus: DMI2.

Pro di un processore con questa microarchitettura:

1) Efficienza energetica

2) Supporta DDR4

3) Basso costo. Ad esempio, il prezzo per Intel Core I3 4160 con core Haswell è di 7800 rubli.

1) Prodotto utilizzando una tecnologia obsoleta a 22 nm, a causa della quale perde per molti aspetti la sua versione migliorata di Broadwell.

Broadwell

- Una versione aggiornata di Haswell, progettata per i processori della serie Intel Xeon e per Intel Core I7 di settima generazione. Prodotto utilizzando la tecnologia a 14 nm. Appartiene al ramo "tick" della missione di marketing "tick-tock". Rispetto ad Haswell, ha un'efficienza del 3-5% in più rispetto a Haswell, mentre consuma energia del 30%, anche molto meno dissipazione del calore in un PC, 4,5 W contro 15 Haswell. Tutto ciò è spiegato, prima di tutto, dal ridotto processo tecnologico con cui è stato prodotto il core, dalla possibilità di overcloccare un processore con questa microarchitettura, nonché dalla presenza di 4 cache Crystalwell, che danno un tasso di cambio con la RAM più elevato rispetto alle sole 3 cache.

Vantaggi principali:

1) Consumo energetico efficiente

2) Capacità di overclock

3) Supporto DirectX 12

4) Fu in questa microarchitettura che si diffuse la cache L4, fino ad ora utilizzata solo in un raro numero di microprocessori Haswell

5) Maggiore durata della batteria rispetto a Haswell

1) Costo (il prezzo varia tra 13-150000 a seconda del modello di processore, perché questa microarchitettura è destinata alle pietre della serie Xeon e Core I7 di Intel, mentre il microprocessore Haswell funziona anche su pietre economiche)

2) Rapporto qualità-prezzo. Nei test, la microarchitettura ha mostrato risultati bassi, davanti a Haswell di circa il 3%, anche in 3D Mark (Core I7-6850K su Broadwell-E: 19065 punti, Core I7-5820 su Haswell-E - 16598 punti). Se lo consideriamo in relazione al confronto tra Ivy Bridge e Haswell, il risultato non è impressionante.

Analisi comparativa delle prestazioni di Broadwell e Haswell

Skylake

- microarchitettura di 6a generazione, destinata, come Haswell, principalmente a processori a basso consumo energetico come ULV. È stato sviluppato secondo la strategia "tick-tock" e interessa il ramo "tock". Cioè, il nucleo è stato realizzato senza modificare il processo tecnologico, ma con un cambiamento radicale nella microarchitettura rispetto a Broadwell.

Il microprocessore funziona su una nuova presa ad alte prestazioni LGA 1151, supporta DDR4 e inoltre, a differenza di LGA 1150, funziona con USB 3.0, ha un nuovo bus DMI3 molto più potente e una maggiore efficienza energetica rispetto al suo predecessore.

1) Supporto per il nuovo socket LGA 1151, più produttivo rispetto al socket LGA 1150 - Broadwell

2) Supporto USB 3.0

3) Possibilità di overcloccare la GPU su un nuovo socket

4) Supporto DDR4 e ottimizzazione del lavoro con questa barra RAM

5) Migliore efficienza energetica rispetto a Broadwell

6) Uno dei principali vantaggi è il supporto per il nuovo bus DMI 3, che offre una velocità 2 volte superiore a DMI 2, su cui lavorano Broadwell e Haswell. Questo vantaggio è particolarmente evidente nell'esempio di un programma come Sony Vegas, dove le prestazioni di Skylake sono quasi 1,5 volte superiori.

7) Costo (per i modelli economici Intel Core I3, il prezzo medio è di 3000-7000 rubli)

Per quanto riguarda Broadwell e Skylake, solo vantaggi, rispetto alla settima generazione di Kaby Lake: l'ultima microarchitettura, che è dotata di un piccolo numero di processori, offre prestazioni leggermente inferiori.

Riassumendo:

Se prendiamo tutti gli indicatori, incluso il costo delle microarchitetture, la valutazione compilata dall'autore sarà la seguente:

1 ° posto: Skylake

2 ° posto: Haswell (questa microarchitettura, come hanno dimostrato i test, sebbene sia più vecchia e meno efficiente dal punto di vista energetico, ma è in ritardo rispetto a Broadwell del 2-3% in termini di prestazioni, mentre ha un costo inferiore)

3 ° posto: Broadwell

Produzione:

Nonostante i vari espedienti di marketing a cui Intel Corporation aderisce, mostra ancora un certo risultato e almeno leggermente, ma migliora le prestazioni e la velocità dei suoi processori ad ogni generazione. Quindi, chissà, forse entro il 2030 inizierà a produrre i primi processori quantistici che saranno un milione di volte migliori di quelli attuali, ma questa è un'altra storia.

INTRODUZIONE Accade così che ogni anno Intel aggiorni la microarchitettura dei suoi processori destinati all'uso nei comuni personal computer. Questo programma è diventato così familiare che è dato per scontato. Sandy Bridge è stato rilasciato all'inizio del 2011, Ivу Bridge è apparso nell'aprile 2012 e le versioni attuali di Haswell sono state svelate il 4 giugno dello scorso anno. Tenendo conto della routine attuale, il mercato sta già aspettando con potenza e principale i processori di nuova generazione: Broadwell. Tuttavia, le cose non hanno funzionato molto bene con loro. L'introduzione di una nuova tecnologia di processo a 14 nm, che Intel dovrebbe utilizzare per produrre Broadwell, ha incontrato difficoltà di produzione. Pertanto, il piano originale, che prevedeva una nuova generazione di design del processore a metà di quest'anno, doveva essere rivisto. Secondo i dati attualmente disponibili, l'annuncio di opzioni Broadwell mobili ad alta efficienza energetica avverrà a Capodanno e processori basati su questo design per desktop tradizionali e computer portatili sarà disponibile solo il prossimo anno.

In questa situazione, Intel ha deciso in qualche modo di rallegrare l'attesa prolungata non pianificata per nuovi prodotti e ha ideato una campagna, nome in codice Haswell Refresh. La sua essenza sta nel fatto che invece di rilasciare nuovi processori Broadwell, l'azienda offre modelli migliorati di quelli vecchi, le cui prestazioni sono migliorate non da una nuova microarchitettura, ma da frequenze di clock aumentate. L'annuncio ufficiale delle CPU incluse nel set Haswell Refresh era previsto per l'11 maggio ed è già avvenuto. Ci sono 42 nuovi articoli nel listino prezzi di Intel, 24 dei quali sono destinati a sistemi desktop di varie classi. In questa recensione, faremo conoscenza con quelli degli Haswell aggiornati, che sono destinati ai normali desktop e appartengono alle famiglie Core i7, Core i5 e Core i3.

Ulteriori informazioni su Haswell Refresh per desktop

Quindi, quando si parla di Haswell Refresh, Intel in realtà significa semplicemente aumentare le frequenze dei suoi processori LGA 1150 Haswell. Non c'è niente di insolito nel rilascio di prodotti così aggiornati: l'azienda ha gradualmente aumentato le frequenze dei suoi processori tra gli annunci di nuove microarchitetture e prima, era solo che tali eventi erano sparsi prima e così tanta attenzione non è stata prestata a loro. Una caratteristica distintiva di Haswell Refresh è che l'aumento delle frequenze non si verifica nei singoli modelli, ma nell'intera linea nel suo insieme, dall'alto verso il basso.

Inoltre, tanta attenzione viene prestata a Haswell Refresh non a causa della loro novità o di un notevole aumento della produttività. Tutto il clamore è artificioso, viene volutamente generato dalla stessa Intel, cercando di creare l'impressione di innovazione incessante, nonostante il rinvio dell'annuncio di Broadwell a una data successiva. In altre parole, il rilascio di Haswell Refresh è un aggiornamento abbastanza ordinario, ei nuovi processori differiscono da quelli vecchi che sono stati sul mercato per quasi un anno Haswell, solo per la frequenza aumentata di un ridicolo 100 MHz. Cioè, stiamo parlando di un aumento insignificante della produttività, pari a circa il 2-3 percento, e niente di più.

Fortunatamente, gli acquirenti non devono pagare nulla per questo piccolo aumento delle prestazioni. I nuovi processori Haswell Refresh hanno ripreso le vecchie posizioni nel listino prezzi, sostituendo l'Haswell dello scorso anno. In particolare per le offerte desktop, la sostituzione in corso si presenta così:

Da sottolineare che l'aumento della frequenza di clock avviene all'interno dei pacchetti termici precedentemente stabiliti: 84 W per Core i7 e Core i5 e 54 W per Core i3. Tuttavia, allo stesso tempo, rimangono esattamente gli stessi cristalli semiconduttori nel cuore di Haswell Refresh, come precedentemente utilizzati. Il miglioramento del potenziale di frequenza è fornito esclusivamente dal miglioramento del processo tecnologico di Intel a 22 nm, mentre la revisione del core nei nuovi prodotti non cambia e mantiene il numero C0. E questo significa che non dovrebbero essere previsti miglioramenti fondamentali nelle caratteristiche termiche ed elettriche, così come in qualsiasi altra sfumatura dei nuovi processori.



Haswell Aggiorna processori desktop


I processori Haswell Refresh hanno lo stesso aspetto dei loro predecessori.



A sinistra - Haswell regolare, a destra - Haswell Refresh


L'unico cambiamento interessante e fondamentalmente importante associato al rilascio di Haswell Refresh interesserà i processori della serie K overclock, le cui informazioni complete non sono ancora disponibili poiché verranno presentate un po 'più tardi, presumibilmente il 2 giugno. Per ora, Intel continuerà a offrire i vecchi modelli Core i7-4770K e Core i5-4670K per overclocker, ma i processori che li sostituiranno meritano una storia a parte.

Il fatto è che nelle varietà Haswell Refresh con moltiplicatori gratuiti, che hanno il loro nome in codice collettivo Devil's Canyon, vedremo non solo un aumento delle frequenze dei passaporti. Intel intende rendere questi processori più attraenti per l'overclock, per il quale prevede di apportare modifiche importanti al loro packaging. Il materiale termoconduttore situato tra la matrice del processore e il coperchio del dissipatore di calore verrà sostituito con uno più efficiente e il coperchio stesso sarà realizzato in una lega diversa con una migliore conduttività termica. Secondo i dati preliminari, la famiglia Devil's Canyon sarà composta da due processori LGA 1150 sbloccati: Core i7-4790K e Core i5-4690K. Inoltre, riceveranno un pacchetto termico più elevato rispetto al normale Haswell Refresh e frequenze di clock notevolmente aumentate anche in modalità nominale.

Sfortunatamente, questo è tutto ciò che si sa finora su Devil's Canyon, ma quando nel nostro laboratorio appariranno campioni di queste CPU, condivideremo sicuramente informazioni complete su di loro nelle nostre recensioni. Oggi parleremo solo del normale desktop Haswell Refresh con un livello standard di dissipazione del calore, che può già essere acquistato nei negozi.

Finora c'è solo una novità nella serie Core i7:


Il Core i7-4790 aumenta la velocità di clock della vecchia linea di processori per la piattaforma LGA 1150 di 100 MHz, superando così il Core i7-4770K con overclocking e il Core i7-4771 regolare. Altrimenti, questo è un tipico Core i7 di generazione Haswell: ha quattro core, supporta l'Hyper-Threading e ha una spaziosa cache di terzo livello di 8 MB. Il core grafico, come i suoi predecessori, appartiene alla classe GT2, cioè ha 20 dispositivi esecutivi. Va notato che grazie alla tecnologia Turbo Boost 2.0, la frequenza operativa tipica per il Core i7-4790 è di 3,8 GHz.



Core i7-4790


Anche una suite completa di tecnologie di sicurezza, tra cui vPro, TXT e VT-d, è completamente supportata da questo processore. In altre parole, il Core i7-4790 è il nuovo fiore all'occhiello per la piattaforma LGA 1150, ma senza supporto per l'overclocking.

La serie Core i5 ha tre nuovi processori Haswell Refresh:



Anche le frequenze di questi processori rispetto ai loro predecessori sono aumentate di soli 100 MHz. Ma questo si è rivelato sufficiente perché il vecchio Core i5-4690 diventasse più veloce del Core i5-4670K e conquistasse la leadership in questa linea. Il resto dei processori si trova organicamente negli slot di frequenza precedentemente liberi. Le altre loro caratteristiche non sono cambiate. Hyper-Threading non è supportato nella serie Core i5, la cache L3 è ridotta a 6 MB, il core grafico utilizzato è GT2.



Core i5-4690



Core i5-4590



Core i5-4460


Il processore junior Core i5-4460 occupa un posto speciale nella serie: ha disabilitato le tecnologie di sicurezza vPro e TXT, e inoltre non supporta le istruzioni per lavorare con la memoria transazionale. La tecnologia Turbo Boost 2.0 rende la frequenza operativa tipica per il Core i5-4690 a 3,7 GHz, per il Core i5-4590 a 3,5 GHz e per il Core i5-4460 a 3,2 GHz.

La serie Core i3 con il rilascio di Haswell Refresh è cresciuta con altre tre modifiche:



Anche qui c'è stato un aumento di 100 MHz delle frequenze di clock pur mantenendo tutte le altre caratteristiche. I processori Core i3, a differenza dei modelli precedenti, sono dual-core, ma supportano la tecnologia multithreading virtuale Hyper-Threading. A causa di ciò, hanno una dissipazione del calore calcolata inferiore a 54 e non 84 watt. Va notato che non c'erano slot di frequenza liberi nella linea Core i3 al momento dell'annuncio di Haswell Refresh, quindi si è scoperto che il modello Core i3-4350 corrispondeva completamente alle caratteristiche del Core i3-4340. L'unica differenza tra la nuova modifica è di più prezzo basso.



Core i3-4360



Core i3-4350



Core i3-4150


I processori Core i3-4360 e Core i3-4350 hanno 4 MB di cache L3, mentre il Core i3-4150 ha ridotto la cache a 3 MB. Peggio ancora nel modello junior e nel core grafico. Sebbene formalmente tutti i Core i3 siano dotati di grafica GT2, nel Core i3-4150 il numero di unità di esecuzione della GPU è stato ridotto da 20 a 16.

Qualsiasi processore LGA 1150 Haswell Refresh condizioni supplementari non sono imposti sulle schede madri. Nonostante il fatto che la piattaforma sia stata aggiornata in concomitanza con il loro aspetto con il suo trasferimento ai nuovi kit logici della nona serie (Z97 e H97), tutte le nuove CPU funzionano senza problemi nelle vecchie schede madri LGA 1150 con chipset dell'ottava serie. È necessario solo un aggiornamento del BIOS per le schede dello scorso anno per rilevarle correttamente.

Per quanto riguarda le capacità di overclock, gli Haswell Refresh, rilasciati ad oggi, non le hanno affatto in nessun volume. È impossibile aumentare le frequenze al di sopra del valore nominale cambiando il moltiplicatore, mentre l'overclock tramite bus è estremamente limitato. Infatti, il limite al quale il clock di base può essere overcloccato è dell'ordine di 105-110 MHz. Cioè, l'acquisizione di Haswell Refresh allo scopo di farli funzionare in modalità anormali non ha alcun senso. Tuttavia, i processori non overclock per la piattaforma LGA 1150 consentono ancora l'overclock della memoria al livello di DDR3-2400.

Come abbiamo testato

Abbiamo confrontato i nuovi processori appartenenti al set Haswell Refresh con i loro predecessori, i normali processori Haswell, che sono in vendita da quasi un anno. Di conseguenza, l'elenco dei componenti hardware coinvolti nel test è il seguente:

Processori:

Intel Core i7-4790 (Haswell, 4 core + HT, 3,6-4,0 GHz, 4x256 KB L2, 8 MB L3);
Intel Core i7-4770K (Haswell, 4 core + HT, 3,5-3,9 GHz, 4x256 KB L2, 8 MB L3);
Intel Core i5-4690 (Haswell, 4 core, 3,5-3,9 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4670K (Haswell, 4 core, 3,4-3,8 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4590 (Haswell, 4 core, 3,3-3,7 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4570 (Haswell, 4 core, 3,2-3,6 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4460 (Haswell, 4 core, 3,2-3,4 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i5-4440 (Haswell, 4 core, 3,1-3,3 GHz, 4x256 KB L2, 6 MB L3);
Intel Core i3-4360 (Haswell, 2 core + HT, 3,7 GHz, 2x256 KB L2, 4 MB L3);
Intel Core i3-4350 (Haswell, 2 core + HT, 3,6 GHz, 2x256 KB L2, 4 MB L3);
Intel Core i3-4340 (Haswell, 2 core + HT, 3,6 GHz, 2x256 KB L2, 4 MB L3);
Intel Core i3-4150 (Haswell, 2 core + HT, 3,5 GHz, 2x256 KB L2, 3 MB L3);
Intel Core i3-4130 (Haswell, 2 core + HT, 3,4 GHz, 2x256 KB L2, 3 MB L3).

Dissipatore CPU: Noctua NH-U14S.
Scheda madre: Gigabyte Z87X-UD3H (LGA1150, Intel Z87 Express).
Memoria: 2x8 GB DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX).
Scheda video: NVIDIA GeForce GTX 780 Ti (3 GB / 384 bit GDDR5, 876-928 / 7000 MHz).
Sottosistema disco: Intel SSD 520 240 GB (SSDSC2CW240A3K5).
Alimentatore: Corsair AX760i (80 Plus Platinum, 760W)

Il test è stato eseguito sul sistema operativo Microsoft Windows 8 Enterprise x64 utilizzando il seguente set di driver:

Driver del chipset Intel 10.0.13;
Driver Intel Management Engine 10.0.0.1204;
Tecnologia Intel Rapid Storage 13.0.3.1001;
Driver NVIDIA GeForce 335.23.

Prestazione

Prestazioni complessive

Per valutare le prestazioni dei processori in attività comuni, usiamo tradizionalmente la suite di test Bapco SYSmark, che simula il lavoro dell'utente in programmi e applicazioni per ufficio moderni e comuni per la creazione e l'elaborazione di contenuti digitali. L'idea del test è molto semplice: produce un'unica metrica che caratterizza la velocità media ponderata di un computer durante l'uso quotidiano. Recentemente questo benchmark è stato aggiornato ancora una volta e ora stiamo utilizzando l'ultima versione: SYSmark 2014.



I risultati mostrati nel diagramma sono abbastanza attesi. Considerando che non ci sono miglioramenti e ottimizzazioni a livello di microarchitettura nei processori Haswell Refresh, la velocità di clock decide tutto. E poiché nelle nuove CPU è aumentato di soli 100 MHz, la differenza negli indicatori di prestazione dei vecchi Haswell e dei rappresentanti dei numerosi Haswell Refresh che li sostituiscono è in media del 2,5%. Più specificamente: il Core i7-4790 supera il Core i7-4771 (noto anche come Core i7-4770K) dell'1,8 percento; Il Core i5-4690 supera il Core i5-4670 del 2,3% Il Core i5-4590 supera il Core i5-4570 del 2,3%, il Core i5-4460 supera il Core i5-4440 del 2,7%, il Core i3-4360 supera il Core i3-4340 del 3,1% e il Core i3-4150 supera il Core i3-4130 del 2,3 percento.

Una comprensione più approfondita dei risultati di SYSmark 2014 può fornire informazioni sui punteggi delle prestazioni ottenuti in vari casi d'uso del sistema. Lo scenario di produttività di Office simula un tipico lavoro d'ufficio: preparazione di testi, elaborazione di fogli di calcolo, utilizzo della posta elettronica e visita di siti Internet. Lo script utilizza il seguente set di applicazioni: Adobe Acrobat XI Pro, Google Chrome 32, Microsoft Excel 2013, Microsoft OneNote 2013, Microsoft Outlook 2013, Microsoft PowerPoint 2013, Microsoft Word 2013, WinZip Pro 17.5 Pro.



Lo scenario Media Creation simula la creazione di uno spot pubblicitario utilizzando immagini e video digitali pre-shot. A tale scopo vengono utilizzati i popolari pacchetti Adobe Photoshop CS6 Extended, Adobe Premiere Pro CS6 e Trimble SketchUp Pro 2013.



Lo scenario Data / Financial Analysis è dedicato all'analisi statistica e alla previsione degli investimenti sulla base di un determinato modello finanziario. Lo script utilizza grandi quantità di dati numerici e due applicazioni Microsoft Excel 2013 e WinZip Pro 17.5 Pro.




Prestazioni di gioco

Come sapete, le prestazioni delle piattaforme dotate di processori ad alte prestazioni nella stragrande maggioranza dei giochi moderni sono determinate dalla potenza del sottosistema grafico. Questo è il motivo per cui, quando testiamo i processori, selezioniamo i giochi più dipendenti dal processore e misuriamo il numero di frame due volte. Nel primo passaggio i test vengono eseguiti senza abilitare l'anti-aliasing e con impostazioni lontane dalle risoluzioni più alte. Queste impostazioni consentono di valutare in linea di principio le prestazioni dei processori con un carico di gioco, il che significa che consentono di fare ipotesi su come si comporteranno le piattaforme di elaborazione testate in futuro quando sul mercato appariranno opzioni più veloci per gli acceleratori grafici. Il secondo passaggio viene eseguito con impostazioni realistiche, quando si sceglie la risoluzione FullHD e il livello massimo di anti-aliasing a schermo intero. A nostro avviso, tali risultati non sono meno interessanti, poiché rispondono alla domanda più frequente su quale livello di prestazioni di gioco i processori possono fornire in questo momento, in condizioni moderne.





















Non abbiamo caricato la recensione con un gran numero di test di gioco, poiché il guadagno di prestazioni fornito dai processori Haswell Refresh non è molto evidente. Tuttavia, nei grafici sopra, puoi notare diverse opzioni diverse per come vengono sommate le prestazioni di gioco.

Quindi, Batman: Arkham Origin è un gioco in cui le prestazioni di qualsiasi processore Intel sono sufficienti per caricare completamente la scheda grafica di punta NVIDIA GeForce GTX 780 Ti. Di conseguenza, in esso vediamo un effetto estremamente insignificante della scelta della CPU sul risultato, e il nuovo Haswell Refresh non spicca affatto sullo sfondo dei loro predecessori.

Civilization V: Brave New World è un gioco di strategia in cui i calcoli attivi vengono eseguiti sulla CPU, tuttavia anche i processori troppo potenti non servono qui. A partire dal Core i5-4570 in poi, il guadagno di prestazioni è quasi impercettibile. Tuttavia, anche al di sotto di questo peculiare confine, il vantaggio di Haswell Refresh rispetto ai predecessori equivalenti è di circa il 3%.

Metro: Last Light è uno sparatutto molto dipendente dal processore, ma con le impostazioni di massima qualità (principalmente a causa della tassellatura), il frame rate è ancora limitato dalla potenza della scheda video. Ma con una risoluzione decrescente, è possibile vedere un piccolo effetto dell'aumento della frequenza nel nuovo Haswell Refresh annunciato. La sua scala è standard: circa il 2 percento.

Le cose sembrano ancora più interessanti in Thief. Questo è uno dei pochi giochi a cui si relaziona negativamente tecnologia Hyper-Threading nei processori quad-core. È ottimizzato per quattro thread e i core virtuali aggiuntivi nel Core i7 riducono solo le prestazioni. Se parliamo dell'effetto della sostituzione di Haswell con Haswell Refresh, è di nuovo insignificante: non più del 3 percento con una risoluzione ridotta e non più dell'1 percento con le impostazioni grafiche massime.

Test in-app

In Autodesk 3ds max 2014 misuriamo la velocità di rendering in mental ray di una scena complessa appositamente preparata.



Le prestazioni nel nuovo Adobe Premiere Pro CC vengono testate misurando il tempo di rendering su H.264 di un progetto Blu-Ray contenente metraggio HDV 1080p25 con vari effetti di sovrapposizione.



Misuriamo le prestazioni nel nuovo Adobe Photoshop CC utilizzando il nostro benchmark, che è un test di velocità di Photoshop ritocco creativamente rielaborato che include l'elaborazione tipica di quattro immagini da fotocamera digitale da 24 megapixel.



Per misurare la velocità dei processori durante la compressione delle informazioni, utilizziamo l'archiviatore WinRAR 5.0, con il quale archiviamo una cartella con vari file con un rapporto di compressione massimo di 1,7 GB in totale.



Per valutare la velocità della transcodifica video nel formato H.264, è stato utilizzato il test x264 FHD Benchmark 1.0.1 (64 bit), basato sulla misurazione del tempo di codifica da parte dell'encoder x264 del video sorgente nel formato MPEG-4 / AVC con una risoluzione [email protected] e le impostazioni predefinite. Va notato che i risultati di questo benchmark sono di grande importanza pratica, poiché l'encoder x264 è al centro di numerose utilità di transcodifica popolari, ad esempio HandBrake, MeGUI, VirtualDub, ecc. Aggiorniamo periodicamente l'encoder utilizzato per le misurazioni delle prestazioni e la versione r2431 ha preso parte a questo test, che implementa il supporto per tutti i moderni set di istruzioni, incluso AVX2.



Nessuna applicazione può rivelare vantaggi evidenti dei processori Haswell Rafresh rispetto ai loro predecessori. Questo è abbastanza naturale. L'unico cambiamento nelle nuove CPU è l'aumento della frequenza. Quindi non c'è semplicemente nessun posto dove prendere un notevole aumento delle prestazioni. I risultati dei nuovi Core i7-4790, Core i5-4690, Core i5-4590, Core i5-4460, Core i3-4360, Core i3-4350 e Core i3-4150 sono migliori di quelli delle offerte della stessa classe e che lo stesso costo fino a un massimo del 3 percento.

Consumo di energia

Le modifiche alle prestazioni apportate da Haswell Refresh non sono affatto impressionanti. Non dovrebbero esserci altri miglioramenti nelle nuove modifiche dei processori, supponendo che siano basati sul vecchio cristallo semiconduttore di revisione. Tuttavia, ci sono poche speranze per un miglioramento delle prestazioni termiche ed energetiche che potrebbero derivare da processi di produzione migliorati. Controlliamo.

I grafici seguenti, se non diversamente specificato, mostrano il consumo totale del sistema (senza monitor) misurato all'uscita dalla presa a cui è collegata l'alimentazione del sistema di prova, ed è la somma del consumo energetico di tutti i componenti coinvolti nel sistema. L'indicatore totale include automaticamente l'efficienza dell'alimentatore stesso, tuttavia, dato che il modello di alimentatore che utilizziamo, Corsair AX760i, è certificato 80 Plus Platinum, il suo effetto dovrebbe essere minimo. Per stimare correttamente il consumo energetico, abbiamo attivato la modalità turbo e tutte le tecnologie di risparmio energetico disponibili: C1E, C6 e Enhanced Intel SpeedStep.

Il consumo in stato di inattività è stato misurato per primo.



Tutti i processori hanno mostrato una rara unanimità qui. Questo è comprensibile: nei periodi di inattività, Haswell entra in stati di risparmio energetico e riduce il proprio consumo energetico a valori quasi zero. Pertanto, i numeri riportati nel diagramma sono più rappresentativi dei consumi del resto della piattaforma di test.

Abbiamo quindi misurato il carico massimo sotto carico generato dall'utility LinX 0.6.5 a 64 bit con supporto del set di istruzioni AVX2, basato sul pacchetto Linpack.



Il diagramma sopra mostra molto chiaramente l'assenza di qualsiasi miglioramento del consumo energetico nei processori Haswell Refresh. I modelli più recenti e più veloci richiedono più elettricità rispetto ai loro predecessori. Allo stesso tempo, l'overclock a 100MHz effettuato nelle nuove modifiche alla CPU si traduce in un aumento di circa il 5% del consumo energetico. Si noti che, nonostante ciò, Intel non ha ritenuto necessario aumentare i limiti del pacchetto termico di Haswell. In altre parole, la dissipazione del calore di qualsiasi Core i7 e Core i5 dovrebbe adattarsi al telaio da 84 watt e il Core i3 - nel telaio da 54 watt.

Considerando che il consumo di energia avviato dall'utility Linpack basata sul pacchetto Linpack è molto superiore al livello realistico medio, abbiamo misurato il consumo sotto un carico più "banale" - transcodificando un video utilizzando la versione a 64 bit del codec x264 versione r2431.



In generale, l'immagine è esattamente la stessa del carico generato da LinX. Solo i valori assoluti di consumo energetico sono inferiori. Tuttavia, i processori Haswell Refresh consumano più dei loro predecessori della stessa classe dello stesso 5%. Tutto questo significa solo una cosa: nessun miglioramento è stato apportato ai consumi dei nuovi modelli Haswell.

Non ci sono cambiamenti evidenti nel regime di temperatura dei nuovi prodotti. Ovviamente, nel normale Haswell Refresh, il materiale di trasferimento del calore sotto il coperchio rimane sfortunato come prima. Quando vengono caricati nuovi processori, la temperatura interna aumenta quasi istantaneamente e rimane a un livello elevato anche se nel sistema è installato un dispositivo di raffreddamento efficiente. Ad esempio, nel nostro caso, quando si utilizza il dispositivo di raffreddamento Noctua NH-U14S, il vecchio Haswell Refresh, Core i7-4790, quando l'utility LinX era in esecuzione, si è riscaldato molto rapidamente fino a 84 gradi. E questo senza overclock, in modalità nominale!



Ricordiamo che la temperatura massima alla quale i processori Haswell includono il throttling è di 100 gradi.

conclusioni

Riassumendo, dobbiamo ammettere che il nome ad alto volume Haswell Refresh è stato dato a processori completamente ordinari, che, con il loro rilascio, non portano praticamente nulla di nuovo. Intel non ha svolto alcun lavoro di ingegneria per rilasciarli. Pertanto, le qualità consumer delle nuove CPU per la piattaforma LGA 1150 praticamente non differiscono da quelle offerte in precedenza. Il numero di core, la quantità di memoria cache, il tipo di core grafico integrato, il set di tecnologie supportate: tutto è rimasto invariato. Nessuna ottimizzazione è stata fatta neanche a livello dei cristalli semiconduttori, quindi la dissipazione del calore e il consumo energetico di Haswell Refresh sono rimasti al livello Haswell tipico.

L'unico posto dove puoi vedere almeno un po 'di movimento in avanti sono le frequenze dell'orologio. Tuttavia, dato che l'aumento delle frequenze non è supportato da alcun miglioramento tecnologico o ingegneristico, ma è solo un semplice overclock di vecchi modelli, il loro aumento è stato estremamente debole. In effetti, come parte di Haswell Refresh, Intel ha aumentato la velocità dei suoi processori al delta più basso possibile - 100 MHz. Di conseguenza, abbiamo visto esattamente lo stesso, minimo, aumento delle prestazioni durante i test. I nuovi processori Haswell Refresh si sono rivelati più veloci del 2-3% rispetto ai vecchi processori Haswell, e niente di più.

Tutto ciò significa che l'output di Haswell Refresh può essere interessante solo se non si è ancora migrati alla piattaforma LGA 1150. Considerando che il costo dei nuovi modelli non è superiore a quello dei vecchi, quando si acquista un nuovo computer è ormai del tutto naturale chiedere esattamente nei negozi nuove modifiche al processore. E se il tuo fornitore preferito Haswell Refresh non è ancora nel listino prezzi, è meglio posticipare un po 'l'acquisto, ma in seguito ottenere un po' di più alta produttività per gli stessi soldi.

E, inoltre, non dimenticare che tra circa tre settimane ci aspettiamo il rilascio di un paio di processori in più, formalmente legati agli aggiornati Haswell, Core i7-4790K e Core i5-4690K. Nome in codice Devil's Canyon, queste CPU, a differenza dei modelli recensiti oggi, promettono di essere un grande regalo per gli appassionati. Avranno velocità di clock notevolmente migliorate, temperature operative più basse e un migliore overclock. Ma non anticipiamo noi stessi: potrete leggere una recensione completa del Core i7-4790K e del Core i5-4690K sul nostro sito un po 'più tardi.

Dopo aver aggiornato Sandy Bridge completamente e passato a una nuova tecnologia di processo lo scorso anno, Intel si è avvicinata al passaggio successivo "tock" prescritto a se stesso alcuni anni prima.

Il tick-tock di Intel non è sempre una bomba, ma sicuramente un simbolo del progresso tecnologico

Nei passaggi "tock", come mostra l'illustrazione, è necessario introdurre una nuova architettura. E questo è stato fatto: il mondo ha visto una microarchitettura con nome in codice Haswell e 14 modelli di processori Core i5 e i7 per il socket LGA 1150 (noto anche come Socket H3) basati su di essa, otto di loro sono "regolari" e sei a basso consumo. In generale, il tema del consumo energetico (o, per essere più precisi, "consumo energetico adeguato alla potenza di calcolo attuale") attraversa la microarchitettura Haswell come un filo rosso, perché Intel vede un grande futuro per la sua creazione nel segmento mobile, e senza un processore o SoC con appetiti moderati non c'è niente. A giudicare dai confronti nelle fonti aperte, Intel considera l'artigianato sui processori ARM il suo principale concorrente, dal momento che si sono già radicati bene nel segmento mobile e hanno dimostrato la loro fattibilità lì.

Intel ha già fatto molto nel campo dell'alimentazione dei processori. Allontanandosi dalla regolazione TDP originale solo con l'aiuto della tensione del processore fornita dal convertitore della scheda madre e della frequenza di clock del core, Intel ha trasferito alcuni dei convertitori alla CPU, scoprendo così la possibilità di dosare in modo più accurato (e quindi efficiente) la tensione su ciascuno dei altri blocchi situati sul cristallo. A quel punto, il processore aveva cessato di essere solo un processore nel senso originale del termine e includeva un controller di memoria e altre parti del north bridge (NB), che un tempo consentivano di semplificare in modo significativo il layout delle schede madri e ridurre il consumo energetico del pacchetto CPU + NB.

Anche il lavoro con la potenza veniva svolto nella direzione dell'uso razionale, quando l'una o l'altra unità funzionava (elettricità consumata) solo nei momenti giusti, e durante i periodi di inattività si spegneva e non sprecava energia. Uno dei frutti del lavoro in questa direzione è stata la comparsa nei sistemi Intel insieme allo stato S0 dello stato S0ix, che ha ridotto significativamente il consumo energetico del processore durante i tempi di inattività allo stato "sistema di sospensione" (stato S3, il laptop entra in esso dopo che lo schermo è stato chiuso in stato di lavoro). In effetti, il sistema potrebbe "dormire" in modo assolutamente trasparente per l'utente, poiché la transizione a S0ix è di 450 microsecondi e il tempo di riattivazione è di 3,2 millisecondi (0.00045 se 0.0032 s, rispettivamente). Per mantenere lo schermo attivo è stata sviluppata la tecnologia PSR (Panel Self-Refresh), che implica la presenza di un buffer che memorizza gli ultimi frame. Ciò riduce il carico sulla GPU, soprattutto quando le informazioni sullo schermo vengono aggiornate di rado (ad esempio, durante la lettura del testo), il che, a sua volta, consente di ridurre il consumo energetico della GPU.

Il nuovo processore Intel può risparmiare energia in modo significativamente migliore rispetto ai suoi predecessori

È vero, questo richiede il supporto hardware dal monitor, quindi questo metodo di risparmio energetico può essere ampiamente utilizzato nel segmento mobile, dove il "monitor" e la "parte informatica" sono un dispositivo. Ma per dimostrare gli sviluppi di Intel, l'esempio è molto adatto, soprattutto perché hanno trovato un'implementazione nei processori sull'architettura Haswell. Pertanto, la PCU (Power Control Unit) di Haswell è in grado di utilizzare l'energia in modo molto efficiente grazie a una varietà di "modalità operative", in ciascuna delle quali sono attivi solo i blocchi attualmente necessari. Questo, secondo le assicurazioni di Intel, ha ridotto il consumo energetico inattivo di quasi cinque volte rispetto alla precedente (terza) generazione di processori. Il passaggio tra le "modalità" è accelerato di un quarto, il che consente di gestire più attivamente il consumo energetico dei core e "riempirli" anche in quei casi , che nell'ultima generazione erano poco pratici a causa della lunga procedura di accensione / spegnimento. Qui il nucleo "ha dormito" per un paio di millisecondi, noi risparmieremo frazioni di milliwatt, lì "abbiamo fatto un pisolino" ... Quindi i watt risparmiati vengono accumulati.

Anche l'architettura interna del processore è stata seriamente migliorata, sebbene a livello globale non sia cambiato nulla. Intel continua a lucidare e perfezionare l'architettura utilizzata in Conroe in pezzi. Tuttavia, ci sono più differenze tra Ivy Bridge e Haswell che tra Sandy Bridge e Ivy Bridge. Quest'ultimo, a mio modesto parere, era generalmente un restyling per il Sandy; dei cambiamenti significativi, si può notare solo il passaggio dal processo tecnico da 32 nm a 22 nm.

Architettura Intel Haswell come schema

L'unità processore Haswell conserva una pipeline a 14-19 stadi, anche la cache per millecinquecento microistruzioni si è spostata invariata, ma l'unità di decodifica delle istruzioni è ora una sola e non è condivisa tra due thread. La dimensione del blocco Out-of-Order Window (OoO) è stata aumentata da 168 a 192 voci e due porte sono state aggiunte alla stazione di prenotazione, portando il totale a otto. Sandy Bridge aveva sei porte per eseguire sei micro-operazioni in parallelo. Tre di questi sono usati per operazioni di memoria (lettura / scrittura), tre sono usati per operazioni matematiche. Una porta aggiunta viene utilizzata per la matematica dei numeri interi e le ramificazioni e l'altra viene utilizzata per il calcolo degli indirizzi.

I blocchi FMA (Fused Multiply-Add) nelle porte 0-1 sono stati riprogettati ed è stato aggiunto il supporto per il set di istruzioni AVX2 (Advanced Vector Extensions 2). Ciò consente di aumentare in modo significativo le prestazioni sia con lo stesso tipo che con un carico misto, ma comunque la velocità di esecuzione delle operazioni in virgola mobile è cresciuta di più: Intel afferma un doppio aumento delle prestazioni.

Nuovi set di istruzioni per prestazioni future

In pratica, puoi aspettarti un aumento quando lavori con contenuti multimediali e in 3D.

Il nuovo blocco FMA è in grado di fornire gravi FLOPS per guadagno di clock

Anche i contanti non sono stati ignorati. La velocità di L1 e del bus tra L1 e L2 è stata raddoppiata, passando da 32 a 64 byte per ciclo in entrambi i casi; la latenza è rimasta invariata. Il TLB universale (Translation Lookaside Buffer) è stato migliorato: da 4K a 4K esteso + 2M, la larghezza del bus è raddoppiata. L'accesso alla cache L3 è ora più ampio grazie alla capacità di elaborare contemporaneamente richieste di dati e non dati.

Il blocco TSX aiuterà a distribuire il carico tra i core del processore

Haswell ha aggiunto un set di istruzioni TSX (Transactional Synchronization eXtensions), che consente di aumentare la velocità di lavoro grazie al funzionamento "intelligente" dei dati a cui si accede contemporaneamente da più core. Ciò dovrebbe aumentare l'efficienza del processore con quelle attività che sono difficili da parallelizzare e offre anche ai programmatori l'opportunità di spostare parte del lavoro di distribuzione del carico tra i core sul processore. TSX, come AVX2, è uno strumento utile per gli sviluppatori che, utilizzandolo abilmente, possono ottenere miglioramenti significativi delle prestazioni per le loro applicazioni. Per lo stesso motivo, non ci si dovrebbe aspettare risultati istantanei "qui e ora" da questi nuovi set di istruzioni.

Uno degli eventi più significativi di quest'anno nel segmento desktop può sicuramente essere considerato il rilascio di una nuova famiglia di processori Intel Core di quarta generazione, nome in codice Haswell. In questo articolo, daremo una rapida occhiata alla microarchitettura Haswell e confronteremo le prestazioni di un processore Intel Core i7-4770 basato su questa microarchitettura con le prestazioni di un processore Intel Core i7-3770 basato sulla microarchitettura Sandy Bridge della generazione precedente.

Ricordiamo che per molti anni il rilascio di nuove generazioni di processori Intel è stato soggetto alla regola empirica TICK-TOCK, la cui essenza è che si verifica il trasferimento della produzione a un nuovo processo tecnologico (TICK) e l'introduzione di una nuova microarchitettura del processore (TOCK) alternativamente, con una frequenza di circa due anni. Cioè, se nel primo anno c'è una transizione a un nuovo processo di produzione, nel secondo anno viene introdotta una nuova microarchitettura del processore sullo stesso processo tecnico. L'anno successivo, la microarchitettura viene trasferita a un nuovo processo di produzione, ecc.

In particolare, nel 2012, Intel ha rilasciato una versione a 22nm di processori basati sulla microarchitettura Sandy Bridge, noti con il nome in codice Ivy Bridge (ciclo TICK), e ora è il turno del rilascio dei processori a 22nm basati sulla nuova microarchitettura di processori Haswell.

Abbiamo già scritto in dettaglio sulle caratteristiche della nuova microarchitettura Haswell in ComputerPress # 10'2012. Tuttavia, da allora è passato molto tempo e, cosa più importante, sono diventati noti nuovi dettagli di questa microarchitettura. Pertanto, ci permetteremo di ripeterci in qualcosa e fare una breve panoramica della microarchitettura Haswell, concentrandoci sui dettagli che sono stati omessi nella nostra recensione precedente.

Haswell Computing Core

Haswell è il nome in codice della nuova microarchitettura del processore, ma tradizionalmente tutti i processori basati su di essa sono chiamati con lo stesso nome. Inoltre, Haswell è il nome in codice del core del processore Haswell, il che è abbastanza logico, poiché la microarchitettura e il core del processore sono due facce della stessa medaglia.

Quindi, consideriamo brevemente la microarchitettura Haswell (o il core di calcolo di Haswell, che è fondamentalmente la stessa cosa).

Il core di elaborazione Haswell non ha subito cambiamenti radicali rispetto al core di elaborazione Ivy Bridge / Sandy Bridge: solo alcuni blocchi del core del processore sono stati migliorati. Pertanto, sarà opportuno richiamare in termini generali la microarchitettura Sandy Bridge e soffermarsi sulle modifiche apportate ad essa.

Blocco del preprocessore

Tradizionalmente, la descrizione della microarchitettura del core del processore inizia con un'unità preprocessore (front-end), che è responsabile del recupero delle istruzioni x86 dalla cache delle istruzioni e della loro decodifica (Fig. 1). Nella microarchitettura Haswell, il blocco del preprocessore ha subito modifiche minime.

Figura: 1. Preprocessore nelle microarchitetture Haswell e Sandy Bridge

Le istruzioni x86 vengono recuperate dalla cache delle istruzioni L1I (Instruction Cache), che non è stata modificata nella microarchitettura Haswell. Ha una dimensione di 32 KB, è a 8 canali ed è condiviso dinamicamente tra due flussi di istruzioni (supporto per la tecnologia Hyper-Threading).

Dalla cache L1I, le istruzioni vengono caricate in blocchi da 16 byte in un buffer di recupero da 16 byte.

Poiché le istruzioni x86 sono di lunghezza variabile (da 1 a 16 byte) e la lunghezza dei blocchi utilizzati per caricare le istruzioni dalla cache è fissa, quando si decodificano le istruzioni, vengono determinati i confini tra le singole istruzioni (le informazioni sulle dimensioni delle istruzioni sono memorizzate nella cache delle istruzioni L1I in campi speciali). La procedura per estrarre le istruzioni da un blocco selezionato è chiamata PreDecode.

Dopo l'operazione di recupero, i team vengono organizzati in una coda (coda di istruzioni). Nella microarchitettura Sandy Bridge e Haswell, il buffer della coda dei comandi è progettato per 20 comandi in ciascuno dei due flussi e fino a sei comandi dedicati possono essere caricati dal buffer di pre-codifica per ciclo di clock nel buffer della coda dei comandi.

Successivamente, le istruzioni selezionate (istruzioni x86) vengono passate al decoder, dove vengono convertite in micro-operazioni della macchina (denotate come micro-operazioni o uOps).

Il decodificatore del core del processore Haswell rimane invariato. È ancora a quattro canali e può decodificare fino a quattro istruzioni x86 per clock. Come già notato, la lunghezza di un comando può essere fino a 16 byte, ma la lunghezza media del comando è di 4 byte. In media, quattro istruzioni vengono caricate in ogni blocco di 16 byte, che, quando si utilizza un decodificatore a quattro canali, vengono decodificate simultaneamente in un ciclo di clock.

Un decodificatore a quattro canali è costituito da tre decodificatori semplici che decodificano semplici istruzioni in un'unica microoperazione e da uno complesso, che è in grado di decodificare un'istruzione in non più di quattro micro-operazioni (decodificatore del tipo 4-1-1-1). Per istruzioni ancora più complesse che vengono decodificate in più di quattro micro-operazioni, un decodificatore complesso è collegato al blocco uCode Sequenser, che viene utilizzato per decodificare tali istruzioni.

Le istruzioni vengono decodificate utilizzando le tecnologie Macro-Fusion e Micro-Fusion.

Macro-Fusion è la fusione di due istruzioni x86 in un'unica micro-operazione complessa, che verrà ulteriormente eseguita come un'unica micro-operazione. Naturalmente, non tutte le istruzioni possono essere soggette a tale unione, ma solo alcune coppie di istruzioni (ad esempio, un'istruzione di confronto e un ramo condizionale). Senza l'uso della tecnologia Macro-Fusion, solo quattro istruzioni possono essere decodificate per ciclo del processore (in un decodificatore a quattro canali), mentre utilizzando la tecnologia Macro-Fusion, cinque istruzioni possono essere lette in ogni ciclo, che vengono convertite in quattro per fusione e sottoposte a decodifica.

Si noti che per supportare efficacemente la tecnologia Macro-Fusion, vengono utilizzate ALU (Arithmetical Logic Unit) estese, che possono supportare l'esecuzione di micro-operazioni di fusione.

Micro-Fusion è l'unione di due micro-operazioni (non istruzioni x86, ma micro-operazioni) in una contenente due azioni elementari. In futuro, due di queste micro-operazioni unite vengono elaborate come una sola, il che rende possibile ridurre il numero di micro-operazioni elaborate e, di conseguenza, aumentare il numero totale di istruzioni eseguite dal processore per ciclo.

Inoltre, le microarchitetture Haswell e Sandy Bridge utilizzano una micro-ops cache decodificata (Uop Cache), che riceve tutte le micro-op decodificate. Questa cache è valutata per circa 1500 micro operazioni di media durata. La cache micro-op decodificata è composta da otto banchi (ovvero, questa cache è a 8 canali), ognuno dei quali è composto da 32 linee cache, e ogni riga cache contiene fino a sei micro-op decodificate (uop). Quindi, risulta che la cache può contenere circa 1500 micro-operazioni.

Il concetto della cache di micro-operazioni decodificata è di memorizzare in essa sequenze di micro-operazioni già decodificate. Di conseguenza, se è necessario eseguire nuovamente una determinata istruzione x86 e la sequenza di micro-operazioni decodificate corrispondenti è ancora nella cache delle micro-operazioni decodificate, non è necessario selezionare questa istruzione dalla cache L1 e decodificarla di nuovo: le micro-operazioni già decodificate vengono inviate dalla cache per ulteriori elaborazioni.

Dopo il processo di decodifica delle istruzioni x86, queste, quattro pezzi per orologio, passano al buffer della coda di decodifica. Nella microarchitettura Sandy Bridge, questo buffer della coda di istruzioni decodificato è stato progettato per due flussi di istruzioni di 28 micro-operazioni per flusso. Nelle microarchitetture Ivy Bridge e Haswell, non è diviso in due flussi di istruzioni ed è progettato per 56 micro-operazioni. Questo approccio è preferibile quando si esegue una singola applicazione a thread (con un thread di comandi). In questo caso, un buffer con una capacità di 56 micro-operazioni è disponibile per un flusso di istruzioni e nella microarchitettura Sandy Bridge - solo 28 micro-operazioni.

Sembrerebbe che se confrontiamo i core dei processori Haswell e Ivy Bridge, allora non ci sia alcuna differenza nei loro preprocessori, ei preprocessori dei core Haswell e Sandy Bridge differiscono solo nella struttura del buffer della coda di istruzioni decodificato.

Tuttavia, Intel afferma che sono stati apportati alcuni miglioramenti al preprocessore Haswell e includono miglioramenti ai Branch Predictors. Tuttavia, Intel non rivela quali miglioramenti sono stati implementati.

Terminando la descrizione del preprocessore nella microarchitettura Haswell, si dovrebbe menzionare anche il buffer TLB.

Translation Look-Apart Buffers (TLB) è una cache del processore speciale che memorizza gli indirizzi delle istruzioni e dei dati decodificati, riducendo in modo significativo il tempo di accesso ad essi. Questa cache è progettata per ridurre il tempo necessario per convertire un dato virtuale o un indirizzo di istruzione in uno fisico. Il fatto è che il processore utilizza l'indirizzamento virtuale e sono necessari indirizzi fisici reali per accedere ai dati nella cache o nella RAM. La conversione di un indirizzo virtuale in un indirizzo fisico richiede circa tre cicli del processore. La cache TLB memorizza i risultati delle conversioni precedenti, in modo che la conversione degli indirizzi possa essere eseguita in un ciclo di clock.

I processori con la microarchitettura Haswell e Sandy Bridge (così come i processori Intel basati su altre microarchitetture) utilizzano una cache TLB a due livelli e se la cache TLB L2 è unificata, la cache TLB L1 è divisa in un buffer di dati (DTLB) e un buffer di istruzioni (ITLB) ...

Le cache L1 TLB di istruzioni e dati nella microarchitettura Haswell non sono cambiate: sono esattamente le stesse della microarchitettura Sandy Bridge. La cache delle istruzioni L1 ITLB è progettata per 128 voci, se ciascuna voce indirizza una pagina di memoria da 4 KB. Pertanto, utilizzando 4 KB di pagine di memoria L1, la cache ITLB può indirizzare 512 KB di memoria. Nel caso di pagine 4K, la cache ITLB è a 4 canali e condivisa staticamente tra i due flussi di istruzioni. Inoltre, la cache L1 ITLB può indirizzare 2 MB di pagine di memoria. In questo caso, la cache contiene otto voci per thread ed è completamente associativa.

Blocco di esecuzione fuori ordine

Dopo il processo di decodifica delle istruzioni x86, inizia la fase della loro esecuzione fuori ordine.

Il primo passo è rinominare e allocare registri del processore aggiuntivi che non sono definiti dall'architettura del set di istruzioni. La tecnica di ridenominazione dei registri sarebbe inutile senza riordinare le istruzioni. Pertanto, dal buffer Decode Queue, le micro-operazioni vengono inviate quattro pezzi per clock al ReOrder Buffer, dove le micro-operazioni vengono riordinate fuori servizio (Out-of-Order).

Nella microarchitettura Sandy Bridge, la dimensione del buffer di riordino è progettata per 168 micro-operazioni e nella microarchitettura Haswell - per 192 micro-operazioni.

Notare che il buffer di riordino e l'unità di pensionamento sono combinati in una singola unità di elaborazione, ma le istruzioni vengono inizialmente riordinate e l'unità di pensionamento viene messa in funzione successivamente quando è necessario emettere le istruzioni eseguite nell'ordine specificato dal programma.

Successivamente, c'è una distribuzione delle microoperazioni tra le unità di esecuzione. Nel blocco del processore Unified Scheduler, vengono formate code di micro-operazioni, a seguito delle quali le micro-operazioni vengono inviate a una delle porte dei dispositivi funzionali (porte Dispatch). Questo processo è chiamato Dispatch e le porte stesse fungono da gateway per i dispositivi funzionali.

Nelle microarchitetture Sandy Bridge e Haswell, i cluster Out-of-Order utilizzano il cosiddetto Physical Register File (PRF), che memorizza gli operandi delle micro-operazioni.

Ricorda che quando nessun file di registro fisico veniva utilizzato nei core del processore (ad esempio, nella microarchitettura Nehalem), ogni microoperazione aveva una copia dell'operando (o degli operandi) di cui aveva bisogno. In effetti, questo significava che i blocchi del cluster di esecuzione fuori ordine dovevano essere abbastanza grandi da essere in grado di ospitare micro-operazioni insieme agli operandi richiesti.

L'uso di PRF consente alle micro-operazioni stesse di memorizzare solo i puntatori agli operandi, ma non gli operandi stessi. Da un lato, questo approccio fornisce una riduzione del consumo energetico del processore, poiché spostarsi lungo la pipeline delle microoperazioni insieme ai loro operandi richiede un consumo energetico significativo. D'altra parte, l'uso di un file di registro fisico consente di risparmiare la dimensione del cristallo e lo spazio liberato può essere utilizzato per aumentare la dimensione dei buffer del cluster di esecuzione dei comandi fuori ordine.

Figura: 2. Blocchi di esecuzione fuori ordine dei comandi

nelle microarchitetture Haswell e Sandy Bridge

Nella microarchitettura Sandy Bridge, il file di registro fisico per operandi interi (registri interi) è progettato per 160 record e per operandi in virgola mobile (registri AVX) - per 144 record.

Nella microarchitettura Haswell, i file dei registri fisici Integer Registers e AVX Registers sono progettati per 168 record.

Anche i buffer di lettura (Load) e di scrittura (Store) utilizzati per accedere alla memoria sono aumentati. Ad esempio, se nella microarchitettura Sandy Bridge i buffer Load e Store sono stati progettati rispettivamente per 64 e 36 record, nella microarchitettura Haswell sono stati progettati rispettivamente per 72 e 42 record.

La dimensione del buffer Unified Scheduler, in cui vengono formate le code micro-op per le porte dei dispositivi funzionali, è cambiata anche nella microarchitettura Haswell. Se a Sandy Bridge era progettato per 54 micro-operazioni, ad Haswell era 60.

Quindi, se confrontiamo le architetture Haswell e Sandy Bridge, quindi nel blocco di esecuzione fuori ordine dei comandi, la microarchitettura Haswell non ha cambiamenti strutturali, ma solo qualitativi riguardo all'aumento delle dimensioni del buffer. Ma non ci sono cambiamenti fondamentali nel blocco dell'esecuzione fuori ordine dei comandi nella microarchitettura Haswell.

Unità di esecuzione core del processore

Per quanto riguarda le unità di esecuzione del core del processore, hanno subito modifiche significative nella microarchitettura Haswell rispetto alla microarchitettura Sandy Bridge. Quindi, in Sandy Bridge, ci sono sei porte di dispositivi funzionali (porte di spedizione): tre per l'elaborazione e tre per lavorare con la memoria (la Fig. 3 mostra solo le porte di elaborazione).

Figura: 3. Unità di esecuzione in microarchitetture Sandy Bridge

e Haswell (le porte per lavorare con la memoria non sono mostrate)

La microarchitettura Haswell ha aumentato a otto il numero di porte per dispositivi funzionali. A ciò che era nella microarchitettura Sandy Bridge, è stata aggiunta un'altra porta per la registrazione dell'indirizzo (Store address) e una porta di elaborazione per le operazioni con numeri interi e operazioni di spostamento (Integer ALU & Shift). Pertanto, i processori Haswell possono eseguire fino a otto micro-operazioni per ciclo di clock, mentre nella microarchitettura Sandy Bridge il numero massimo di micro-operazioni eseguite per ciclo di clock è sei.

Inoltre, nella microarchitettura Haswell, gli stessi attuatori sono leggermente modificati. Ciò è dovuto al fatto che sono apparsi set di istruzioni aggiuntivi nella microarchitettura Haswell: AVX2, FMA3 e BMI.

Il set di istruzioni AVX2 (Advanced Vector Instructions) è un'estensione del set di istruzioni AVX presente nella microarchitettura Sandy Bridge. In generale, il set di istruzioni AVX è una continuazione logica dei set di istruzioni SSE, SSE2, SSE3 e SSE4. Per elaborare i dati nelle istruzioni AVX, vengono utilizzati 16 registri vettoriali con una larghezza di 256 bit, il che rende possibile velocizzare molte operazioni molte volte. Ad esempio, moltiplicare quattro numeri a 64 bit utilizzando un'istruzione AVX è possibile in un solo ciclo di clock, mentre senza un'istruzione AVX sarebbero necessari quattro cicli.

La differenza principale tra il nuovo set di istruzioni AVX2 e la versione precedente di AVX è che se le precedenti operazioni a 256 bit con i registri AVX erano disponibili solo per un operando in virgola mobile e solo le operazioni a 128 bit erano disponibili per gli operandi interi, allora in AVX2 256 Le operazioni -bit divennero disponibili anche per gli operandi interi. Infatti, quando si utilizza AVX, è possibile implementare 16 operazioni a precisione singola e otto operazioni a doppia precisione in un ciclo di clock. E quando si utilizza AVX2, è possibile implementare 32 operazioni a precisione singola e 16 operazioni a doppia precisione in un ciclo di clock.

Inoltre, AVX2 introduce un supporto migliorato per traduzioni e permutazioni nelle operazioni vettoriali. Ci sono anche nuove istruzioni usate per assemblare più (quattro o otto) elementi non correlati in un singolo elemento vettoriale, rendendo possibile caricare più completamente i registri AVX a 256 bit.

Il nuovo set di istruzioni FMA3 (Fused Multiply Add) è progettato per eseguire operazioni di moltiplicazione e addizione combinate su tre operandi.

L'utilizzo delle operazioni FMA3 consente di implementare in modo più efficiente la divisione, l'estrazione della radice quadrata, la moltiplicazione di vettori e matrici, ecc. Il set FMA3 include 36 istruzioni in virgola mobile per eseguire calcoli a 256 bit e 60 istruzioni per vettori a 128 bit.

Il set di istruzioni BMI (Bit Manipulation Instructions) include 15 istruzioni bit scalari che operano su registri interi di uso generale. Queste istruzioni sono divise in tre gruppi: manipolazione di singoli bit, come l'inserimento, lo spostamento e l'estrazione di bit, il conteggio dei bit, come il conteggio degli zeri iniziali nei numeri e la moltiplicazione di interi con precisione arbitraria. Questo insieme di istruzioni consente di velocizzare una serie di operazioni specifiche utilizzate, ad esempio, nella crittografia.

Sottosistema di memoria nella microarchitettura Haswell

Uno dei cambiamenti più significativi nella microarchitettura di Haswell rispetto a Sandy Bridge è stato nel sottosistema di memoria. E il punto non è solo che la dimensione dei buffer di lettura (Load) e di scrittura (Store), utilizzati per accedere alla memoria, è stata aumentata (rispettivamente 72 e 42 record). La cosa principale è che è stata aggiunta un'altra porta per la registrazione dell'indirizzo (indirizzo Store), la cache dati L1 è diventata più efficiente e la larghezza di banda tra le cache L1 e L2 è stata aumentata. Diamo uno sguardo più da vicino a questi cambiamenti.

L'accesso al sottosistema di memoria inizia con il fatto che le micro-op corrispondenti entrano nei buffer di lettura (Load) e di scrittura (Store), che insieme possono accumulare più di cento micro-op. Nella microarchitettura Sandy Bridge, le porte dei dispositivi funzionali, contrassegnate nei diagrammi come 2, 3 e 4, erano responsabili dell'accesso alla memoria (Fig. 4). Le porte 2 e 3 sono associate a una funzione AGU (Address Generation Unit) per la scrittura o la lettura di dati e la porta 4 è associata a un dispositivo funzionale per la scrittura di dati dal nucleo del processore alla cache di dati L1 (DL1). La procedura di generazione dell'indirizzo richiede uno o due cicli del processore.

Figura: 4. Sottosistema di memoria nelle microarchitetture Sandy Bridge e Haswell

Nella microarchitettura Haswell, la porta 7 è stata aggiunta alle porte 1, 2 e 3, che è associata a un dispositivo funzionale per la generazione di un indirizzo per la scrittura dei dati (Store AGU). Di conseguenza, il core Haswell può supportare due operazioni di caricamento dati e un'operazione di scrittura dati per ciclo di clock.

Una funzione di generazione di indirizzi dedicata per la scrittura di dati è leggermente più semplice da implementare rispetto a una funzione di generazione di indirizzi per scopi generali (per la scrittura e il caricamento dei dati). Il punto è che il micro-op di scrittura dei dati scrive semplicemente l'indirizzo (e, in definitiva, i dati stessi) nel buffer del negozio. E il micro-op di caricamento dei dati dovrebbe scrivere nel buffer di lettura e anche tenere traccia del contenuto del buffer di scrittura per escludere possibili conflitti.

Una volta generato l'indirizzo virtuale corretto, inizia la scansione della cache DTLB L1 per vedere se questo indirizzo virtuale corrisponde a quello fisico. La cache di dati L1 DTLB stessa nella microarchitettura Haswell non è cambiata. Supporta 64, 32 e 4 scritture rispettivamente per pagine di memoria da 4 KB, 2 MB e 1 GB ed è a 4 canali.

In caso di errore nella cache L1 DTLB, inizia una scansione delle voci corrispondenti nella cache L2 TLB unificata, che presenta diversi miglioramenti nella microarchitettura Haswell. Questa cache supporta pagine da 4 KB e 2 MB, è a 8 canali e ha una capacità di 1024 voci. E nella microarchitettura Sandy Bridge L2 TLB, la cache era progettata per 512 voci (cioè era la metà), supportava solo pagine di memoria da 4 KB ed era a 4 canali.

La stessa cache di dati L1 è rimasta di dimensioni 32 KB e 8 canali (come nella microarchitettura Sandy Bridge). In questo caso, l'accesso alla cache TLB e il controllo dei tag della cache dati L1 possono essere eseguiti in parallelo.

Tuttavia, nella microarchitettura Haswell, la cache di dati L1 ha una larghezza di banda maggiore. Supporta una lettura a 256 bit e due scritture a 256 bit contemporaneamente, per una larghezza di banda combinata di 96 byte per clock. Nella microarchitettura Sandy Bridge, la cache di dati L1 supporta un'operazione di lettura a 128 bit e due operazioni di scrittura a 128 bit contemporaneamente, ovvero ha una larghezza di banda teorica che è due volte inferiore. Allo stesso tempo, la larghezza di banda reale della cache di dati L1 nella microarchitettura Sandy Bridge è più della metà della larghezza di banda nella microarchitettura Haswell a causa del fatto che ci sono solo due unità funzionali AGU in Sandy Bridge.

Inoltre, la microarchitettura Haswell ha anche aumentato la larghezza di banda tra le cache L1 e L2. Quindi, se in Sandy Bridge la larghezza di banda tra le cache L2 e L1 era di 32 byte per ciclo, in Haswell è stata aumentata a 64 byte per ciclo. E mentre la cache L2 in Haswell ha la stessa latenza di Sandy Bridge. In conclusione, notiamo che, come nella microarchitettura Sandy Bridge, la cache L2 di Haswell non è esclusiva e non è inclusiva rispetto alla cache L1.

Nuove modalità di risparmio energetico nel processore Haswell

Una delle innovazioni nel processore Haswell è un nuovo stato di alimentazione che consente di ridurre il consumo energetico totale del processore, che si chiama S0ix ed è preso in prestito dai processori Intel Atom (tali modalità di alimentazione sono state implementate nei processori Moorestown).

Ricordiamo che tradizionalmente il sistema può essere sia nello stato attivo S0 (modalità di funzionamento normale), sia in uno dei quattro stati "sleep" S1-S4.

Nello stato S1, tutte le cache del processore vengono svuotate e il processore ha interrotto l'esecuzione delle istruzioni. Tuttavia, l'alimentazione del processore e della RAM viene mantenuta e i dispositivi che non sono contrassegnati come accesi possono essere spenti. Lo stato S2 è uno stato di "sospensione" ancora più profondo quando il processore è disabilitato.

Lo stato S3 (noto anche come Suspend to RAM (STR) o Standby) è uno stato in cui la memoria ad accesso casuale (RAM) continua ad essere alimentata e rimane praticamente l'unico componente che consuma energia.

Lo stato S4 è noto come ibernazione. In questo stato, tutto il contenuto della RAM viene archiviato nella memoria non volatile (ad esempio, su un disco rigido o SSD).

Gli stati S0ix (S0i1, S0i2, S0i3, S0i4) sono simili agli stati S1, S2, S3 e S4 in termini di consumo energetico, ma differiscono da questi in quanto impiega molto meno tempo perché il sistema entri nello stato attivo S0. Ad esempio, la transizione dallo stato S0 allo stato S0i3 richiede 450 μs e la transizione inversa - 3,1 ms.

Core grafico nella microarchitettura Haswell

Una delle principali innovazioni nella microarchitettura Haswell è un nuovo core grafico con supporto per DirectX 11.1, OpenCL 1.2 e OpenGL 4.0.

Ma soprattutto, il core grafico nella microarchitettura Haswell è scalabile. Esistono varianti del core grafico, nome in codice GT3, GT2 e GT1 (Figura 5).

Figura: 5. Schema a blocchi del core grafico Haswell

Il core GT1 avrà le prestazioni più basse e il GT3 le più alte.

Una seconda unità di calcolo apparirà nel core grafico GT3, raddoppiando così il numero di unità di rasterizzazione, pipeline di pixel, core di calcolo e campionatori. La GT3 dovrebbe avere il doppio delle prestazioni della GT2.

Il core GT3 contiene 40 unità di esecuzione, 160 core di elaborazione e quattro unità di texture. Per fare un confronto, ricorda che il core grafico Intel HD Graphics 4000 nei processori Ivy Bridge contiene 16 unità di esecuzione, 64 core di elaborazione e due unità di texture. Pertanto, nonostante approssimativamente le stesse velocità di clock, il core grafico Intel GT3 supera il suo predecessore in termini di prestazioni. Inoltre, il core GT3 ha prestazioni migliori grazie all'integrazione di EDRAM (nel core GT3e) nel pacchetto del processore.

Il core GT2 contiene 20 unità di esecuzione, 80 core di elaborazione e due unità di texture, mentre il core GT1 contiene solo 10 unità di esecuzione, 40 core di elaborazione e un'unità di texture.

Le stesse unità di esecuzione hanno quattro core di elaborazione, simili a quelli utilizzati nell'architettura AMD VLIW4.

Un'altra innovazione è che quando si lavora con la memoria, viene utilizzata la tecnologia Instant Access, che consente ai core di elaborazione del processore e al core grafico di accedere direttamente alla RAM. NEL versione precedente anche il core grafico, i core di elaborazione del processore e il core grafico funzionavano con RAM condivisa, ma la memoria era divisa in due aree con dimensioni ridimensionabili dinamicamente. Uno di questi era riservato al core grafico e l'altro ai core di elaborazione del processore. Tuttavia, il core grafico e i core di elaborazione del processore non sono stati in grado di ottenere l'accesso simultaneo alla stessa area di memoria. E nel caso in cui la GPU avesse bisogno degli stessi dati usati dal core computazionale del processore, doveva copiare questo pezzo di memoria. Ciò ha portato a un aumento della latenza e, inoltre, è stato riscontrato un problema di tracciamento della coerenza dei dati.

La tecnologia InstantAccess consente al driver del kernel grafico di puntare a una posizione nella memoria del core della grafica a cui il core di elaborazione del processore deve accedere direttamente. In questo caso, il core computazionale del processore lavorerà direttamente con quest'area di memoria, senza crearne una copia, e dopo aver eseguito le azioni necessarie, l'area di memoria tornerà a disposizione del core grafico.

La famiglia di nuovi core grafici GT1, GT2 e GT3 ha migliorato le capacità di codifica / decodifica video. Supporta la decodifica hardware dei formati H.264 / MPEG-4 AVC, VC-1, MPEG-2, MPEG-2 HD, Motion JPEG, DivX fino a 4096 × 2304 pixel. Si dice che il core grafico sia in grado di decodificare simultaneamente più flussi video 1080p e riprodurre video 2160p senza balbuzie o perdita di fotogrammi.

È anche apparso un blocco speciale per migliorare la qualità video, chiamato Video Quality Engine ed è responsabile della riduzione del rumore, della correzione del colore, del deinterlacciamento, della modifica adattativa del contrasto, ecc. Inoltre, i nuovi core grafici supporteranno la stabilizzazione dell'immagine, la conversione del frame rate e la gamma estesa.

Inoltre, il core grafico del processore Haswell consente di collegare fino a tre monitor contemporaneamente. Supporta Display Port 1.2 con risoluzioni fino a 3840 × 2160 a 60 Hz, HDMI con risoluzioni fino a 4096 × 2304 a 24 Hz (alla massima risoluzione) e una porta DVI.

Gamma di processori Haswell

È ancora prematuro parlare della gamma di processori Haswell. Naturalmente, su Internet è possibile trovare una serie di informazioni a volte contraddittorie sui piani di Intel per il rilascio dei processori Haswell. Tuttavia, la società non conferma ufficialmente queste informazioni, quindi non è noto quali modelli di processore verranno annunciati per primi.

È noto solo per certo che i processori Haswell saranno ufficialmente chiamati Intel Core di quarta generazione e saranno tre serie: Core i7, Core i5 e Core i3. Come le precedenti generazioni di processori Intel, i modelli di processori Haswell sono etichettati con un numero di quattro cifre che inizia con 4 (il primo numero indica il numero di generazione del processore).

Intel annuncerà inizialmente i processori per desktop e laptop delle serie Core i7 e Core i5, con processori della serie Core i3 più deboli ed economici in arrivo più tardi.

I processori desktop sfoggeranno un core grafico GT2 ufficialmente chiamato Intel HD Graphics 4600, ma queste sono solo voci, quindi è possibile che la famiglia desktop includa un modello con core grafico GT3 (ufficialmente Intel HD Graphics 5200).

Le versioni mobili dei processori Haswell saranno dotate di un core grafico GT3 (modelli di punta) o GT2.

Ancora una volta, secondo le indiscrezioni, tutte le versioni dei processori mobili saranno quad-core con supporto per Hyper-Threading ( viene sulla famiglia di processori mobili Core i7). I processori desktop delle famiglie Core i7 e Core i5 saranno anche prevalentemente (ad eccezione di un modello della famiglia Core i5) quad-core, ma solo i modelli di punta della famiglia Core i7 e il processore dual-core della famiglia Core i5 supporteranno la tecnologia Hyper-Threading.

Tutti i processori delle famiglie Core i5 e Core i7 supporteranno la tecnologia Turbo Boost.

La dimensione della cache L3 per le famiglie di processori Core i7 e Core i5 può essere 8, 6 e 4 MB, ma il TDP di questi processori varia da 35 a 84 W.

I processori desktop hanno un socket LGA 1150 e sono compatibili solo con schede madri basate sui nuovi chipset Intel serie 8.

Processore Intel Core i7-4770

Se non avevamo informazioni ufficiali sull'intera gamma di modelli di processori Haswell e sulle loro caratteristiche al momento della stesura di questo articolo, allora sapevamo tutto sul processore Intel Core i7-4770, che avevamo per i test. Questo processore non è il top di gamma della famiglia Intel Core i7 di quarta generazione ed è secondo solo all'Intel Core i7-4770K, che differisce da esso in quanto ha un fattore moltiplicatore completamente sbloccato e una velocità di clock di base superiore di 100 MHz. Altrimenti, questi processori sono gli stessi.

Quindi, il processore Intel Core i7-4770 è un quad-core, supporta la tecnologia Hyper-Threading e la sua frequenza di base è di 3,4 GHz. NEL modalità turbo Aumentare la velocità di clock massima può raggiungere 3,9 GHz. Il processore è dotato di una cache L3 da 8 MB e di un core grafico GT2 (ufficialmente chiamato Intel HD Graphics 4600), che funziona a una velocità di clock di 1.2 GHz. Il controller di memoria nel processore è, come prima, a doppio canale e la frequenza massima ufficiale della memoria DDR3 supportata è 1600 MHz (è possibile, ovviamente, utilizzare una memoria più veloce).

Ancora una volta, come prima, il processore Intel Core i7-4770 ha un controller PCI Express 3.0 a 16 corsie integrato. Bene, e l'ultima circostanza importante: il TDP di questo processore è 84 W.

Per fare un confronto, ricordiamo che la generazione precedente di Intel Core i7-3770 (nome in codice Ivy Bridge) ha caratteristiche molto simili. È anche quad-core, supporta l'Hyper-Threading e ha una cache L3 da 8 MB. Le velocità di clock di base di questi processori differiscono leggermente: per Intel Core i7-4770 è di 3,4 GHz e per Intel Core i7-3770K - 3,5 GHz. Tuttavia, in modalità Turbo Boost, le velocità di clock di questi processori sono le stesse: se vengono caricati uno o due core del processore, la velocità di clock massima può essere di 3,9 GHz (a condizione che il consumo energetico massimo e la corrente massima non vengano superati). Se vengono caricati tre core del processore, la velocità di clock massima può essere 3,8 GHz e quando tutti e quattro i core sono caricati, può essere 3,7 GHz.

I core grafici e, naturalmente, la stessa microarchitettura dei core di elaborazione differiscono in questi processori. Ora per un piccolo dettaglio: il processore Intel Core i7-3770 ha un TDP di 77 W, che è inferiore all'Intel Core i7-4770. Ebbene, a quanto pare l'aumento della dimensione dei buffer e del numero di registri, porte aggiuntive di dispositivi funzionali e un aumento della larghezza di banda della memoria del processore non sono stati vani. Tutto ciò ha portato ad un aumento del consumo energetico del processore. Tuttavia, è del tutto possibile venire a patti con questo se si ottiene un adeguato aumento delle prestazioni del processore a causa di un leggero aumento del consumo energetico. Ebbene, resta da vedere se è davvero così.

Prestazioni in applicazioni non di gioco

Per testare il processore Intel Core i7-4770, abbiamo utilizzato la nostra utility ComputerPress Benchmark Script v.12.0, descrizione dettagliata che può essere trovato nel numero di marzo della rivista. Ricorda che questa utility di test si basa sulle seguenti applicazioni reali:

  • Xilisoft Video Converter Ultimate 7.7.2;
  • Wondershare Video Converter Ultimate 6.0.3.2;
  • Movavi Video Converter 10.2.1;
  • Adobe Premier Pro CS 6.0;
  • Photodex ProShow Gold 5.0.3276;
  • Adobe Audition CS 6.0;
  • Adobe Photoshop CS 6.0;
  • ABBYY FineReader 11;
  • WinRAR 4.20;
  • WinZip 17.0.

Il tempo di esecuzione delle attività di test viene utilizzato come indicatore delle prestazioni.

È chiaro che il tempo di esecuzione delle attività di test di per sé non ci consente ancora di stimare le prestazioni del processore. Tali risultati sono significativi solo rispetto ad alcuni dei risultati presi come riferimento. Tale confronto dei risultati ci consente di stimare quante volte (o in quale percentuale) il processore testato è più produttivo (o forse meno) di quello di riferimento quando esegue una determinata attività.

Abbiamo confrontato un processore Intel Core i7-4770 con un processore Intel Core i7-3770. Per chiarezza di presentazione dei risultati, sono stati calcolati anche l'indicatore integrale generale delle prestazioni del processore e le stime integrali per i singoli gruppi di test (conversione video, creazione di contenuti video, elaborazione audio, elaborazione di foto digitali, riconoscimento del testo, archiviazione dei dati e annullamento dell'archiviazione).

Per calcolare la valutazione delle prestazioni integrata, i risultati dei test del processore Intel Core i7-4770 sono stati normalizzati rispetto ai risultati del processore Intel Core i7-3770K. I risultati dei test normalizzati sono stati suddivisi in sei gruppi logici (conversione video, elaborazione audio, creazione di contenuti video, elaborazione di foto digitali, riconoscimento del testo, archiviazione e disarchiviazione dei dati) e in ogni gruppo il risultato integrale è stato calcolato come media geometrica dei risultati normalizzati. Per comodità di presentare i risultati, il valore ottenuto è stato moltiplicato per 1000. Successivamente, è stata calcolata la media geometrica dei risultati integrali ottenuti, che è l'indicatore di prestazione integrale risultante. Per il processore Intel Core i7-3770K, il punteggio delle prestazioni integrato, così come i risultati integrati per ogni singolo gruppo di test, è di 1000 punti.

La seguente configurazione del PC è stata utilizzata per testare il processore Intel Core i7-3770K:

  • scheda madre - Gigabyte GA-Z77X-UD5H;
  • chipset scheda madre - Intel Z77 Express;
  • memoria - DDR3-1600;
  • scheda video - Processore grafico Intel HD 4000;
  • Il processore Intel Core i7-4770 è stato testato al seguente banco:
  • scheda madre - Intel DH87MC;
  • chipset della scheda madre - Intel H87 Express;
  • memoria - DDR3-1600;
  • capacità di memoria - 16 GB (due moduli GEIL, 8 GB ciascuno);
  • modalità di funzionamento della memoria - due canali;
  • scheda video - Processore grafico Intel HD 4600;
  • unità: Intel SSD 520 (240 GB).

In entrambi i casi è stato utilizzato il sistema operativo Microsoft Windows 8 Enterprise (64 bit).

Si noti che la scheda madre Intel DH87MC che abbiamo utilizzato per testare il processore Intel Core i7-4770 è un esempio ingegneristico. Intel ha abbandonato la produzione di schede madri con il proprio marchio e ora si occupa solo di design di riferimento, cioè produce schede madri come campione per i suoi partner. Pertanto, la scheda Intel DH87MC non sarà mai in vendita.

Sia Intel Core i7-3770K che Intel Core i7-4770 vengono testati con impostazioni del BIOS per impostazione predefinita, ovvero la modalità Intel Turbo Boost è stata attivata, ma non è stato eseguito l'overclock del processore.

Per garantire un'elevata precisione dei risultati, tutti i test sono stati eseguiti cinque volte.

I risultati del test sono presentati in tabella. 1 e fig. 6.

Figura: 6. Risultati integrali del test dei processori da parte dell'utilità

Script di benchmark ComputerPress v.12.0

Come puoi vedere, le prestazioni integrate del processore Intel Core i7-4770 sono quasi il 10% superiori a quelle del processore Core i7-3770K, con i maggiori guadagni in termini di prestazioni osservati in applicazioni come Adobe Photoshop CS6 (15%) e Adobe Premier Pro CS 6.0 (18% ) e Photodex ProShow Gold 5.0.3276 (13%).

Va tenuto presente che i processori Intel Core i7-4770 e Core i7-3770K funzionano alla stessa frequenza di clock e la differenza di prestazioni osservata è dovuta esclusivamente ai cambiamenti nella microarchitettura del processore Intel Core i7-4770. Nelle applicazioni non di gioco, la nuova microarchitettura del processore Haswell raggiunge un aumento medio delle prestazioni del 10%.

Prestazioni di gioco

L'utility ComputerPress Benchmark Script v.12.0 consente di valutare le prestazioni del processore solo quando si lavora con applicazioni non di gioco in cui le capacità del core grafico integrato non sono praticamente utilizzate.

Pertanto, abbiamo anche valutato le prestazioni della GPU Intel Core i7-4770 nei giochi 3D utilizzando i benchmark 3DMark Professional e 3DMark 11 Advanced Edition.

Il benchmark 3DMark Professional è un nuovo benchmark che supporta piattaforme Windows e Android. Questo benchmark include tre test: Ice Storm, Cloud Gate e Fire Strike. Il primo di questi si concentra su dispositivi mobili come smartphone, tablet o netbook, il secondo su laptop / ultrabook e computer universali di medio livello; e il terzo è per potenti PC da gioco con una grafica potente.

I risultati dei test dei processori che utilizzano i benchmark 3DMark Professional e 3DMark 11 Advanced Edition sono presentati nella tabella. 2 e 3 e Fig. 7 e 8.

Figura: 7. Risultati del test del processore

Figura: 8. Risultati dei processori di test

Come puoi vedere dai risultati dei benchmark 3DMark Professional e 3DMark 11 Advanced Edition, il core grafico Intel HD 4600 (processore Core i7-4770) ha effettivamente un diprestazioni migliori rispetto a Intel HD 4000 (processore Core i7-3770K). Tuttavia, la differenza di prestazioni in questi test non è doppia rispetto a quanto dichiarato da Intel nei suoi materiali di presentazione, ma leggermente inferiore. Tuttavia, i progressi nelle prestazioni del sottosistema grafico sono evidenti.

Tuttavia, un'altra domanda è rimasta aperta. Sì, le prestazioni grafiche del Core i7-4770 sono quasi raddoppiate rispetto al Core i7-3770K. Ma queste prestazioni sono sufficienti per rendere il computer riproducibile senza utilizzare una scheda grafica discreta? Se guardi i risultati dettagliati nei test 3DMark Professional e 3DMark 11 Advanced Edition (valore FPS nei test grafici), possiamo concludere che il core grafico Intel HD 4600 non è adatto per i giochi. Tuttavia, i benchmark 3DMark Professional e 3DMark 11 Advanced Edition sono ancora programmi specifici. Pertanto, per dare una risposta oggettiva a questa domanda, passiamo ai risultati dei test del processore Core i7-4770 e di altri benchmark di gioco. In questo caso, non è necessario confrontare i risultati del test dei core grafici dei processori Core i7-4770 e Core i7-3770K, poiché ci interessa solo il risultato assoluto del Core i7-4770 in FPS.

  • Per questo test, abbiamo utilizzato i seguenti benchmark:
  • Unigine Heaven Benchmark 4.0;
  • Valle Unigine 1.0;
  • Bioshock Infinite (benchmark integrato);
  • Metro 2033 (benchmark integrato).

Il test è stato eseguito con una risoluzione dello schermo di 1920 × 1080 (una risoluzione inferiore è semplicemente irrilevante) e in due modalità: massime prestazioni e massima qualità. Queste impostazioni estreme definiscono una sorta di fork, oltre il quale l'FPS non può più andare con nessuna impostazione di gioco.

Le impostazioni di ogni benchmark per le modalità di massima prestazione e qualità sono presentate in tabella. 4, scheda. 5, scheda. 6 e tab. 7, ei risultati del test sono mostrati in Fig. nove.

Fig 9. I risultati del test del processore Intel Core i7-4770 nei giochi

e benchmark di gioco

I risultati del test mostrano che anche se impostato sulla qualità minima (prestazioni massime), il core grafico integrato nel processore Intel Core i7-4770 non consentirà di giocare ai moderni giochi 3D. In nessuno dei benchmark che utilizziamo, il valore medio di FPS non supererà i 30 FPS, il che, ovviamente, non può essere considerato un risultato soddisfacente. La conclusione quindi è questa: in effetti, il nuovo core grafico Intel HD 4600 è più produttivo rispetto al core Intel HD 4000, ma questo fatto non significa che la grafica integrata vi permetterà di fare a meno di una scheda grafica discreta. Per il computer su cui verranno eseguiti i giochi, la grafica integrata non è chiaramente adatta.

Conclusione

Per concludere la nostra recensione del processore Intel Core i7-4770, riassumiamo.

Rispetto al processore Intel Core i7-3770K, le prestazioni del processore Intel Core i7-4770 sono aumentate di circa il 10% nelle applicazioni non di gioco. Tuttavia, parlando dell'aumento delle prestazioni dei processori Haswell, è necessario tenere presente una circostanza molto importante.

Uno dei principali vantaggi della seconda (Sandy Bridge) e della terza (Ivy Bridge) generazioni di processori Intel Core era che erano ben overcloccati e il concetto di frequenza di clock di base era in qualche modo virtuale. Questi processori erano divisi in completamente sbloccati (processori della serie K) e parzialmente sbloccati (tutti gli altri processori). I processori della serie K potrebbero essere overcloccati cambiando il fattore di moltiplicazione (sebbene il valore massimo per il fattore di moltiplicazione esista, è piuttosto alto).

Per i processori parzialmente overcloccati, era possibile impostare il moltiplicatore di quattro stop più alto del valore massimo in modalità Turbo Boost. Ad esempio, un processore Intel Core i7-3770 con una velocità di clock di base di 3,4 GHz può essere overcloccato a 4,3 GHz (FSF 43), perché la velocità di clock massima di questo processore in modalità Turbo Boost è di 3,9 GHz (fattore FS 39 ).

Tuttavia, nei processori Haswell non della serie K, tale overclock parziale è bloccato, il che significa che non possono essere overcloccati.

Sembrerebbe che oltre a manipolare il fattore di moltiplicazione, il processore possa anche essere overcloccato aumentando la frequenza bus di sistema... Formalmente, infatti, è possibile. Ma, come dimostra la pratica, i processori Intel Core di seconda, terza e quarta generazione sono quasi impossibili da overcloccare aumentando la frequenza del bus di sistema. In particolare, i nostri esperimenti con il processore Intel Core i7-4770 hanno mostrato che dopo aver aumentato la frequenza del bus di sistema di soli 3 MHz, il sistema non si avvia più.

Perché Intel ha bloccato la possibilità di overclock parziale è assolutamente incomprensibile. Molto probabilmente, questo passo ostile dell'azienda nei confronti degli utenti e dei partner coinvolti nella produzione di schede madri può essere considerato come un altro errore di marketing dell'azienda.

L'impossibilità di overcloccare i processori Haswell non della serie K porta alla seguente triste conclusione. In termini di costi e prestazioni, è più vantaggioso acquistare un processore Intel Core i7-3770 parzialmente sbloccato rispetto a un processore Intel Core i7-4770 completamente bloccato. Overcloccandolo a 4,3 GHz (che può overcloccare senza problemi), otterrai prestazioni migliori rispetto al processore Intel Core i7-4770.

“Chi ama la pratica senza la scienza è come un timoniere che sale su una nave senza timone o bussola; non è mai sicuro di dove stia navigando. La pratica dovrebbe sempre essere costruita su una buona teoria ... "(Leonardo da Vinci)

Articoli sulla microarchitettura di processori fondamentalmente nuovi Intel, di solito iniziano con un riferimento al modello di sviluppo tick-tock 2007 dell'azienda. La sua essenza sta nel fatto che lo sviluppo di nuovi progetti di processori e il trasferimento della produzione a standard tecnologici più avanzati si alternano tra loro. La microarchitettura del passato, Ivy Bridge, in questa classificazione era "teak", la nuova, Haswell, è "così". Cioè, in faccia Haswell, in teoria, dovremmo vedere un processore aggiornato cardinalmente dall'interno, ma prodotto utilizzando la già nota tecnologia a 22 nm con transistor tridimensionali.

Questo è il motivo per cui ci sono aspettative così alte per l'imminente uscita di Haswell. Mercato computer personale è stagnante. La concorrenza tra i produttori di processori x86 nel segmento ad alte prestazioni è scomparsa e computer desktop stanno lentamente perdendo terreno sotto l'assalto dei dispositivi mobili. Anche l'aspetto del sistema operativo Windows 8 non ha corretto questa situazione - non solo non è riuscito a restituire il suo precedente interesse per i personal computer, inoltre, ha causato ostilità persistente tra molti aderenti ai fattori di forma tradizionali. E ora tutti gli appassionati aspettano una rivoluzione da Intel, sperando in un salto di qualità che, nonostante tutto, risvegli l'interesse per la piattaforma x86 che ha perso le sue dinamiche precedenti. Qualcuno crede che desktop e laptop classici possano tornare ad essere una tendenza alla moda, mentre altri si aspettano che l'emergere di una nuova linea di processori spingerà almeno i proprietari dei sistemi esistenti ad aggiornarli. In altre parole, Haswell è quasi l'ultima speranza per rivitalizzare un segmento di mercato agli occhi degli appassionati di personal computer produttivi.

Tuttavia, Intel sembra avere un'opinione molto diversa su questo argomento. L'azienda sente anche un raffreddamento di interesse per personal computer produttivi, ma tenendo conto della situazione attuale, si prevede di non provare a riscaldare i vecchi mercati, ma di iniziare a conquistarne di nuovi. L'intera linea generale è soggetta a correzione. Intel non intende continuare a lottare attivamente per l'onore del tradizionale e familiare a molti sistemi, ma invece vuole impegnarsi ad apportare modifiche all'architettura x86 e ai prodotti esistenti al fine di adattarli a quelle classi di dispositivi mobili che sono ora all'apice della popolarità. In parte, questo obiettivo è servito dalle trasformazioni fondamentali che sono iniziate nell'economia Atom: la promozione attiva dei processori di questa classe in smartphone e tablet, nonché la preparazione di una nuova microarchitettura Silvermont. Ma parallelamente avverranno metamorfosi con la linea di processori Core, che, secondo il piano degli sviluppatori, dovrebbe diventare ancora più mobile. E Haswell - anche se non il primo, ma probabilmente il traguardo più importante su questo percorso.


Tutte le presentazioni e il materiale per la stampa sui processori promettenti, nelle primissime pagine ci dicono che Haswell si rivolge principalmente agli ultrabook e ai laptop convertibili ultraportatili, che, con un tocco della mano, si trasformano in tablet. E questo riflette perfettamente l'obiettivo che gli sviluppatori della nuova microarchitettura hanno affrontato. Se nella fase di creazione delle microarchitetture Sandy Bridge e Ivy Bridge, gli ingegneri hanno lavorato alla progettazione di processori con un consumo energetico target di 35-45 W, mentre le altre opzioni sono state ottenute variando il numero di core, frequenza e voltaggio, allora con Haswell i requisiti di consumo erano ancora più stringenti. Intel ora considera la gamma da 15 a 20 W la più interessante. Pertanto, Haswell è una microarchitettura ultra mobile pronunciata, che in termini di prestazioni è un gradino più in alto di Atom. Per quanto riguarda le modifiche al desktop Haswell, questo è un sottoprodotto per Intel. Naturalmente, è molto più facile ottenere un normale processore da un processore economico che eseguire questa conversione nella direzione opposta. Ma rimuovere le restrizioni sul consumo di energia e sulla dissipazione del calore non significa affatto un regolare ridimensionamento delle prestazioni. Quindi quanto Haswell soddisferà le aspettative nella sua incarnazione desktop non è così ovvio.

E qui sarà opportuno richiamare il ciclo precedente "so", processori con microarchitettura Sandy Bridge. Rispetto ai loro predecessori della generazione Westmere, sono stati in grado di fornire solo il 15% circa di aumento delle prestazioni nell'ambiente desktop proprio perché gli sviluppatori hanno iniziato a spostare l'enfasi sul rapporto tra prestazioni e consumo energetico. Ora la conversazione si svolge in un linguaggio completamente diverso: i principali punti di forza di Haswell, secondo il produttore, sono un'eccellente efficienza e un livello di prestazioni grafiche fondamentalmente nuovo. Per quanto riguarda le prestazioni di elaborazione, Intel per qualche motivo non si concentra su di esse, il che solleva ogni sorta di cattivi sospetti. Solo esacerbato se si guardano i dati preliminari sulle prestazioni del desktop Haswell, che ormai è già trapelato alla stampa.

L'attesa per il rilascio dei processori basati sulla microarchitettura Haswell non è lunga. E in pochi giorni saremo in grado di dare risposte dettagliate a qualsiasi domanda. Tuttavia, prima di ciò, sarà opportuno familiarizzare con la teoria: dovrebbe diventare, anche se spiacevole, ma un antidoto necessario alle illusioni troppo rosee, che potrebbero benissimo essersi formate nella dolorosa aspettativa di qualcosa di nuovo.

Microarchitettura Haswell: tick o giù di lì

Ad essere onesti, il prologo è esagerato. Sì, la microarchitettura Haswell può effettivamente essere considerata altamente efficiente dal punto di vista energetico in molti modi, ed è stata sviluppata principalmente con un occhio alle applicazioni mobili. Tuttavia, Intel sta ancora tenendo presente che il modello di business dell'azienda presuppone l'uso di un unico design su una vasta linea di prodotti, inclusi componenti mobili, desktop e server. Ciò significa che c'è una solida base sotto la facciata alla moda ea basso consumo energetico per incanalare Haswell in diverse nicchie di mercato. In altre parole, la nuova microarchitettura non ha perso la sua versatilità. Manipolando il numero di core, le versioni del motore grafico, il livello di consumo energetico target, la dimensione della memoria cache e l'aggiunta di uno o un altro set di interfacce esterne di Haswell, i processori possono essere di natura diversa.


Tuttavia, se ci occupiamo della microarchitettura stessa, allora sì, le innovazioni volte a ottimizzare i regimi termici ed energetici sono al primo posto. Non ci sono così tanti cambiamenti che possono aumentare la produttività, e se lo fanno, allora con grande difficoltà, attirano il ciclo di sviluppo "in quel modo". In effetti, quando Intel ha rilasciato Nehalem o Sandy Bridge, la revisione ha interessato non solo i blocchi interni dei core di elaborazione, ma anche il concetto di base del design del processore. Ogni "così" sembrava essere qualcosa di fondamentalmente diverso e il grado di innovazione era mozzafiato. Ma se si guarda al circuito Haswell generalizzato, è facile confonderlo con il suo predecessore, Ivy Bridge.


Tutti i blocchi funzionali e i principi della loro integrazione nel processore sono rimasti gli stessi. Haswell eredita tutte le tecnologie di successo dal passato: modalità turbo, Hyper-Threading, ring bus, ma non aggiunge nulla di nuovo a questo bagaglio. Le modifiche sono solo nelle profondità dei singoli nodi. Inoltre, l'intervento ingegneristico negli strati profondi della microarchitettura non è troppo significativo. Il trasportatore esecutivo non è cambiato troppo, la sua lunghezza è la stessa 14-19 fasi di prima. La parte anteriore ha ricevuto solo alcuni miglioramenti estetici e tutte le modifiche significative riguardano solo il meccanismo di esecuzione delle istruzioni e il supporto di nuovi set di comandi. Intel cita miglioramenti delle prestazioni fino al 20-30 percento quando si parla di se Haswell sia una microarchitettura più potente di Ivy Bridge, ma va tenuto presente che questa stima include il guadagno derivante dall'utilizzo delle nuove istruzioni AVX2, per le quali una fase lunga e difficile l'implementazione deve ancora venire.

Economia: tutto per lei

Ma le misure adottate per migliorare l'efficienza del design del processore sono più che sufficienti. La maggior parte degli sforzi degli sviluppatori è stata spesa per ridurre il consumo di energia e, devo dire, dal punto di vista dei sistemi mobili, questi sforzi sono stati tutt'altro che sprecati. I sistemi basati su Haswell dovrebbero essere in grado di funzionare con la batteria circa il 50% in più rispetto alle configurazioni basate su Ivy Bridge comparabili. Haswell vince 2-3 volte di più rispetto ai processori della generazione precedente! E in uno stato di disponibilità a lavorare risparmiando le connessioni di rete (standby connesso) il consumo totale della piattaforma rispetto ai sistemi basati su Sandy Bridge è diminuito di circa 20 volte.

Questo progresso impressionante non è radicato in un semplice miglioramento del processo, che in realtà presenta solo differenze evolutive rispetto al processo a transistor 3D a 22 nm utilizzato per produrre Ivy Bridge. E ancora di più, il discorso non è nel banale aumento del numero di zone del cristallo del processore, che, in assenza di attività, possono essere scollegate indipendentemente dal bus di alimentazione. Naturalmente, tutto ciò contribuisce in modo determinante all'economia di Haswell, ma tali cambiamenti si stanno verificando con ogni nuova generazione di processori Intel e solo ora è avvenuto un salto di qualità. Quindi il segreto del successo sta altrove.

Insomma: nuove frontiere dell'efficienza sono state raggiunte grazie a un insieme di interventi effettuati non tanto con il processore stesso, ma con la piattaforma e l'infrastruttura nel suo complesso.

In primo luogo, l'integrazione complessiva dei componenti della piattaforma ha svolto un ruolo importante: una parte significativa del circuito del convertitore di potenza è migrata sul chip del processore e per le applicazioni ultramobili è stata progettata una versione SoC specializzata del processore, contenente un secondo cristallo sullo stesso substrato: un insieme di logica di sistema.


In secondo luogo, Intel ha svolto un lavoro significativo con i principali produttori di controller per sottolineare la necessità di un sonno di qualità e supporto per il sonno profondo. Lungo il percorso, gli sviluppatori sperano di ottenere finalmente dai produttori di matrici di visualizzazione il supporto della funzione Panel Self Refresh, che permette di salvare l'immagine sullo schermo senza aggiornarla costantemente dal core grafico.

In terzo luogo, anche il sistema operativo Windows 8 ha giocato nelle mani, il cui kernel è molto più zelante nella gestione degli interrupt, cercando il più possibile di evitare transazioni disparate che svegliano il processore o i dispositivi.

Infine, in quarto luogo, Haswell ha un nuovo set di stati di sospensione ACPI S0ix, simili in termini di consumo energetico a S3 / S4 (quando tutti i componenti della piattaforma vengono inviati in modalità passiva ad eccezione della memoria di sistema), ma nel tempo il sistema è completamente operativo da pochi millisecondi. Inoltre, sono stati aggiunti nuovi stati di inattività del processore C7 e ulteriori, che si ottengono con l'operatività del sistema visibile, ma in cui la tensione di alimentazione può essere completamente rimossa dalla parte principale della CPU.


Tuttavia, tutto quanto sopra riguarda principalmente le piattaforme mobili e la durata della loro durata della batteria. Sul desktop, la maggior parte di queste innovazioni avviene anche, ma per gli utenti finali sono quasi indifferenti. Ciò che li colpisce più direttamente è la comparsa di nuove zone nel processore Haswell, operanti a frequenze diverse. In Ivy Bridge, c'erano due di queste zone: i core di elaborazione (insieme alla cache e all'agente di sistema) e il core grafico. Ma non si è scoperto la migliore soluzione dal punto di vista dell'efficienza, poiché gli accessi grafici ai dati nella cache L3 hanno portato ad un'uscita dagli stati di risparmio energetico dell'intero processore. Pertanto, in Haswell, la parte Uncore, che combina l'agente di sistema e la cache di terzo livello, ha ricevuto una propria frequenza indipendente.

E questo non è un cambiamento positivo, ma una vivida illustrazione delle priorità a cui gli ingegneri Intel hanno aderito durante lo sviluppo del loro nuovo design. Il funzionamento asincrono di Uncore e dei core computazionali porta al fatto che la cache di terzo livello in Haswell ha una latenza maggiore rispetto a quella dei processori della generazione precedente. In altre parole, per migliorare l'efficienza, Intel è persino pronta a ripristinare i passaggi effettuati in precedenza per aumentare le prestazioni.

Ma tutte le misure adottate da Intel per ridurre il consumo energetico consentono all'azienda di espandere in modo significativo la gamma di processori Core ad alta efficienza energetica offerti. Nel segmento mobile, dovrebbe apparire una vasta serie U che include circa due dozzine di articoli, con un caratteristico rilascio di calore calcolato di circa 15 W. Inoltre, ci aspettiamo la serie Y con una dissipazione del calore di 6-7 W. Queste cifre sembrano particolarmente impressionanti se teniamo conto che stiamo parlando della dissipazione del calore dell'assieme, che include, oltre al core del processore, un chip set.

Per coloro che volevano rapidamente

Tuttavia, trascinata dall'idea di riorientare i processori Core verso laptop convertibili ultra-mobili e tablet produttivi, Intel non ha dimenticato di modificare un po 'il cuore dei suoi processori. Sebbene i core di calcolo di Haswell siano molto simili ai core Ivy Bridge, ci sono ancora una serie di miglioramenti da trovare. È vero, questi miglioramenti non sono stati apportati affatto per cercare di aumentare le prestazioni pure: il numero di istruzioni elaborate per ciclo di clock. Il motivo del loro aspetto è l'introduzione di nuove istruzioni AVX2 nella vita di tutti i giorni e il desiderio di aumentare l'efficienza della tecnologia Hyper-Threading, che dovrebbe compensare l'incapacità di utilizzare quattro core completi in processori a basso wattaggio. Ma, fortunatamente, le innovazioni apportate hanno anche effetti collaterali positivi.

L'estremità anteriore del trasportatore di esecuzione Haswell rimane in gran parte intatta. La nuova microarchitettura, come i suoi predecessori, è stata migliorata per elaborare quattro istruzioni per ciclo di clock. L'istruzione fetch block e il decoder hanno esattamente questa larghezza. Anche la cache delle istruzioni di primo livello con un volume di 32 KB, così come la cache delle istruzioni decodificate per mille e mezzo micro-op, introdotte nell'Ivy Bridge, è rimasta invariata. Haswell ha solo due vantaggi in questa fase rispetto al design precedente. In primo luogo, a causa dell'aumento delle dimensioni di tutti i buffer interni, che si verifica con ogni rilascio di un nuovo design del processore, la precisione dell'unità di previsione del ramo è aumentata. In secondo luogo, la coda di istruzioni già decodificate è stata esplicitamente ottimizzata per l'Hyper-Threading: la sua divisione in due thread ha iniziato a verificarsi dinamicamente.


In realtà, l'assenza di modifiche negli algoritmi di base per il recupero e la decodifica delle istruzioni è una chiara indicazione che non vale la pena contare su un aumento della velocità di elaborazione delle istruzioni in Haswell. Questa architettura non può digerire più di quattro (o cinque nel caso di una fusione di macro-operazioni di successo) comandi x86. E se nelle prime fasi del ciclo di sviluppo Intel ha apportato innovazioni che potrebbero aumentare l'efficienza dei decoder esistenti, ora non è così.

Notevoli cambiamenti nella microarchitettura Haswell vengono rilevati se ci si sposta più in profondità lungo il nastro trasportatore. Quindi, l'aumento di tutti i buffer di base ha influito non solo sulla previsione dei rami. È importante che la finestra per l'esecuzione fuori ordine dei comandi sia stata aumentata. Ciò consente di ottenere un leggero miglioramento nelle capacità per l'elaborazione parallela delle istruzioni di un thread, che alla fine consente un carico di lavoro più denso delle unità di esecuzione (di cui Haswell è diventato non solo di più, ma notevolmente di più).


In realtà, sullo sfondo di tutti gli altri miglioramenti piuttosto miseri nelle rigaglie della microarchitettura, questo è forse il principale vantaggio del nuovo design del microprocessore. Se a Ivy Bridge c'erano solo sei porte di esecuzione, allora ad Haswell ce n'erano otto.


Quindi, in teoria, Haswell può elaborare fino a otto micro-operazioni per clock. Tuttavia, va notato che tre porte sono allocate per le operazioni di memoria, cioè sono destinate alla manutenzione di micro-operazioni ausiliarie che si verificano quando si smontano le istruzioni x86.

Pertanto, è di primaria importanza avere una porta separata per operazioni su interi e ramificazioni. Ovviamente si presume che nel tempo crescerà il numero di istruzioni a 256 bit utilizzate nei programmi, e affinché non blocchino il funzionamento del codice più comune, la sua esecuzione può ora essere assegnata ad una porta indipendente. Tale "disaccoppiamento" delle porte per tipo di operazioni dovrebbe avere un effetto positivo particolarmente forte quando un core esegue simultaneamente due thread eterogenei con la partecipazione della tecnologia Hyper-Threading. Cioè, siamo di nuovo di fronte a un aumento della sua efficacia ad Haswell.

Inoltre, il processore ha ora un totale di quattro porte a sua disposizione, in grado di lavorare con istruzioni intere. Ciò significa che il codice intero più ordinario può passare attraverso la fase di esecuzione alla stessa velocità del decoder.

Tuttavia, a giudicare dall'approccio generale alla progettazione della nuova microarchitettura, Intel è stata l'ultima a pensare di aumentare il numero di istruzioni elaborate per ciclo di clock. Ciò che probabilmente ha preoccupato molto di più gli sviluppatori è stato lavorare con i nuovi team del set AVX2. Questo set di istruzioni include istruzioni SIMD a 256 bit per la gestione di interi, operazioni di memoria sparsa e varie permutazioni e spostamenti di componenti vettoriali. Ma la parte del leone e la parte più importante del nuovo set di istruzioni sono fondamentalmente nuove istruzioni FMA (Fused Multiply-Add) a virgola mobile, che in realtà includono simultaneamente una coppia di operazioni: moltiplicazione e addizione. Naturalmente, la loro esecuzione con i vecchi strumenti causerebbe tempi di inattività significativi del processore, quindi ora sono realizzati due porte separate e dispositivi esecutivi dedicati. Di conseguenza, Haswell può eseguire due istruzioni FMA doppie per ciclo di clock.


Quindi, in teoria, Haswell sul codice AVX2 può mostrare il doppio delle prestazioni massime nel mondo reale rispetto ai processori delle generazioni precedenti. Sebbene, in effetti, se confrontiamo la velocità di esecuzione di un'istruzione FMA e istruzioni separate per moltiplicare e aggiungere, la velocità reale sarà al livello del 60 percento, il che, ovviamente, è anche molto buono.

In una certa misura, l'introduzione della rapida esecuzione dei comandi FMA è la risposta di Intel alla crescente popolarità dell'elaborazione su GPU. Il set AVX2 e l'hardware disponibile per elaborarlo rendono Haswell un eccellente frantoio di numeri, e queste istruzioni stesse si adattano perfettamente agli algoritmi di calcolo popolari utilizzati sia in campo scientifico che durante l'elaborazione di vari contenuti multimediali.

Di conseguenza, i processori Haswell possono ancora essere significativamente più produttivi dei loro predecessori. Ma non eseguendo più velocemente il vecchio codice, ma fornendo strumenti per implementare meglio i vecchi algoritmi attraverso un nuovo sistema di istruzioni. Ciò, ovviamente, richiede un certo sforzo da parte della comunità di programmazione, ma non comporta costi aggiuntivi per la potenza del processore, che si inserisce perfettamente nella linea generale a cui Intel aderisce ora.

Il desiderio di far funzionare il processore con le istruzioni AVX2 nel modo più fluido possibile ha indotto gli sviluppatori Haswell a pensare di aumentare la velocità della memoria cache. I nuovi comandi dovrebbero elaborare i dati due volte più velocemente di prima. Pertanto, per mantenere un equilibrio nella nuova microarchitettura, la larghezza di banda della memoria cache del primo e del secondo livello è stata aumentata simmetricamente. Sottolineiamo che stiamo parlando di espandere la larghezza di banda della cache L1 e L2, mentre la latenza della memoria cache rimane allo stesso livello di prima.


Di conseguenza, la cache del primo livello è diventata in grado di elaborare due letture a 32 byte e una scrittura a 32 byte per ciclo. La cache di secondo livello può ricevere e inviare 64 byte di dati per orologio. In entrambi i casi, c'è un doppio aumento del throughput rispetto alle microarchitetture di processori delle generazioni precedenti. Inoltre, Haswell è finalmente riuscito a eliminare tutta la latenza aggiuntiva associata agli accessi ai dati non allineati nella cache L1.

Sfortunatamente, i miglioramenti hanno bypassato la cache L3, che ora funziona alla propria frequenza in modo asincrono con i core di calcolo. E sebbene la sua frequenza sia vicina a quella della parte principale del processore, l'asincronia provoca un aumento della latenza. Non è stata prevista alcuna compensazione sotto forma di aumento della produttività. Il ring bus del processore interno in Haswell è stato spostato da Ivy Bridge senza alcuna modifica, quindi è impossibile estrarre più di 32 byte di dati per ciclo dalla cache L3 se lo si desidera.

Riassumendo, notiamo che sebbene Haswell sia simile a Ivy Bridge in termini di microarchitettura dei core di elaborazione, ci sono ancora miglioramenti che possono aumentare la sua velocità di funzionamento su codice normale. Infatti, è stato effettuato un serio riequilibrio tra tutte le fasi del gasdotto, che ha portato al fatto che, sebbene la velocità di recupero e decodifica delle istruzioni sia rimasta praticamente la stessa, l'esecuzione di queste istruzioni può ora essere notevolmente più veloce e con un maggior grado di parallelismo. Ma se questo influenzerà le prestazioni reali di Haswell dipende dal fatto che fosse effettivamente l'esecuzione, e non la decodifica, che era il collo di bottiglia nelle versioni precedenti della microarchitettura Core.

Grafica integrata: raggiunge il livello della GeForce GT 650M

Tuttavia, per sperimentare la maggiore potenza di Haswell con il 100% di probabilità, non è affatto necessario riscrivere i programmi esistenti per AVX2. Il fatto è che in questo processore c'è una parte importante, che occupa circa il 30% dell'area del die, su cui gli ingegneri Intel hanno lavorato molto duramente. Questo è un core grafico integrato. Dato il primato delle applicazioni mobili dei suoi processori, Intel negli ultimi anni ha apportato miglioramenti consistenti alla grafica incorporata in esse e si impegna a garantire che il proprio acceleratore non sia peggiore delle soluzioni di altri sviluppatori, compresi quelli che sono deliberatamente impegnati in soluzioni grafiche. In Ivy Bridge, abbiamo già visto un aumento di quasi il doppio delle prestazioni grafiche rispetto ai processori della generazione precedente, insieme all'introduzione del supporto per tutte le API moderne. La microarchitettura Haswell promette di aumentare la velocità del core grafico di circa la metà.


I piani degli sviluppatori, come possiamo vedere, erano grandiosi, ma allo stesso tempo, come nei core di calcolo, in questo caso Intel ha potuto fare a meno di introdurre profonde modifiche architettoniche. La struttura del nucleo grafico rimane la stessa e l'aumento della produttività è fornito nella sua forma pura da metodi estesi. Intel promette una nuova architettura dell'acceleratore video solo nel 2014, nella prossima generazione di processori con nome in codice Broadwell. Di conseguenza, come i core di elaborazione, il core grafico Haswell ti fa pensare che "così" e il nuovo processore si è rivelato non troppo credibile. Tuttavia, ciò non toglie nulla alla crescita della performance raggiunta, che merita sicuramente di conoscere più in dettaglio le sue fonti. Inoltre, nel nuovo generazione Intel La grafica HD ha trovato un posto per soluzioni ingegneristiche molto divertenti.


A parte alcune ottimizzazioni della pipeline grafica volte a trasferire parte del carico dal driver alle unità hardware e ad aumentare le prestazioni delle unità funzionali più specializzate che eseguono operazioni preparatorie nella pipeline di rendering 3D, il nuovo core grafico è molto simile al core dei processori di generazione precedente con supporto aggiunto DirectX 11.1. Il vantaggio principale del nuovo design è la presenza di un numero significativamente maggiore di attuatori universali. Se la versione massima della grafica Ivy Bridge aveva 16 unità di esecuzione (incluse 4 ALU ciascuna), il numero di unità di esecuzione nel core grafico Haswell può raggiungere i 40 pezzi.

Tuttavia, allo stesso tempo, Intel ha deciso di effettuare una segmentazione più esplicita e, sulla base di un unico progetto, realizzare diverse opzioni grafiche: GT1, GT2, GT3 e GT3e. La versione base è GT2 con 20 attuatori. Si rivolge alla maggior parte dei modelli di processori desktop e offre 4 dispositivi in \u200b\u200bpiù rispetto alla vecchia grafica del processore Ivy Bridge. Tuttavia, la sua versione ridotta, GT1, ha solo 6 unità di esecuzione e differisce poco dalla grafica già presente nei processori Pentium e Celeron esistenti. La variante massima, GT3, che ha 40 attuatori, è GT2 con un cluster esecutivo raddoppiato. Questa versione aggiornata dell'acceleratore video è destinata alla maggior parte delle varianti mobili di Haswell, inclusi principalmente i processori per ultrabook. Un aumento di due volte e mezzo del numero di unità di esecuzione dovrebbe, secondo il piano degli sviluppatori, fornire un duplice aumento delle prestazioni grafiche. Tuttavia, una versione così potente del motore video, GT3, non arriverà sui desktop. Ciò significa che la grafica integrata del desktop di Intel non avrà un aumento delle prestazioni multiplo, ma solo del 30% circa.


Curiosamente, infatti, il cristallo semiconduttore Haswell avrà uno o due attuatori in più rispetto al design previsto. Dispositivi aggiuntivi svolgono il ruolo di ricambio, sono necessari per sostituire i blocchi non funzionanti e per ridurre il numero di processori difettosi.

L'aumento della potenza del cluster esecutivo del core grafico ha fatto sì che gli sviluppatori di design pensassero di non diventare un collo di bottiglia nella fase di mappatura delle texture. Pertanto, la velocità dell'unità texture in Haswell è stata aumentata simmetricamente. Intel promette una velocità di texturing 4 volte più veloce rispetto alla grafica Ivy Bridge, che è un bel vantaggio se si tiene conto della maggiore potenza del resto del motore.

Tuttavia, nonostante tutte le misure prese, anche le prestazioni della GT3 sono sembrate insufficienti a Intel per attirare gli utenti più esigenti dalla parte dei propri core integrati. Pertanto, Intel ha creato una modifica caricata specializzata della GT3e per potenti sistemi mobili di gioco. Nei processori con un tale core, che formeranno una serie H mobile separata, il core grafico GT3 integrato sarà integrato da una memoria eDRAM veloce con un volume di 128 MB e un bus a 512 bit. L'idea è che la larghezza di banda insufficiente della memoria di sistema imponga restrizioni significative alla velocità dei core video incorporati, che in questi casi svolge anche il ruolo di memoria video. eDRAM verrà installato su un substrato con core del processore e funge da cache L4, fornendo un throughput di circa 64 GB / s. Tuttavia, non esiste un'interfaccia dedicata tra il core grafico e l'eDRAM, quindi una cache L4 di questo tipo bufferizzerà tutti gli accessi alla memoria, non solo quelli avviati dal core grafico. Tuttavia, Intel si aspetta che questo particolare additivo sarà in grado di portare Haswell in termini di prestazioni grafiche alla pari con la NVIDIA GeForce GT 650M.


Ma dovrebbe essere chiaro che l'aggiunta di un cristallo eDRAM aggiuntivo al cristallo del processore aumenta in modo significativo il consumo energetico e il costo del processore, pertanto, la CPU con GT3e dovrebbe essere utilizzata esclusivamente in laptop da gioco ad alte prestazioni, dove l'efficienza, la compattezza e il budget non sono discussi. Ciò significa che AMD con le sue APU della generazione Richland non subirà ancora molta pressione da un concorrente. E questo è particolarmente vero per l'ambiente desktop: Intel non ritiene necessario offrire un'ampia gamma di processori con potenti core grafici per questo segmento di mercato.

Tuttavia, anche gli utenti desktop apprezzeranno altri vantaggi del motore grafico di nuova generazione, come la connettività del monitor migliorata. Haswell supporta fino a tre display indipendenti e tutte e tre le connessioni possono essere digitali. Grazie all'introduzione della compatibilità con le ultime versioni delle interfacce HDMI e DisplayPort, le risoluzioni massime supportate hanno raggiunto 4Kx2K.

Una delle creazioni preferite di Intel, l'encoder video hardware Quick Sync integrato nel core grafico, non è stata lasciata senza miglioramenti. Gli sviluppatori lo vedono come uno dei modi per ridurre il consumo energetico dei processori, poiché Quick Sync consente di liberare i core di elaborazione dalle attività di codifica e decodifica video ad alta intensità energetica e molto comuni, trasferendo la loro esecuzione a un nodo specializzato ed economico. Pertanto, con ogni nuova versione del design del processore, le prestazioni di Quick Sync aumentano e il numero di formati supportati da questa tecnologia cresce. Quindi, Haswell, oltre ai formati già masterizzati, sarà in grado di lavorare con SVC (Scalable Video Coding - un derivato di AVC H.264) a livello hardware, decodificare MJPEG (motion JPEG) e codificare video in formato MPEG2. Allo stesso tempo, verrà fornita la piena compatibilità per la codifica e la decodifica con video in risoluzione 4K (4096x2304, 4096x2160 e 3840x2160), che sta attualmente guadagnando popolarità.

Anche le prestazioni nette dell'encoder Quick Sync sono migliorate. E ora è caratterizzato non solo da un throughput elevato, ma anche da una bassa latenza, che apre la strada alla codifica hardware nelle teleconferenze. La velocità di codifica in Haswell è notevolmente superiore a quella di Ivy Bridge, ma in versioni differenti core grafico, è diverso e, a volte. Ma la qualità del video ottenuto con la codifica hardware è migliorata in qualsiasi modifica grafica. La tecnologia di sincronizzazione rapida aggiornata dovrebbe fornire migliore qualità immagine codificata rispetto a Ivy Bridge, anche allo stesso bitrate.

Conclusione

Ovviamente, la nuova microarchitettura Haswell può ispirare sia speranze per un futuro radioso che delusione per il livello di progresso raggiunto. Tutto dipende da cosa conti. Sfortunatamente, lo schema "tick-tock" di Intel spinge invisibilmente a sovrastimare le aspettative, perché Haswell appartiene al ciclo di sviluppo "così", cioè dovrebbe essere percepito come una nuova generazione di microarchitettura. Ma non sono stati apportati molti miglioramenti fondamentali e rivoluzionari. Non stiamo parlando di una riprogettazione cardinale del design del processore, ma solo di una serie di miglioramenti e miglioramenti. Naturalmente, ci sono molti di questi miglioramenti e possiamo persino parlare del passaggio dalla quantità alla qualità. Ma, comunque sia, Intel ha effettivamente forzato la microarchitettura Ivy Bridge esistente e non ha offerto qualcosa di fondamentalmente nuovo. Inoltre, l'enfasi principale durante l'elaborazione eseguita non era sulla ricerca di modi per aumentare le prestazioni di elaborazione, ma sul miglioramento dell'efficienza energetica e sullo sviluppo di capacità grafiche.

Dal punto di vista del paradigma del processore tradizionale, la microarchitettura Haswell offre solo il supporto per il nuovo set di istruzioni AVX2, un miglior parallelismo a livello di esecuzione delle istruzioni e una maggiore larghezza di banda della memoria cache di primo e secondo livello. Queste modifiche sono sufficienti per soddisfare le aspettative del classico appassionato di PC? Difficilmente. Pertanto, la maggior parte degli appassionati, vedendo solo un leggero aumento della velocità di elaborazione, presumibilmente nell'intervallo del 5-15 percento, probabilmente non sarà soddisfatta dei nuovi processori. E questo significa che con il rilascio della nuova famiglia di processori non è previsto alcun aumento di interesse per desktop e laptop familiari.

Ma Intel, nonostante tutto questo, può essere orgogliosa del lavoro svolto. L'azienda ha risolto il compito che si era prefissato. Il design di Haswell si è rivelato così efficiente dal punto di vista energetico ed equilibrato che questi processori saranno senza dubbio in grado di prendere il loro giusto posto nel sottotipo di dispositivi mobili, che sono gustosi per il produttore: tablet produttivi e laptop convertibili. L'azienda non perde ora un boom in questo mercato: in risposta alle usurpazioni di una coorte di aderenti all'architettura ARM, così come alle nuove APU di AMD, Intel ha ora una buona base di partenza. Dopo tutto, la microarchitettura Haswell consente di creare modifiche di progettazione che hanno indicatori di consumo energetico espressi in cifre singole e allo stesso tempo rappresentano gruppi SoC che includono non solo un processore, ma anche un insieme di logica di sistema.

Non abbiamo ancora messo il punto finale su questo. Questo materiale apre solo una serie di articoli sui processori con una nuova microarchitettura. In un futuro molto prossimo, saremo in grado di familiarizzare in modo più dettagliato e con processori reali in mano con incarnazioni sia desktop che mobili della microarchitettura Haswell. E poiForse le nostre conclusioni, tratte solo sulla base della familiarità con la documentazione, cambieranno un po '. E ci voglio davvero credere ...

LA CAMPANA

C'è chi ha letto questa notizia prima di te.
Iscriviti per ricevere gli ultimi articoli.
E-mail
Nome
Cognome
Come vuoi leggere The Bell
Niente spam