Intel Xeon E5-2600 v4 Broadwell-EP Rezension

Broadwell-EP Architektur Das Broadwell-EP-Sortiment basiert auf drei verschiedenen Chip-Konfigurationen mit modularen Designs. Der HCC-Chip misst 18, 1 x 25, 2 mm und umfasst ~ 7, 2 Milliarden Transistoren. Die Architektur selbst verwendet immer noch zwei volle Ringe pro HCC-Chip, aber jetzt ist sie symmetrisch

Broadwell-EP Architektur

Das Broadwell-EP-Sortiment basiert auf drei verschiedenen Chip-Konfigurationen mit modularen Designs. Der HCC-Chip misst 18, 1 x 25, 2 mm und umfasst ~ 7, 2 Milliarden Transistoren. Die Architektur selbst verwendet immer noch zwei volle Ringe pro HCC-Chip, aber jetzt ist sie symmetrisch. In Haswell-EP, der Ring auf der rechten Seite bedient zwei zusätzliche Kerne, Asymmetrie zu schaffen.

Hier verbindet Intel beide bidirektionale Ringe mit jeweils 12 Kernen und deaktiviert eine gleiche Anzahl von Kernen pro Ring, um SKUs mit weniger Kernen zu erstellen. Als Beispiel, das Flaggschiff 22-Core Xeon E5-2699 v4 hat 11 aktive Kerne pro Ring. Während Sie sich den Stapel hinunter arbeiten, werden zwei Kerne gleichzeitig deaktiviert, einer von jeder Seite, zusammen mit den entsprechenden Schichten des Cache der letzten Ebene. So erstellt Intel auch Modelle mit weniger L3.

Jeder aktive Kern ist mit 2, 5 MB LLC-Cache verbunden, der in seinem Ring d ist, und jeder Kern kann jeden Teil des Caches adressieren. Der Vorteil von zwei verschiedenen Ringen ist eine effizientere Planung; alles, was auf einem Ring passiert, ist unabhängig und tritt ohne Störung durch den anderen Ring auf. Routing Ring Verkehr intelligent und in die richtige Richtung, ist natürlich ziemlich wichtig; Eine Transaktion auf dem Ring kann bis zu 12 Zyklen dauern (abhängig davon, wie weit sie reisen muss). Es gibt Intelligenz eingebaut, um dies zu beheben. Wenn kein Kern Informationen im Cache zum "Süden" benötigt und der Datenverkehr nach Norden geht, müsste diese Anforderung eine vollständige Schleife bilden. Stattdessen leitet der Scheduler den Datenverkehr korrekt nach Süden um und ermöglicht so einen schnelleren Zugriff auf Daten im Cache.

Durch das Ausgleichen einer Arbeitslast zwischen zwei Ringen wird auch die Anzahl der Zyklen verringert, die zum Navigieren in einem größeren Ring erforderlich wären. Der einzige Nachteil besteht darin, dass das Routing von Verkehr zwischen den Ringen einen Trip über die gepufferten Switches erfordert, die sie oben und unten verbinden, was eine Verzögerung von (ungefähr) fünf Zyklen verursacht. Jeder Ring hat Zugriff auf seinen eigenen Speicher-Controller (unten), aber nur der Ring auf der linken Seite hat Zugriff auf die QPI-Links und PCIe-Lanes (oben).

Der MCC-Chip misst 16, 2 × 18, 9 mm und hat ~ 4, 7 Milliarden Transistoren, während der LLC-Chip 16, 2 × 15, 2 mm misst und ~ 3, 2 Milliarden Transistoren verwendet.

Intel senkt die Anzahl der Kerne pro Ring von 12 auf 10 in den MCC- und LCC-Konfigurationen, verwendet jedoch weiterhin eine bidirektionale Ringstruktur. Der teilweise durchtrennte Ring des MCC erhält sogar einen zusätzlichen Speichercontroller. Dann entfernt Intel die letzten Spuren des zweiten Rings für den LCC-Chip (Low Core Count), wodurch er und der andere Speichercontroller eliminiert werden. Dies beseitigt auch jeden Grund, die gepufferten Schalter zu haben, welche die zwei Ringe an den größeren Dies verbunden haben.

LCC-basierte Modelle können immer noch vier DDR4-Speicherkanäle über den einzelnen Controller adressieren, was durch die vier Pfeile verdeutlicht wird, die von diesem Logikelement ausgehen. Dies führt zu einem geringen Durchsatzverlust, da es keinen zweiten Speicherplaner gibt, der Diensttransaktionen unterstützt. Aber Intel quantifiziert das Ausmaß der Auswirkungen auf die Leistung nicht.

Leistungssteigernde Technologien

Broadwell-basierte CPUs haben im Vergleich zu Haswell einen IPC-Boost von etwa 5, 5%. Die bemerkenswertesten Verbesserungen betreffen die Gleitkommabefehlsleistung und umfassen eine Reduzierung der Vektor-FP-Multiplikationslatenz von fünf Zyklen auf drei, Verbesserungen des Radix-1024-Teilers, geteilten skalaren Teilers und Hardware-Unterstützung für Vektorerfassungsoperationen (60 Prozent weniger).

Zu den weiteren interessanten Neuerungen gehören virtualisierungsorientierte Funktionen wie Post-Interrupts, die die Warte- und Abfahrlatenz der VMs durch Batching der Interrupts und Protokollierung der Seitenmodifikation reduzieren und den Aufwand für VM-basierte Fehlertoleranz durch schnelles Checkpointing minimieren.

Intel verwendet auch Transactional Synchronization Extensions (TSX), um die Leistung zu steigern, und das neue Hardware Controlled Power Management reduziert angeblich den Stromverbrauch. Wir stellen diesen Anspruch auf Seite 8 auf den Prüfstand.

Orchestrierung und Sicherheitsfunktionen

Intels Resource Director Technology bietet erweiterte Telemetriedaten, mit denen Administratoren die Bereitstellung automatisieren und die Ressourcennutzung erhöhen können. Dazu gehören die Cache-Allocation-Technologie, Code- und Datenpriorisierung (CDP), Speicherbandbreitenbewegung (MBM) und erweiterte Cacheüberwachungstechnologie (CMT).

Dank Crypto Speedup (ADOX / ADCX), einem neuen Random-Seed-Generator (RDSEED), Supervisor Mode Access Prevention (SMNAP) und Virtualisierung erhalten Sie außerdem eine ganze Reihe verbesserter Sicherheitsfunktionen wie schnellere Datenverschlüsselung und -entschlüsselung, Netzwerksicherheit und vertrauenswürdige Computing-Pools Ausnahme (#VE) Technologie.

Modelle und Preise

Top