Zum 3DCenter Forum
Inhalt




Celeron M vs. Pentium M & Athlon 64

24. April 2006 / von Raff & BlackBirdSR / Seite 1 von 3


Der Pentium M an sich ist schon ein Phänomen. Eine neue CPU-Familie entspringt "nahezu" aus dem Nichts und wird in kürzester Zeit zu Intels Prestigeträger - zumindest in den Herzen vieler User. Doch was macht diesen Prozessor nun so schnell? Wo kommt er her und wie geht es weiter? Was taugt der Celeron M? Um das zu klären, wagen wir erst einen kleinen Abstecher in die Vergangenheit.


   Die Architektur des Pentium M

Entwickelt wurde der Pentium M von Intels Designteam in Israel. Dort setzte man sich das Ziel, eine potente und trotzdem sparsame Notebook-CPU zu entwickeln. Vor Beginn dieses Projekts arbeitete man an "Timna", einem Nachfolger des Celeron für Budget-PCs. Timna basierte weitgehend auf dem Pentium Pro (Pentium II/III) Design, wurde von Intel aber noch vor Ende des Projekts ad acta gelegt. Vielleicht ist es der Erfahrung mit der Weiterentwicklung der Pentium Pro Architektur zu verdanken, dass man als Basis für den Pentium M auf jenes Design setze. Betrachtet man den internen Aufbau, findet man zwar einiges Neues, aber auch zweifellos Hinweise auf seine Herkunft: Der Pentium M ist ein gar nicht so entfernter Verwandter des Pentium Pro - einer Architektur, deren Geburt bereits vor mehr als einem Jahrzehnt gefeiert wurde.

Hingegen gibt es Gemeinsamkeiten hinsichtlich der Mikroarchitektur mit dem Pentium 4 bis auf den verwendeten Bus kaum welche. Vielmehr hat man auf bewährtes gesetzt und es an vielen Stellen verbessert. Dabei beschäftigte man sich weniger auf die Recheneinheiten selbst, sondern optimierte deren Befehls- und Datenfluss. Im gleichen Atemzug konzentrierte man sich darauf, den Stromverbrauch der CPU durch neue Technologien und einige Tricks zu senken.

Um die Verbesserungen aufzuzeigen, wollen wir uns für eine Weile an die Fersen eines x86-Befehls heften. Den Anfang macht dabei der "quad-pumped" FrontSideBus (FSB), wie er beim Pentium 4 verwendet wird. Im Vergleich zum alten 133 MHz FSB des Pentium III erlaubt dieser zusammen mit DDR1/2 weitaus schnellere Transaktionen mit höherer Bandbreite, was kostspielige Wartezeiten vermindert. Im nächsten Schritt gelangen wir in den Level2-Cache des Pentium M. Dieser relativ große Zwischenspeicher (Dothan = 2 MByte, Banias = 1 MByte) stellt Daten und Befehle für die CPU bereit. Mit einer Zugriffszeit von offiziell 10 Takten arbeitet er zudem erstaunlich schnell. Der für weitaus höhere Taktraten ausgelegte Pentium 4 muss hier länger auf seine Daten warten.

Schlussendlich wird unser Befehl in den Level1-Cache der CPU geladen. Dieser wurde im Vergleich zum alten Pentium III verdoppelt, ist aber immer noch auf traditionelle Weise in Daten- und Behlscache aufgeteilt. Weniger offensichtlich sind allerdings die kleineren aber wichtigen Änderungen am Cache-System des Pentium M. Insgesamt erreicht die CPU damit einen höheren Durchsatz und lässt weitere Änderungen am Kern damit erst vollends zur Geltung kommen. Um die Verlustleistung zu senken, können zudem ganze Teile des Level2-Caches abgeschaltet werden. Das verringert die neu gewonnen Leistung zwar etwas, ist in Anbetracht des geringeren Energieverbrauchs aber mehr als gerechtfertigt.

Weiter auf den Spuren des x86-Befehls, gelangt dieser an eine Art Bahnhof, an dessen Ende er seine kurze Reise auch schon wieder beendet. Denn der Pentium Pro war mit die erste x86-CPU, die gar keine x86-Befehle mehr ausführen konnte. Es erwies sich günstiger, die komplexen x86-Befehle in RISC-ähnliche Mikroinstruktionen [µops] aufzubrechen. Diese Aufgabe übernehmen Decoder: Ankommende x86-Befehle werden in ihre entsprechenden RISC-Gegenstücke übersetzt und weiter auf die Reise geschickt. Dabei muss ein x86-Befehl durchaus durch zwei oder mehr µops ersetzt werden. Der Pentium M besitzt in gewisser Weise, wie bereits sein Ahne, drei dieser Decoder. Während er damit mehr Befehle übersetzen kann als sein etwas kümmerliches Gegenstück im Pentium 4, erreicht er trotzdem nicht die Leistung eines K7 oder K8.

Um die übersetzten Befehle auf die Reise in Richtung Ausführungseinheiten zu schicken, wendet der Pentium M dann noch einen Trick an. Anstatt alle Anweisungen einzeln durch die Pipeline weiterzusenden, können spezielle Instruktionen zusammen auf den Weg geschickt werden. Diese Fusion aus Befehlen bezeichnet Intel als "Micro-Op-Fusion". Störende Lese- und Schreiboperationen lassen sich auf diese Weise an einen Befehl für die anderen Ausführungseinheiten koppeln, erst zur Ausführung wird diese Verbindung dann aufgebrochen. Auf dem Weg dorthin spart man Transistoren, hat weniger Verlustleistung und gewinnt nach Angaben von Intel auch fünf bis sieben Prozent Leistung. Eine ähnliche Funktion findet sich auch im K7 und K8: Dort werden x86-Befehle in Macro-Ops übersetzt, die erst vor der Ausführung in ihre beiden Bestandteile zerlegt werden.

Doch nicht jeder Befehl zur Ausführung befindet sich zu Recht in der Pipeline. Um die korrekte Ausführung von Sprüngen im Code sicher zu stellen, besitzen moderne CPUs über eine Sprungvorhersage. Diese ausgeklügelten Einheiten versuchen spekulativ Verzweigungen im Code zu erkennen. Die Erfolgsquote ist dabei sehr hoch: Über 95% der Sprünge werden korrekt vorhergesagt. Der Rest hat katastrophale Auswirkungen auf die Performance, denn bisherige Arbeitsschritte müssen verworfen werden und die Arbeit beginnt von vorne. Intel hat die Sprungvorhersage im Pentium M nicht nur auf den Stand des Pentium 4 gebracht, sondern darüber hinaus verbessert. Als Ergebnis verweist Intel auf bis zu sieben Prozent mehr Performance und abermals geringere Leistungsaufnahme.

Kommt unser Befehl dann endlich in die Nähe der Ausführungseinheiten, verteilen sie sich auf verschiedene Ports, ähnlich Schleusen. Hier findet sich die größte Ähnlichkeit zum Pentium III. An den Integereinheiten wurden keine offensichtlichen Änderungen vorgenommen, einzig die Gleitkommaeinheit wurde minimal verbessert. Somit ist sie etwas über dem Niveau des Pentium III, aber damit immer noch weit unterhalb der Leistung des K7/8. Geändert hat Intel allerdings die Funktionsweise des FPU-Stacks. Dieser ist ein etwas unangenehmes Überbleibsel aus der alten x86-Zeit und benötigt einen zusätzlichen Befehl, der in einer der Integereinheiten ausgeführt wird. Im Pentium M erledigt diese Aufgabe eine eigene Funktionseinheit, die den Befehl von Anfang an aus der Pipeline nimmt. Somit wird diese, zusätzlich zu Gewinnen aus der Micro-Op-Fusion, weniger belastet und die Integereinheit kann einen anderen Befehl ausführen.

Nach der Ausführung werden die Befehle der Reihe nach entfernt. Das resultierende Ergebnis der Ausführung ist das letzte Andenken an unseren x86-Befehl, mit dem wir unsere Reise begonnen haben. Der Pentium M ist hier jedoch noch nicht am Ende. Um weiter Verlustleistung einzusparen, können unbenötigte Funktionseinheiten im voraus deaktiviert werden. Als Krönung lässt sich der Pentium M quasi schlafenlegen: Verschiedene Modi entkoppeln die CPU vom Rest des Systems, unterbinden alle Operationen, die im Leerlauf stattfinden würden, und schalten sogar das Taktsignal ab. Und das alles während der Dauer nur eines Tastenanschlags auf dem Keyboard.


   Der kleine Bruder: Celeron M

Wie unterscheidet sich nun der Celeron M von seinem großen Bruder? Dieser "Dothan 1024" greift nur auf die Hälfte des Level2-Caches zurück und auch einige der ausgeklügelten Stromsparmechanismen ("SpeedStep") fehlen ihm. Sie sorgen in Notebooks dafür, dass der Pentium M dynamisch über den Multiplikator heruntergetaktet werden kann – letzterer ist also nach unten offen. Desktop-Overclocker schätzen die Funktion vor allem, weil die Architektur stark mit erhöhten FSB-Takten skaliert. Beim Celeron M ist der Multiplikator nicht veränderbar, hohe FSB-Takte weit über 200 MHz fallen damit kategorisch flach.

Man kann weiterhin davon ausgehen, dass Intel generell Chips mit weniger attraktiven elektrischen Eigenschaften als Celeron verkauft. Also Exemplare, deren Spannung und Taktrate eventuell nicht immer die exzellenten Werte des Pentium M erreichen. Für einen Unterschied in der Rechenleistung ist aber nur der Level2-Cache von Bedeutung. Traditionell liefert Intel Celerons mit vollständigem Level2-Cache aus, der allerdings ab Werk auf die Hälfte beschränkt wird. Eine Reaktivierung ist übrigens - anders als bei GPU-Pipelines – definitiv nicht machbar.

Im Zuge der Deaktivierung verloren bisherige Celerons auch an Cache-Assoziativität. Dadurch verschlechtert sich die Chance, Daten im Cache vorzufinden, und es dauert länger, sie zu erhalten. Zusammen mit der geringeren Größe dieses Zwischenspeichers war dies bisher der Leistungskiller im Celeron. Anscheinend gilt die Verringerung der Assoziativität auch für Celerons mit Banias-Kern (512 kByte Level2-Cache), nicht aber mehr für Dothan-Abkömmlinge (1 MByte Level2-Cache). Der Leistungsunterschied zwischen den momentan erhältlichen Pentium M und Celeron M sollte also nur relativ gering ausfallen.

Wir wollen nun aber endlich klären, wie groß der Leistungsverlust wirklich ist. Kann eine CPU für 70 Euro mit etwas Tuning die Leistungsspitze unter den SingleCore-CPUs erklimmen? Kann der Dothan-Celeron mit einem exzellenten Preis/Leistungs-Verhältnis an die einstmaligen Pentium II/III basierenden Celerons anknüpfen?


   Die Testprobanden & Testkonfiguration

Um die Leistung von Intels Sparflamme zu analysieren, stellten wir die Elite unter den Einkern-Prozessoren daneben. Der Celeron M rechnet somit nicht nur an der Seite seines großen Bruders Pentium M, sondern muss sich obendrein gegen den Athlon 64 mit San Diego-Core behaupten. Letzterer verfügt, genau wie der Celeron, über ein Megabyte Level2-Cache. Zur Vergleichbarkeit für potenzielle Aufrüster stellten wir zusätzlich eine noch immer weit verbreitete Athlon-XP-Konfiguration daneben.

Vorweg sei gesagt: Bei diesem Test ging es uns nicht um eine Bauanleitung für einen Desktoprechner mit einer Mobile-CPU, sondern um die genaue Betrachtung der Pro-MHz-Leistung. Also dem Dampf, den die Prozessoren auf gleichem Takt bei angenäherten Außenbedingungen auswerfen.

Als vereinheitlichte Taktfrequenz wählten wir reale 2.4 GHz, was mehrere Gründe hat. Zum einen ist dies der Standardtakt von AMDs Single-Core-Flaggschiff Athlon 64 4000+ und zum anderen erreicht man hier die Taktgefilde, die praktisch jeder Celeron M mit geringfügigen Spannungserhöhungen mitmacht. Das erste Problem ergibt sich durch den festen Multipilkator des Celeron M, wodurch Tests bei den sonst üblichen 200 MHz FSB/HT-Takt nicht möglich sind. Einen Kompromiss fanden wir schließlich bei einem FSB-Takt von 172 MHz und einem Multiplikator von 14 (Standard des Celeron M 360), was in genau 2408 MHz resultierte.

Der Pentium M absolvierte die Tests daraufhin in den selben Einstellungen, mit dem Arbeitsspeicher auf gleichem Takt. Den richtigen RAM vorausgesetzt, kann man aber auch mit einem solchen FrontSideBus RAM-Frequenzen überhalb von 200 MHz fahren. Der 5:4-Teiler erlaubt exakt 215 MHz – dies wurde unser zweites Setting für Intels Mobiles, um zu klären, wie sich ein erhöhter Speichertakt allein auswirkt. Da wir beim Pentium M freies Spiel hatten, bieten wir optional noch Werte mit einem FSB von 241 MHz und 193 MHz RAM-Takt sowie einem FSB von 219 MHz mit synchronem Speichertakt.

Der Athlon 64 verfügt bekanntlich über keinen FSB im herkömmlichen Sinne mehr, sondern über einen HyperTransport-Takt. Um 172 MHz FSB bei gleichem Speichertakt zu simulieren, stellten wir den HT auf 215 MHz bei einem Teiler von 5:4. Dem gänzlich anderen Testsystem ist es allerdings zu verschulden, dass wir nicht auch mit 215 MHz RAM-Takt, sondern nur mit den standardisierten 200 MHz testen konnten.

Fassen wir die Einstellungen zusammen:

    Celeron M (360J, 1400 MHz CPU-Takt und 100 MHz FSB-Takt Standard):
  1. 172/172 MHz FSB-/Speichertakt
  2. 172/215 MHz FSB-/Speichertakt
    Pentium M (740, 1733 MHz CPU-Takt und 133 MHz FSB-Takt Standard):
  1. 172/172 MHz FSB-/Speichertakt
  2. 172/210 MHz FSB-/Speichertakt
  3. 241/193 MHz FSB-/Speichertakt
  4. 219/219 MHz FSB-/Speichertakt
    Athlon XP (1700+, 1466 MHz CPU-Takt und 133 MHz FSB-Takt Standard):
  1. 172/172 MHz FSB-/Speichertakt
  2. 210/210 MHz FSB-/Speichertakt
    Athlon 64 (4000+, 2400 MHz CPU-Takt und 200 MHz HyperTransport-Takt Standard):
  1. 215/172 MHz HyperTransport-/Speicher-Takt
  2. 200/200 MHz HyperTransport-/Speicher-Takt

Jetzt fragen sich bestimmt einige, warum wir die Mobilprozessoren weit außerhalb ihrer Spezifikation betreiben und den Athlon 64 in einem Fall sogar untertakten. Ganz einfach: Jeder, der auf die Idee kommt, so einen Intel-Prozessor für sein Desktop-System zu nutzen, der wird ihn nicht mit dem Standardtakt betreiben. Allein die Idee erfordert etwas Mut, abseits des Mainstreams zu agieren - das enorme Taktpotenzial der Architektur tut ihr übriges. Wir vergleichen also standardisierte Alltagsbedingungen des Athlon 64 mit den Einstellungen, die potenzielle und gegenwärtige Mobile-Nutzer fahren (würden).

Zum Einsatz kamen dann drei Testsysteme: Nummer eins stellt das Heim für den Pentium- und den Celeron M dar, Nummer zwei beherbergte den Athlon 64 San Diego, Nummer drei den Athlon XP Thoroughbred.


Pentium M & Celeron M Asus P4P800 SE (i865PE, PAT an) + CT-479
nVidia GeForce 6800 128 MB @ 425/450 MHz (AGPx8)
2x 1024 MB Infineon PC3200 @ 2-3-2-5
ForceWare 81.98 WHQL, High Quality
Windows XP SP1, DirectX 9.0c Februar-Update
Athlon 64 Asus A8N32-SLI (nForce4 SLI X16)
nVidia GeForce 6800 GS 256 MB @ 425/450 MHz (PCIe x16)
2x 1024 MB Samsung PC3200 @ 2-3-2-5
ForceWare 81.98 WHQL, High Quality
Windows XP SP1, DirectX 9.0c Februar-Update
Athlon XP Abit NF7-S 2.0 (nForce2 Ultra 400)
nVidia GeForce 6800 128 MB @ 425/450 MHz (AGPx8)
2x 1024 MB Infineon PC3200 @ 2-3-2-5
ForceWare 81.98 WHQL, High Quality
Windows XP SP1, DirectX 9.0c Februar-Update


Unsere Bemühung war, die Systeme so ähnlich wie möglich zu gestalten. Der größte Unterschied findet sich auf Grund der unterschiedlichen Interfaces bei der Grafikkarte. Die GeForce 6800 GS (PCIe) läuft etwas untertaktet auf dem Niveau der GeForce 6800 für AGP. Dass erstere über ein doppelt so großes Speicherpolster verfügt, soll angesichts der genutzten Auflösung nicht weiter stören. Damit fiel auch schon das Stichwort für unseren Testparcours.






Kommentare, Meinungen, Kritiken können ins Forum geschrieben werden - Registrierung ist nicht notwendig Weiter / Next

Shortcuts
nach oben