"Kleine" Karten - Fluch oder Segen?

23. September 2003 / von aths / Seite 2 von 2

Vom CPU-Markt lernen — Das Celeron-Prinzip

Die Idee, Produkte zu beschneiden, um sie zu kleineren Preisen zu verkaufen, hat in der PC-Branche der CPU-Marktführer Intel erfolgreich vorexerziert. Es begann schon zu Urzeiten: Den 8086 gabs auch als 8088, wobei der letztere in einer günstiger herzustellenden 8-Bit-Hardwareumgebung lief. Der 386er, durchgehend 32-Bit-Technik, lief als 386SX in einer 16-Bit-Umgebung. In beiden Fällen blieb die Funktionalität aber erhalten, da mit Hilfe von zwei Takten immer die volle Maschinenwort-Breite realisiert werden konnte.

Der 486SX war ein 486er, bei welchem der interne Coprozessor deaktiviert wurde, wenn er nicht ohnehin defekt war (der nachträglich kaufbare "Coprozessor" war dann ein voller 486DX mit funktionstüchtigem internen Coprozessor). AMD hatte den 386er nachgebaut und bot ihn mit 40 MHz an (Intel taktete nur bis 33 MHz) und so versuchte der Chipzilla, mit dem 486SX auf 25 MHz zu kontern.

Dies war insofern einigermaßen erfolgreich, als dass der 486er dank 5-stufiger Pipeline die MHz-Effizienz gegenüber dem 386er ungefähr verdoppelt. Trotz Beschneidung hatte der Käufer etwas davon, wenn er auf die neue Technik setzte. Der erste Celeron war ein Pentium II ohne L2-Cache — und geriet sofort in heftige Kritik. Da half es auch nichts, dass Intel äußerte, der Celeron sei doch schneller als ein Pentium MMX, sinngemäß, die High-End-Leistung der Vorgänger-Generation würde in jedem Fall übertroffen.

An dieser Stelle ein kurzes Abschweifen zum Pentium MMX: Diese CPU ist unserer Meinung nach einerseits permanent unterschätzt, und andererseits von Intel vernachlässigt worden: Der MMX-Befehlssatz ist für 3D-Spieler zwar uninteressant, können damit doch höchstens Audio-Berechnungen beschleunigt werden, aber der Pentium MMX hatte 32 KB L1-Cache (statt 16) und war zudem Multiprozessor-fähig. Im Desktop-Markt bot Intel maximal eine 233 MHz Version an, für Notebooks wurde er mit bis zu 300 MHz gebaut. Es ließen sich durchaus Parallelen zur originalen GeForce 256 ziehen, deren großer Vorteil eben nicht in T&L bestand, sondern in den 4 Pipelines und der Möglichkeit, den Chip mit logisch 128-bittigem DDR-RAM zu betreiben.

Auch vom Pentium III und vom Pentium 4 gibt es Celeron-Versionen. Man erhält jeweils die volle Technik in einer langsameren Ausführung. Der neuste Celeron mit 2,7 GHz stellt zwar wahrscheinlich diejenige Desktop-CPU dar, welche aus 2,7 GHz das wenigste macht, dafür ist die Celeron-Linie generell preiswert (solange man auf der Intel-Schiene bleibt).

AMDs Erfolg beruht nicht auf dem Athlon allein, der Intel erfolgreich herausforderte, sondern natürlich auch auf dem Duron, einer kleineren Athlon-Variante (mit weniger Cache). Offensichtlich lohnt es sich generell, für eine "kleinere Version" des Produkts nicht nur herunterzutakten (was zudem per Hardware-Modifikation noch immer relativ einfach auszuhebeln ist), sondern immerhin den Aufwand eines neuen Designs zu betreiben. Allerdings dient die tatsächliche Beschneidung natürlich auch dem Selbstschutz der Unternehmen, um ihre Mid-Range-Produkte nicht zu gefährden.

Damit kriegen wir die Kurve zurück zu den Grafikkarten :-). Denn auch hier gibts die Variante, beispielsweise einfach die Hälfte der Pipelines zu deaktivieren. ATi machts vor mit der Radeon 9700. Die 8 Pipelines sind zu 2 Blöcken à 4 Pipes geschaltet, und da bei der Chip-Produktion immer mal Fehler auftreten können, lassen sich unter Umständen "kaputte" Chips als Radeon 9500 weiterverkaufen. Nicht glücklich gewählt halten wir die Bezeichnung "9800SE" für die halbe 9800er Variante, dieser kleine Zusatz heißt nämlich deutlich weniger Leistung. Die CPU-Branche ist vernünftiger, die "Billig-Linie" bekommt einen Extra-Namen.

Sprechen wir die Techlevel an. Interessanterweise gab es lange Zeit keine wirklich preiswerte DX8-Karte, schon gar nicht als MX-Version. Die erwartete GeForce3 MX blieb aus, die Radeon 9200 taktet zwar niedrig, verfügt aber über 4 Pipelines. Dass man sich im Low-Price-Segment lange Zeit mit DX7-Technik zufrieden geben musste, trug sicherlich mit dazu bei, dass es keine "DX8-Spiele" geben wird. DX8-Pixelshading ist bis heute lediglich zuschaltbares Eye-Candy, so wird es aller Voraussicht nach auch bleiben.

Spiele, die voll auf Pixelshading setzen, werden mindestens DX9-Hardware verlangen. Kaufbare DX8-Hardware ist zu langsam, um durchgehendes hochwertige Pixelshading zu ermöglichen. Angesichts der 9-Bit-Integer-Genauigkeit (pro Farbkanal, insgesamt 36 Bit) von GeForce 3/4 muss man zudem sagen, dass solche Pixelshader-Effekte sowieso limitiert sind (was die Render-Genauigkeit angeht, haben wir uns bei der GeForce Vereinfachungen erlaubt).

Hochwertiges, detailreiches Bumpmapping benötigt 16 Bit Auflösung pro Farbkanal (64 Bit insgesamt), besser noch 24 Bit (96 Bit insgesamt). Von den maximal 4 Texturen und 8 Instruktionen pro Pass des Pixelshaders 1.1 - 1.3 mal ganz zu schweigen, das reicht zwar für die meisten einfachen Bump-Mapping-Arten, aber kaum für prozedurale Materialien.

Viele modernere 3D-Spiele zeigen Color Banding. Die interne Rechengenauigkeit der weit verbreiteten GeForce-Karten ist hier ungenügend. Das gilt auch für den Integer-Modus der GeForceFX 5900 (12 Bit pro Farbkanal, insgesamt 48 Bit). Auf NextGen-Spiele, welche die installierte DX8-Basis nutzen, kann man von vornherein keine zu hohen Erwartungen stellen. Die große Grafik-Revolution braucht mindestens Pixelshader 2.0. Demzufolge ist es wichtig, dass DX9-Hardware schnell ansehliche Marktanteile gewinnt. Die Frage nach der Leistung stellt ein Entwickler immer erst, nachdem das Featureset geklärt ist.

Preiswert = 3D-Features statt Qualität-Features

DX8-Hardware bereitete den Weg für Pixelshader, ist jedoch für "ernsthaftes" Pixelshading wenig zu gebrauchen (Parallele mit T&L: Das noch recht starre T&L nach DX7 führte T&L ein, vielseitig einsetzbar wurde es dann ab DX8-Niveau mit VertexShader 1.1). Lediglich, um Engines zu schreiben, die schon mal das Pixelshader-Modell verwenden, oder um mit Hilfe der Pixelshader-Forderung von mindestens 4 Texturen pro Pass das herkömmliche Multitexturing beschleunigen zu können, wird DX8-HW in der Praxis eingesetzt.

Und gelegentlich für einige Eye-Candy-Effekte, wie Wasseroberflächen, wobei solche Effekte oftmals recht aufgesetzt wirken. Doom III wird von DX8-Hardware Gebrauch machen, und zwar sehr intensiv, allerdings nur um Effekte auf DX7-Techlevel beschleunigen. Selbst mit DX9-Hardware steigt die Grafikqualität gegenüber GeForce 256 nur marginal (OpenGL-Engines mit DirectX-Versionen zu vergleichen, ist natürlich generell riskant, weshalb unser Vergleich auch ein wenig hinken darf).

Inzwischen gibt es eine preiswerte DX8-Lösung, Radeon 9200, ironischerweise bietet diese Karte sogar noch die vergleichsweise fortschrittlichen 1.4-er Shader (6 Texturen und 12 Samplings pro Pass, ingesamt 16 Instruktionen, das alles bei vermutlich 14 Bit Auflösung). Dass GeForce4 MX keine Pixelshader bietet, ist in der Praxis weitgehend zu verschmerzen. Die Karten sind (abgesehen von der 420er und einigen fälschlicherweise als 440SE gelabelten 420er) sehr effektiv, wenn es darum geht, ihre theoretische Füllrate praktisch umzusetzen. Solange die Effizienz durch unnötige Kastrierung auf 64 Bit nicht leidet, bleiben die "Kleinen" für den normalen Spieler eine gute Wahl.

Schneiden wir als letztes Thema die Frage nach AA- bzw. AF-Tauglichkeit an. AA (Anti-Aliasing) soll für glattere Kanten sorgen, AF (Anisotropes Filtern) den Detailgrad verzerrt dargestellter Texturen erhöhen. Anstatt theoretischer Abhandlungen wollen wir praktische Kurzbetrachtungen einiger Karten anbieten.

GeForce2 MX: Beherrscht 1x2 und 2x2 Supersampling (Direct3D) bzw. 1,5x1,5 und 2x2 Supersampling (OpenGL), aber ist dafür generell zu schwach. Wer in 1024x768 mit 32 Bit spielen möchte, gibt seiner Karte schon genug zu tun. Moderne Spiele können nur noch in 800x600x16 vernünftig laufen, was angesichts des Alters der Karte aber keine schlechte Leistung darstellt. Es wird für die Texturen auch 2x AF geboten, was viel Füllrate frisst, aber wenig Bandbreite. Da Füllrate im Vergleich zur Bandbreite im Überschuss vorhanden ist, kann 2x AF zumeist ohne große "Strafe" zugeschaltet werden (meistens zwischen 15 und 30% Leistungsverlust).

Radeon bis zur 9200: Beherrscht bis zu 2x3 Supersampling und 16x AF. Für Anti-Aliasing haben die Karten praktisch keine Reserven, selbst die "Großen" dieser Ära, wie die 8500 oder 9100, lassen bei vernünftigen Frameraten maximal 2x Supersampling zu. Dafür kann meistens 16x AF zugeschaltet werden, auch bei den kleineren Versionen. Dazu muss man wissen, dass nur 90°-Winkel volles AF bekommen, und diese Karten im Zusammenhang mit AF lediglich bilinear filtern (was Füllrate spart, aber wieder MIP-Banding einführt).

GeForce4 MX ab MX440: Wie Radeon bietet die GeForce4 MX vorzeigbare 32-Bit-Leistung. Vor zwei Jahren war 32 Bit im Einsteiger-Segment eine Option für Qualität und keine Selbstverständlichkeit. Trotz Multisampling frisst 2x Anti-Aliasing 50% Füllrate, die Gründe hierfür sind uns nicht so recht klar. Weil beim 2x-Modus hier aber das gute "Rotated Grid"-Abtastmuster zum Einsatz kommt, findet eine generell brauchbare Glättung statt, weshalb zumindest in moderaten Auflösungen Anti-Aliasing nutzbar ist. Wer etwas mehr Geld zur Verfügung hat und Anti-Aliasing möchte, sollte den Kauf einer preiswerten GeForce4 Ti4200 erwägen. Die GeForce4 MX bietet wie ihr Vorgänger 2x AF. Das kostet meist spürbar Leistung, bringt aber auch bessere Texturen. Moderne Titel fordern der Karte alles ab, so dass man auf solche Bildqualitäts-Verbesserung verzichten muss, dafür gibt es anbetrachts des Preises ziemlich viel Rohleistung.

GeForceFX 5200 mit 128-Bit-Bus: Die gleichzeitig erforderlichen 128 MB RAM sind Verschwendung, "gebraucht" werden sie nicht. Die Rohleistung dieser Karte ist auf einem brauchbarem Niveau (etwa vergleichbar mit GeForce4 MX440 8X, vielleicht knapp darunter), für AF (bis 8x) gibt es die FX-typischen "Optimierungen", die Qualität gegen Leistung eintauschen. Anti-Aliasing ist trotz der Multisampling-Implementierung nur bedingt empfehlenswert. Das Problem: Bei weniger anspruchsvollen Spielen (mit wenigen Textur-Schichten) geht die relative Leistung besonders stark zurück. Bei anspruchsvolleren Spielen mit mehr Texturschichten ist der relative Einbruch geringer, dafür die Grundgeschwindigkeit niedriger. DX9-Features sind allenfalls eine nette Dreingabe, Pixelshader 2.0 Berechnungen werden sehr langsam ausgeführt.

Einfach gesagt, dass man im Entry-Level-Segment die Reserven für Anti-Aliasing und ähnliche Sperenzchen bekommt, kann man vergessen. Immerhin: Die Leistung für 800x600x32 oder 1024x768x32 ohne AA und/oder AF ist da.

3Dlabs und Matrox sind die einzigen neben den beiden Großen, die ebenfalls noch High-End anbieten. Allerdings zielen sie nicht auf den Gamer-Markt ab, so dass lächerlich hohe Preise gefordert werden, während die Spieleleistung vergleichsweise bescheiden ist. Die kleinste aktuelle Karte von 3Dlabs (VP560) kostet ca. doppelt so viel wie eine GeForce4 Ti4200, und liegt doch deutlich unter 4200er Niveau. Das zu knacken schafft auch nicht die VP760, dabei wäre für ihren Preis schon eine Radeon 9800 Pro zu bekommen ...

Die kleinste aktuelle Parhelia-Version (Parhelia 512 Bulk mit 128 MB RAM) kostet so viel wie eine Radeon 9800. Die Parhelia-Leistung erreicht nur knapp GeForce4 Ti4200 Level. Natürlich ist dabei zu berücksichtigen, dass die Schwerpunkte der Treiber-Optimierung nicht auf Spielen liegt.

Fazit:
Sofern man keine unsinnig beschnittene Version kauft (mit 64-Bit Speicherinterface) oder keine unsinnig hoch getaktete Variante, die nur dazu da ist, die preisliche Lücke zum Mid-Range zu schließen (früher GeForce4 MX460, heute GeForceFX 5200 Ultra), bieten die "kleinen" Karten der "großen" beiden Marktführer anständige Leistung für ihr Geld. Sie sind weitgehend frei von Kompatibilitätsproblemen und Feature-mäßig aktuell genug. Nur für Anti-Aliasing oder/und anisotropes Filtering sind sie im gewöhnlichen kaum einsetzbar.

In dieser Kolumne wurden Anregungen von nggalai, zeckensack, Demirug, und anderen aufgegriffen. Hilfreich waren auch Benchmarks von Stefan Payne.