T&L - das nicht eingelöste Versprechen

19. August 2001 / von aths / Seite 3 von 7

Marketing-Angaben unter der Lupe

Auf der Packung von Grafikkarten mit Hardware-T&L steht in der Regel etwas von so und so viel Millionen Dreiecke / Sekunde, welche transformiert werden können. nVidia nennt für die GeForce2 MX in einem offiziellen Dokument beispielweise 20 Millionen Dreiecke pro Sekunde. Allerdings kann keine - selbst moderne - CPU diese 20 Millionen Dreiecke/Sekunde liefern, die dann transformiert werden sollen. Dem Käufer wird aber vorgegaukelt, dass sein System mit dieser Karte so viel schafft. Man kann bei heute eingesetzten CPUs davon ausgehen, dass (bei Vernachlässigung von Bandbreitenproblemen) Grössenordnungen von höchstens 8 Millionen Dreiecke / Sekunde drin sind - mehr nicht.

nVidia gibt die Leistung einer GeForce2 MX T&L mit 20 Millionen Dreicke pro Sekunde an.

Interessant: nVidia geht von einem Eckpunkt pro Dreieck aus. "20 Mio. Dreiecke / Sekunde" heisst in Wahrheit, 20 Millionen Eckpunkte / Sekunde. In der Tat kann man Eckpunkte "recyclen". So kommt ein Rechteck, das aus zwei Dreiecken besteht, ja mit nur 4 (statt 6) Punkten für 2 Dreiecke aus. Die Verfahren hierzu heissen "Stripes" und "Fans", und werden auch von den meisten Nicht-T&L-Karten hardwareseitig unterstützt. Die Annahme, dass jedes zusätzliche Dreieck nur einen neuen Punkt benötigt, ist jedoch reines Marketing, damit sich grosse Zahlen ergeben.

Kein Ausrutscher: Die 20 Millionen "Dreiecke" sind offiziell.

Selbst dann, wenn die CPU so schnell wäre, dass sie die Transfomierungs-Einheit voll ausreizt, würden heutzutage eingesetzte AGP-Busse bereits limitierend wirken. Mit den 20 Millionen Eckpunkten kann man etwa 11-12 Millionen Dreiecke darstellen. Alleine der Strom der Geometrie-Daten würde sich in Grössenordnungen von ungefähr 1,6 GB / Sekunde bewegen! Das schafft nicht einmal 4x AGP. (Die Bandbreite von 4xAGP beträgt 1 GB pro Sekunde). Aber das AGP-Problem wird sich in der Praxis nicht stellen, da bei PCs mit SDRAM @ 133 MHz die Speicherbandbreite ebenfalls bei ca. 1 GB/s erschöpft ist. Und hiervon steht nur ein Bruchteil für das Auslesen der Geometrie-Daten bereit, so dass in der Praxis selbst ein DDR-RAM-System "dicht macht" und die Geometriedaten limitiert.

Also kann abgesehen von der CPU-Geschwindigkeit ein aktueller PC prinzipiell nicht so viele Eckpunkte liefern. Damit sollte die Sinnlosigkeit der Angabe mit den 20 Millionen "Dreicken" (Eckpunkten) pro Sekunde schon belegt sein. Doch richtig witzig wird es erst jetzt: Die Geometrie-Datenflut benötigt auf jeden Fall Speicherbandbreite der Grafikkarte selbst. (Das gilt natürlich auch für Karten ohne T&L. Doch mit diesen Feature sollen laut Packung bzw. Datenblatt ja so und so viele "Dreiecke pro Sekunde" möglich sein. Wie schon erwähnt, wurde auf einen extra Bus für T&L-Daten verzichtet.). Bei der genannten GeForce2 MX würde alleine der Geometriestrom bei den 11-12 Millionen Dreiecken ca. 60% der gesamten verfügbaren Grafikkarten-Bandbreite belegen. Und dies obwohl diese Karte spätestens bei 32 Bit auch bei wenigen Polygonen schon ein Bandbreitenproblem hat. Das wird in den nVidia-Spezifikationen natürlich nicht gesagt.

Eine Geometriedaten-Kompression könnte hier mildernd wirken, ist bislang jedoch nicht implementiert worden. Dass abgesehen von der Bandbreite die Rendereinheit mit mehr Dreiecken ebenfalls mehr gefordert ist, wurde bereits weiter oben genauer ausgeführt. Freundlich gesagt, sind 20 Millionen "Dreiecke" (Eckpunkte) sehr realitätsfern. Ausserdem gelten die Angaben nur, wenn die L-Einheit (für die Beleuchtung) nicht um Einsatz kommt. Mit Hardware-Beleuchtung sinkt die Leistung heutiger T&L-Beschleuniger dramatisch ab.

Kurz, die Anzahl der Dreicke pro Sekunde ist eine Marketing-Lüge, da es sich um Eckpunkte handelt. Die Anzahl ist einerseits irrelevant, weil die CPUs dafür heute noch nicht verfügbar sind - und nebenbei kein Spiel auch nur annähernd so viele Polygone benutzt. Weiterhin sind die Bandbreiten dafür noch nicht ausgelegt. Das gilt für den PC-Speicher, den AGP-Bus und die Grafikkarten-Bandbreite selbst. Ausserdem kann der Chip eh nicht anähernd so viele Dreiecke rendern, wie die Transformierung-Einheit theoretisch liefern könnte. Es wurden also ständig Fantasie-Zahlen veröffentlicht.

... Kennen wir das nicht schon?

Doch allem zum Trotz, die GeForce256 war extrem schnell und brach alle Rekorde. Woran lag das? Einfach daran, dass im Chip vier Pipelines integriert sind. Damit gibt es Füllrate satt, nämlich (bei den 120 MHz Chiptakt) 480 Megapixel. Der RAM lief mit 166 MHz SDRAM, die DDR-Versionen gar mit 150 MHz DDR-RAM, so dass für damalige Zeiten anständige Speicherbandbreiten von 2,5 GB/s bzw. 4,5 GB/s verwirklicht wurden. Die Karte war aufgrund ihrer Rohpower so schnell. T&L spielte da kaum mit hinein.

Man hätte eigentlich längst gelernt haben müssen: Intels Pentium MMX brachte durch den grösseren Level1 Cache seine nachweisliche Mehr-Leistung, die man nicht abstreiten konnte. Die MMX-Befehle zogen nur die Wertung in eigens erstellten neuen Benchmarks hoch. Die höhere Geschwindigkeit wurde durch Intels Marketing so geschickt den Buchstaben MMX zugeschrieben. Man bekam den Eindruck vermittelt, der PC würde durch sie zur Multimedia-Maschine mutieren. Cleveres Marketing bleibt Intels Stärke: Zunächst machte eine MMX-Erweiterung die Farben bunter. Später wurde das Internet dank dem Pentium III mit den "Internet SSE"-Befehlen schneller. Dass solchen Marketing-Begriffen alles mögliche angedichtet wird, sollte eigentlich jeder Redakteuer wissen und beurteilen können.

In der Tat: Sie entlarvten MMX als gut gemeint, aber nur bedingt brauchbar. Die Magazine outeten ebenso die ISSE-Befehle als zwar deutlich nützlicher, aber verwiesen gleichzeitig darauf, dass sie mit dem Internet nichts zu tun haben. Es war nämlich nur Intels Antwort auf die 3DNow!-Innovation von AMD. Obwohl Intel den Pentium III als ideale CPU für das Internet vermarkten wollte, wurden die Leser zumeist durch Kolumnen und ernsthafte Artikel aufgeklärt.

Wie sah es nun aber bei T&L aus? Da wird bis heute fast nur das T, die Transformierung, genutzt. Dieser Nutzen fällt aber seit je her nur in Technologie-Demos und -Benchmarks wirklich überzeugend aus. Das erinnert stark an MMX. Das mitgeschriebene L, die Hardware-Beleuchtung, kommt nur in sehr seltenen Fällen zum Einsatz. Das alles ist seit der Einführung kein Geheimnis. Leider fiel die Betrachtung des neuen nVidia-Features - obwohl es vergleichbare Beispiele schon gab - nicht entsprechend kritisch aus.