Zum 3DCenter Forum
Inhalt




Kolumne: Wir brauchen SLI

8. November 2004 / von aths / Seite 1 von 1


Grafikchips sind deshalb so schnell, weil sie massiv parallele Abarbeitung bieten. Philosophisch gesehen gibt es keinen Grund, SLI zu verteufeln. Mittelfristig kommen HighEnd-Freunde sowieso nicht um SLI herum.


 I

Jede neue Technik, die die Rohperformance anhebt, bringt weniger Effizienz mit sich, als die alte Lösung noch hatte. Doch später kann die Wirkkraft mit angepasster Software erhöht werden. Der Voodoo2 Chip konnte pro Takt einen Pixel rendern – und das auch, wenn dafür zwei Texturen (oder eine trilinear gefilterte) erforderlich waren. Nun gab es zu jener Zeit nur wenig Spiele, die daraus Nutzen zogen. 3dfx führte den Begriff "Megatexel" ein, um mit einer doppelt so hohen Zahl werben zu können: 180 Megatexel lassen sich besser verkaufen als 90 Megapixel.

Später wurden zwei (und mehr) Texturen pro Pixel in gängigen Computerspielen Standard. Seitdem ist man mit einer Lösung à la Voodoo2 besser beraten, als mit einer herkömmlichen, aber doppelt so hoch getakteten Architektur. Denn um zwei Texturen aufzutragen, muss man mit den alten Chips aufwändiges Alphablending machen.

Nvidia zeigte sich mit der Riva TNT noch eine Spur schlauer: Wahlweise konnte man jeden Takt entweder pro Pixel zwei Texturen verwenden, oder zwei Pixel mit je einer Textur rendern. Zunächst ist auch das Transistorverschwendung: Diese umschaltbare Pipeline kostet natürlich mehr, doch von der Flexibilität hatte der Kunde recht wenig: Multitexturing war klar auf dem Vormarsch, und in Singletexturing-Spielen war die Riva TNT (oder zumindest der Nachfolger Riva TNT2) eh schnell genug. Doch die Riva TNT markiert den nächsten Schritt: Mehr Pipelines pro Chip.

Die GeForce 256 mit gleich vier Pixelpipes setzte das Konzept fort. Dabei handelt es sich (wie wohl auch schon bei der Riva TNT) um eine Quad-Pipeline, die immer ganze 2x2-Pixelblöcke rendert. Auch wenn man wie bei der GeForce2 MX nur zwei Pixel-Pipelines hat, bleibt das Quad-Konzept, dann braucht jede Operation auf ein Quad eben zwei Takte. Doch rendert man keine einzelnen Pixel mehr, sondern Pixelblöcke, kommt es am Rand von Dreiecken zwangsläufig zum "Verschnitt". Die Effizienz ist nicht so gut, als hätte man echte unabhängige Pixel-Pipelines. Solche Kompromisse wurden aber nötig, um die große Zahl an Pixel-Pipelines überhaupt realisieren zu können – einmal mehr ein Kompromiss zu Lasten der Effizienz. Die deutlich erhöhte Rohleistung macht das aber mehr als wett.

Der nächste Schritt war, erneut in die Tiefe zu gehen, und den Pipelines gleich zwei TMUs zu spendieren; ATIs originale Radeon verfügte sogar über drei (wobei die dritte TMU wohl eher als Hilfskonstrukt für EMBM gesehen werden kann). Mit mehreren Texture Mapping Units pro Pixel-Pipeline steigt aber wieder einmal die Gefahr, stark ineffizient zu sein: Bei drei bilinear gefilterten Texturen bleibt jeden zweiten Takt eine TMU arbeitslos. Um die Architektur überhaupt schnell genug mit Daten füttern zu können, erwies sich die Lösung rein über hochgetakteten Speicher als Irrweg. Seit Radeon 8500 und GeForce3 gibt es neue effizienzsteigernde Features, die den Datenfluss von und zum Speicher optimieren.

Zwar sind wir heute wieder bei nur einer TMU pro Pipeline, doch wollen wir nicht zu weit vom Thema abkommen. Merken wir uns schon einmal vor, dass die Erhöhung der Rohleistung nur begrenzt Nutzen bringt, und Zusatzarbeit nötig wird, um die gewaltige damit einhergehende Ineffizienz zu bekämpfen.


 II

Jeder Voodoo-Chip kann in Mehrchip-Konfigurationen betrieben werden, dazu gehören auch Voodoo1 und Voodoo3. Für den normalen Computernutzer gab es SLI nur für Voodoo2 und (als Singleboard-Variante) Voodoo5. Von Quantum3D gab es aber auch eine Voodoo2 SLI auf einem Board, allerdings hatte jede Voodoo2 dort nur einen TexelFX-Chip (so dass das Board insgesamt zwei Pipelines à einer TMU hatte).

Die Voodoo5-6000 stellte 3dfx allerdings vor gewaltige Probleme. Obwohl viel Geld für ein Redesign des Boardlayoutes verpulvert wurde, ging insgesamt nur eine zweistellige Zahl von STB hergestellten Boards in den Handel. Quantum3D produzierte vermutlich noch einige Boards mehr, doch die 3dfx-Tocher verkaufte inzwischen nicht mehr an Normalsterbliche, sondern baute nur noch professionelle (und teure) Systeme wie die Alchemy-Serie.

Billig war auch die 6000er nicht. Deren Leistung war zwar gewaltig, gerade im 32-Bit-Modus. Doch schon die Voodoo5-5500 unterlag ihrem Konkurrenten, der GeForce2, ziemlich oft, und fuhr nur in ihrer Parade-Rolle (als Antialiasing-Qualitätskarte, bevorzugt unter Glide) zu Höchstleistungen auf. Während 3dfx zu Voodoo3-Zeiten immer auf 60 fps pochte, wurde mit der Voodoo5 Antialiasing-Qualität für wichtiger erklärt – Marketingbehauptungen werden auch anderswo laufend den aktuellen Erfordernissen angepasst. Mit dem Niedergang von 3dfx im Überschwang aber gleich auch das Multichip-Konzept für tot zu erklären (à la "Ich habs schon immer gewusst"), ist jedoch ein Schnellschuss.

Immer wieder einmal versuchten sich Chipentwickler darin, zwei Chips auf ein Board zu packen, so hatte z. B. die ATI Rage Fury MaXX zwei 3D-Chips, auch wurden Quadro-Versionen mit zwei Quadro-Chips zumindest testweise hergestellt (ich habe so eine Karte schon einmal in der Hand gehalten, durfte in jenem Raum aber nicht fotografieren). Das seinerzeit von ATI verwendete Verfahren, um beide Chips zu nutzen, Alternate Frame Rendering (AFR), wäre böse gesagt "Software-SLI" - wenn man denn auch Ordered Grid FSAA als "Software-Antialiasing" bezeichnen möchte.

Das Wort "Software" ist im Zusammenhang mit SLI oder Antialiasing natürlich falsch, denn weiterhin rechnet die Grafikkarte. Gemeint ist damit, dass mit entsprechendem Treiber praktisch jeder 3D-Chip zu Ordered Grid Supersampling zu bewegen ist, ebenso wie man ohne besonderen Aufwand mit zwei gleichartigen Chips AFR realisieren kann. XGI hat sich bei seiner Volari V8 Duo wenigstens noch einige Hardware-Optimierungen fürs AFR einfallen lassen.

Metabyte (verantwortlich u. a. für WickedGL) entwickelte die Stepsister-Technologie, die sogar mit zwei unterschiedlichen 3D-Karten funktioniert. Dabei rendert jede Karte einen Teil des Bildes. Zur Serienreife gelangte Metabytes Forschung leider nicht. Anstatt eine fixe Aufteilung zu verwenden (z. B. 60:40, da der obere Teil meistens eher anspruchslosen "Himmel" darstellt), wäre besser eine automatische Anpassung zu empfehlen. Genau dies kann nun Nvidias SLI leisten. Ebenso kann, sofern die Prerender-Limit-Einstellung das zulässt, AFR genutzt werden.


 III

Eine neuartige Technik, die die Rohleistung steigert, ist auf Software angewiesen, die das braucht - das hatten wir uns vorgemerkt. Im Falle von SLI ist das vor allem Antialiasing, insbesondere Supersampling. Nicht umsonst wurde die Voodoo5 mit ihren Antialiasing-Fähigkeiten beworben. Auch Nvidias Technik wird erst mit Supersampling richtig interessant. Allerdings beherrschen die GeForces für Supersampling kein effizientes Sparsed Grid à la Voodoo5.

Prinzipiell harmoniert SLI mit allen Applikationen, die stark füllratenlimitiert sind. So sehen wir für Zwecke wie HDR-Lighting in Far Cry mittels des Patches 1.3 einen Einsatzzweck für SLI. Das positive ist, dass man nicht sofort das ganze Geld ausgeben muss: Sofern das Mainboard es zulässt, kann man später einfach eine Karte nachkaufen. Dass die SLI-fähige Produktreihe technisch auf dem allerneusten Stand ist, spricht ebenfalls dafür. Denn was nützt die ganze Rohleistung, wenn man nicht mehr alle Grafik-Effekte sehen kann?

Leider wird SLI gerne kleingeredet, als praktisch irrelevante Nischenlösung, die nur davon ablenken solle, dass ansonsten die Radeon X800 Serie schneller wäre. Ich sehe es andersherum: Anstatt anzuerkennen, dass nach dem FX-Desaster aus Kalifornien inzwischen wieder konkurrenzfähige Performance kommt – noch dazu mit großem Feature-Vorsprung – reitet man auf diesen Benchmarks herum, welche die X800 gewinnt und gönnt es Nvidia nicht, dass dank SLI der längste Balken im Benchmark grün gefärbt ist.

Dabei kann es doch egal sein, ob im UltraHighEnd-Segment der Balken rot oder grün ist – wer auf eine Mittelklasse-Karte schielt, sollte sich die Benches dort ansehen und kann ohne schlechtes Gewissen zur Radeon X700XT greifen, die der GeForce 6600GT einiges voraus hat - nämlich doppelt so viele Vertexshader, im Zusammenspiel mit Antialiasing die vierfache Anzahl an ROPs, und ohnehin eine qualitätsmäßig überlegene Kantenglättung via Multisampling. Freunde einer Mittelklasse-Karte können sowieso nicht den Anspruch geltend machen, in jedem Fall alle zuschaltbaren Grafikeffekte zu sehen, und so ist die Limitierung auf Shader Model 2.0 bei den aktuellen ATI Mainstream-Karten noch kein ernster Hinderungsgrund.

Ohne Forschung und Entwicklung wird das mit SLI natürlich nie etwas. XGIs Versuch namens Volari V8 Duo ist ein gutes Beispiel für eine schlechte Lösung. Doch wer die Entwicklungskosten und Risiken scheut, wird eines Tages auf der Strecke bleiben. Bestes Beispiel ist 3D-Pionier 3dfx, welcher zu lange am Rampage herumwurstelten und den Kunden bis zuletzt die im Prinzip aus dem Jahre 1996 stammende Architektur andrehten. Die zuletzte releaste Voodoo5 konnte weder EMBM noch Dot3 Bumpmapping, noch hatte sie anisotrope Filterung anzubieten.

Natürlich vermarktet Nvidia SLI jetzt so, als sei damit der Durchbruch gelungen. Das ist objektiv aber nicht so: Das teure Spezial-Mainboard und die hohen Kosten für zwei Karten werden angesichts der oft erschreckenden Ineffizienz viele Leute abschrecken. Und in der Tat würde die GeForce 6800 Ultra ohne SLI keinen Spitzenplatz beim 3DMark'05 bekommen - es braucht zwei Karten, um eine X800 zu schlagen (dann natürlich sehr deutlich).

Warum also nicht den Weg weiterverfolgen, zwei Karten zu nutzen? Der Markt ist da: So entwickelte Alienware eine Lösung, die auch mit Radeons funktioniert. In der Tat haben die Radeon-Chips spezielle Optimierungen, um als MultiChip-Variante auf einem Board effektive Teamarbeit zu verrichten. FireGL-Lösungen arbeiten problemlos mit bis zu vier Radeon-Chips. Wenn ATI im Consumer-Markt zur Zeit so tut, als würde man bewusst auf SLI verzichten, ist das ebenso eine Marketing-Behauptung wie seinerzeit Nvidias markigen Sprüche gegen 3dfx, dass Singlechip-Lösungen die beste Wahl seien.

Natürlich, SLI kostet prinzipiell immer mehr, als es bringt: Die Kosten sind immer mehr als doppelt so hoch, während die Leistung niemals doppelt so hoch sein kann. Das ist aber kein wirklich stichhaltiges Argument gegen diese Technik. Im HighEnd-Bereich kostet jedes Zusatzprozent mehr Leistung überproportional viel Geld. Und auch das Argument, bei der GeForce 6600GT sei die SLI-Option erst recht Unsinn, da es für das Geld der SLI-Lösung auch eine (schnellere) GeForce 6800GT gibt, ist zu kurzfristig gedacht.

Wenn sich SLI mehr durchgesetzt hat, mag ein Mainboard mit zwei PCI Express x16 Steckplätzen nur noch 10 Eurer teurer sein als die Standard-Ausführung. Der Mittelklassen-Freund kauft dann dieses Board und erst einmal eine Grafikkarte. Später, wenn die Leistung zu knapp wird, rüstet er preiswert eine zweite Karte nach und ist wieder (mindestens) auf Mittelklasse-Niveau.

Heute sieht es noch nicht so rosig aus. Deswegen SLI als Unsinn abzutun, hat jedoch nur scheinbar was mit gesundem Menschenverstand zu tun. Wenn keiner den ersten Schritt macht, wird die Dual-Lösung für den Normalverbraucher immer unerschwinglich bleiben. Nvidias Vorstoß ist also zu begrüßen. Dass das Marketing-Klimbim um SLI manchmal ganz schön auf die Nerven geht, stimmt. Doch der Mut, das Risiko einzugehen, verdient Respekt.






Kommentare, Meinungen, Kritiken können ins Forum geschrieben werden - Registrierung ist nicht notwendig 3DCenter-Artikel - Index Home

Shortcuts
nach oben