Timedemos - Das Maß aller Dinge? Part 2

11. Juli 2006 / von Madkiller / Seite 10 von 10

Vergleiche bei Grafikkartenlimitierung: GT: Legends (Forts.)

	schnellste Szene	langsamste Szene
A64:2000/200 vs P4:3400/200	Zeitindex 23 bis 27	Zeitindex 56 bis 60
A64:2000/166 vs A64:2400/200	Zeitindex 21 bis 25	Zeitindex 50 bis 54

Hier werden bei dem CPU-Vergleich das erste Mal deutliche Schwankungen sichtbar. Denn obwohl der Pentium 4 gegenüber dem Athlon 64 bei den Avg-fps nur rund 12% schneller ist, sind es hier stellenweise sogar bis zu 24%. Zu diesem Zeitindex werden bei einer um 20% höheren CPU-Leistung stattliche 33% (!) mehr fps erreicht - die fps skalieren hier also deutlich besser als es eigentlich sein dürfte.

Hier werden Schwankungen bei Athlon 64 vs. Pentium 4 wieder sichtbar, aber sie halten sich mit maximal 7% Abweichung noch in Grenzen. Wirklich interessant ist aber, dass alle Szenen deutlich stärker mit höherer CPU-Leistung skalieren. Sie skalieren meist etwa im Faktor 1,4 zur CPU-Leistung mit, bei einem Savegame sogar im Faktor 2,0.

Zusammenfassung

Auch hier reagiert je nach Szene die eine CPU besser oder schlechter als die andere. Alles in allem sind die Abweichung aber deutlich geringer als bei Tests mit den verschiedenen Grafikkarten. Aber auch hier zeigt sich, dass je nach Szene oder Timedemo die Unterschiede verschieden groß sein können. Was hier auffällt ist, dass die fps bei den Savegames (und nicht den Timedemos) deutlich besser mit der CPU-Leistung skalieren.

Da sich im übrigen die ersten fünf Sekunden aus dem Spa-Timedemo mit den fünf Sekunden aus dem "Spa-Night" Savegame und die ersten fünf Sekunden aus dem Monza-Timedemo mit den ersten 5 Sekunden aus dem "Monza-Night" Savegame überschneiden, kann man mit den erreichten fps einen direkten Vergleich (Timedemo vs. Savegame) erstellen:

Szene aus Spa	Timedemo	Savegame	Differenz
P4 3400 MHz	27,60 fps	20,07 fps	37,5%
A64 3200+	25,40 fps	17,80 fps	42,7%

Szene aus Monza	Timedemo	Savegame	Differenz
P4 3400 MHz	27,80 fps	16,73 fps	66,2%
A64 3200+	25,00 fps	15,53 fps	61,0%

Wie man sehen kann, braucht die jeweilige Szene, wenn sie als Replay abgespult wird, deutlich weniger CPU-Leistung, als wenn die Szene auch real gespielt wird. Beim Rennstart in Spa ist das Timedemo schon etwa 40% schneller, in Monza sogar über 60%.

Fazit

Es liegt sicher nicht in unserer Absicht, die Benutzung von Timedemos für Benchmark-Zwecke generell zu verteufeln. Man sollte sich aber unserer Meinung nach über deren Vor- und Nachteile ein genaueres Bild machen, als das bislang oft der Fall war. Denn es steht prinzipiell zu bedenken, daß durch die average fps bei Timedemos jegliche Tendenzen stark abgeschwächt werden.

Als Beispiel wollen wir aufführen, dass der Einbruch mit Adaptive Antialaising bei unserem mit Savegames erstellten Radeon 1900 XTX Review deutlich größer war, als bei den meisten anderen Reviews, in welchen Timedemos in Verbindung mit average fps genutzt wurden. Was in erster Linie damit zusammenhängt, dass in Timedemos relativ viele Übergänge von einer anspruchsvollen Szene zur nächsten enthalten sind, in denen letztlich nicht so viel geschieht. Oder noch schlimmer, das ganze Timedemo ist allgemein nicht sehr anspruchsvoll und deswegen zieht dann Adaptive Antialiasing insgesamt nicht so viel Performance.

Auch kann die hier gewonnene Erkenntnis, dass verschiedene Grafikkarten bei verschiedenen Szenen völlig unterschiedlich schnell sein können, sich durch die average fps gerade in Verbindung mit nur einer Timedemo gar nicht erst heraus kristallisieren. Somit ist es naheliegend, dass gerade weil verschiedene Hardwareseiten auch verschiedene Timedemos nutzen, um die selbe Hardware miteinander vergleichen, diese zu (meist minimal) anderen Fazits kommen.

Die Unterschiede müssen auch nicht immer so deutlich sein, wie hier zwischen GeForce 6800 Ultra und Radeon X800 XT-PE teilweise zu beobachten. Bei unserem Radeon 1900 XTX Review, in welchen schließlich auch schon Savegames zum benchmarken benutzt wurden, waren die Abweichungen in der Geschwindigkeit zwischen der Radeon 1900 XTX und der GeForce 7800 GTX 512MB nur innerhalb weniger Prozent. Aber um sicher wissen zu können, wie groß die Abweichungen sein können, müsste man es natürlich erst dementsprechend gegenprüfen.

Und das lässt sich eigentlich nur mit mehreren verschiedenen Szenen ermitteln. Wobei hier die Devise lauten müsste: "Umso mehr - umso besser". Da man aber natürlich schon allein wegen dem Arbeitsaufwand nicht unendlich viele Szenen benchmarken und damit untereinander vergleichen kann, haben wir uns hier für vier verschiedene Szenen entschieden. Diese Anzahl sollte eine vernünftige Relation zwischen Arbeitsaufwand und ausgewogenen Ergebnissen bieten.

Weniger problematisch sind dagegen die Abweichungen bei den CPU-Vergleichen: Es wurde mit dem Athlon 64, der auf eine gute Pro-MHz-Leistung abgestimmt ist, und dem Pentium 4, der auf hohe Taktraten optimiert ist, absichtlich möglichst unterschiedliche CPU-Designs verwendet. Dennoch unterscheidet sich die Performance der beiden CPUs untereinander bei verschiedenen Szenen bei weitem nicht so stark wie bei den beiden hier verwendeten Grafikkarten.

Das soll natürlich nicht bedeuten, dass die Abweichungen von Szene zu Szene nicht erheblich wäre oder erheblich sein könnten, aber es sieht nach diesen Ergebnissen ganz so aus, als dass sie deutlich schwächer wären als bei den Grafikkarten-Vergleichen. Aber die Timedemos haben auch große Nachteile, die auch prinzipieller Natur sind, und sich deswegen auch durch minimale fps oder - den hier verwendeten - minimalen/maximalen Abweichungen nicht vollständig kompensieren lassen.

Am zuverlässigsten zeigt sich das bei CPU-Vergleichen: Da in Timedemos meistens nicht alle Faktoren wie KI, Physik, Eingabegeräte, usw. mit berechnet werden, wird die CPU verhältnissmäßig zur Grafikkarte nicht so stark belastet. Das äußerst sich dann darin, dass bei CPU-Limitierung die erreichten fps in einer Timedemo deutlich höher ausfallen als in einer identischen Szene, die jedoch real gespielt wird - dies konnte bei GT: Legends deutlich gezeigt werden.

Aus diesem Umstand ergibt sich jedoch noch etwas anderes: Da die CPUs bei Timedemos entlastet werden, fängt natürlich auch eher die Grafikkarte zu limitieren an, was den Eindruck erwecken kann, dass bei bestimmten Bildqualitätssettings schon die Grafikkarte limitiert, obwohl die CPU-Last, wenn man selbst spielt, ja wieder deutlich höher ist, und damit die CPU auch leicht der limitierende Faktor werden kann. Beim Benchmarken mit Timedemos kann also vorschnell (und fälschlicherweise) der Eindruck entstehen, daß alle CPUs ab einer gewissen Klasse gleich schnell sind, weil ja schließlich sowieso eine Grafikkarten-Limitierung vorliegt.

Bei Grafikkarten-Vergleichen scheinen die Timedemos dagegen zuverlässiger zu sein: Meist stimmen die erreichten fps in einer Szene mit denen, die mit einem Savegame ermittelt wurden, überein. Aber auch hier gibt es anscheinend leider Ausnahmen: Bei Quake 4 waren die erreichten fps in einer Szener von einer Timedemo doppelt so hoch wie in einem Savegame, welches dieselbe Szene darstellte. Dadurch ergibt sich natürlich wieder ein gewisser Unsicherheitsfaktor, inwiefern die Timedemos auch für Grafikkarten-Vergleiche wirklich verlässlich sind.

Abgesehen von der schwächeren CPU-Last bei Timedemos und den "gelegentlich" zu hohen fps bei Grafikkarten-limitierenden Szenen - was ja wirklich nicht gerade unwichtige Unsicherheitsfaktoren sind - scheinen Timedemos, zumindest bei vollständiger Grafikkartenlimitierung normalerweise akurate Ergebnisse anzuzeigen. Nach den hier erworbenen Kenntnissen zeigt sich, dass gewöhnlich die fps einer bestimmten Szene in einer Timedemo genauso hoch sind wie in einem Savegame, welches dieselbe Szene darstellt - aber natürlich wieder nur bei vollständiger Grafikkartenlimitierung.

Dieses Ergebnis spricht gegen unsere Vermutungen aus dem ersten Teil dieses Artikels. Anfangs gingen wir noch davon aus, dass die zu hohen fps bei Grafikkarten-Limitierung ein prinzipielles Problem der Timedemos wären. Diese Schlussfolgerung war damals, weil seinerzeit nur ein Savegame und eine Timedemo pro Spiel genutzt wurden, zwar logisch - aber deswegen nicht richtig.

Der Grund, warum in dem ersten Teil dieses Artikels zum Beispiel der Einbruch durch 4xAA bei den Timedemos deutlich schwächer war als bei den Savegames, war schlicht, dass seinerzeit bei den Savegames einmal absichtlich stressigere Szenen genutzt wurden, und zum anderen, dass ganz einfach jede Szene immer mit unterschiedlichen fps-Einbrüchen reagiert und man deswegen völlig verschiedene Szenen nicht 1:1 miteinander vergleichen kann. Und gerade deswegen ist nur ein Wert - sei er jetzt aus einem Savegame, oder gerade aus einer Timedemo - pro Spiel einfach nicht ausreichend, um eine allgemeingültige Aussage über deren Performance treffen zu können.

Danksagung: aths für's Korrekturlesen, BunGeee für mehrere FEAR-Savegames, Dargo für mehrere FEAR-Savegames und ein CoD2-Savegame, Deli für mehrere CoD2-Savegames & Spasstiger für ein Quake4-Savegame.

Timedemos - Das Maß aller Dinge? Part 2

Timedemos - Das Maß aller Dinge?Part 2

Timedemos - Das Maß aller Dinge?
Part 2