Zum 3DCenter Forum
Inhalt




Timedemos - Das Maß aller Dinge?

22. Januar 2006 / von Madkiller & BlackBirdSR / Seite 10 von 10


   Benchmarks Quake 4  (Forts.)




Vergleich X800 XT-PE vs. X800 XL auf A64 3800+ Savegame
average fps
Timedemo
average fps
Timedemo
minimum fps
A64 3800+ & X800 XT-PE
1280x960 4xAA 16xAF
15,00 fps 43,93 fps 33,1 fps
A64 3800+ & X800 XL
1280x960 4xAA 16xAF
12,40 fps 36,07 fps 27,6 fps
Gewinn XL zu XT-PE 21% 22% 20%
A64 3800+ & X800 XT-PE
1280x960 4xAA 16xAF
36,60 fps 51,41 fps 47,3 fps
A64 3800+ & X800 XL
1280x960 4xAA 16xAF
30,00 fps 43,40 fps 39,3 fps
Gewinn XL zu XT-PE 22% 18% 20%


Da Quake 4 selbst ohne 4xAA schon deutlich grafikkartenlimitiert ist, liegt auch der der Unterschied zwischen Radeon X800 XL und Radeon X800 XT-PE bei ca. 20%.


Performance-Gewinn 1280x960 4xAA 16xAF auf 1280x1024 16xAF Savegame
average fps
Timedemo
average fps
Timedemo
minimum fps
A64 3800+ & X800 XT-PE 144% 17% 43%
A64 3800+ & X800 XL 142% 20% 42%


Das gleiche Bild wie schon zu vor: Die im Timedemo ermittelten Werte geben keinerlei Auskunft über den realen Verlust, der im Spiel möglich ist.




Vergleich X800 XT-PE vs. X800 XL auf A64 3000+ Savegame
average fps
Timedemo
average fps
Timedemo
minimum fps
A64 3000+ & X800 XT-PE
1280x960 4xAA 16xAF
15,00 fps 43,78 fps 33,2 fps
A64 3000+ & X800 XL
1280x960 4xAA 16xAF
12,33 fps 36,39 fps 27,8 fps
Gewinn XL zu XT-PE 22% 20% 19%
A64 3000+ & X800 XT-PE
1280x960 16xAF
36,53 fps 51,25 fps 46,6 fps
A64 3000+ & X800 XL
1280x960 16xAF
30,00 fps 42,30 fps 38,5 fps
Gewinn XL zu XT-PE 22% 21% 21%


Auch hier sind die Werte praktisch mit denen eines Athlon 64 3800+ identisch.


Performance-Gewinn 1280x960 4xAA 16xAF auf 1280x1024 16xAF Savegame
average fps
Timedemo
average fps
Timedemo
minimum fps
A64 3000+ & X800 XT-PE 144% 17% 40%
A64 3000+ & X800 XL 143% 16% 38%



   Fazit

  • Age of Empires III
    Das Spiel ist offensichtlich stark CPU-limitiert. Obwohl die Szene aus dem Savegame eher zum Spiel-üblichen gehört und noch lange nicht die Anzahl an Einheiten erreicht wird, wie es in größeren Schlachten vorkommen kann, bricht die Performance massiv ein. Ein 2.4 GHz Athlon 64, der durchaus das HighEnd-Segment verkörpert, erreicht hier nur noch 13,5 fps. Aus der Introsequenz als Timedemo abgespielt, ergibt sich jedoch ein ganz anderer Anblick. Die minimalen fps dieses Timedemos sind hier mit 25 fps bzw. 30,5 fps weitaus höher angesetzt. Richtet man sich nach den average Werten des Timedemos, erreicht man noch viel höhere Werte und den Eindruck, die CPU spielt schon ab 1280x960 mit 4-fachem Anti-Aliasing nahezu keine Rolle mehr - was aber in diesem Spiel der völlig falsche Eindruck ist.

  • F.E.A.R.
    Wenn man jetzt einmal von dem bekannten Nachteil der average fps gegenüber einem kompletten Frameverlauf oder den minimalen fps absieht, stimmen die hier ermittelten Performanceunterschiede zwischen der hier verwendeten Hardware halbwegs mit den Werten aus dem Savegame überein. Auffällig ist allerdings, dass die Performancegewinne aus dem Performance-Test von F.E.A.R, welche durch den Verzicht von 4xAA entstehen, sich je nach Hardwarekombination zwischen 32-39% bewegen. Nach dem Savegame sind das aber mit 88-104% Werte, die bei weitem abweichen und durchaus spürbar sind. Also skaliert F.E.A.R viel stärker mit verschiedenen Grafiksettings, als man durch den Performance-Test meinen könnte.

  • GT: Legends
    Den average fps aus der Timedemo zufolge war der Unterschied zwischen den CPUs nur sehr gering bei 1280x960 und 4-fachem Anti-Aliasing. Der Frameverlauf zeigt aber für die minimalen Werte einen Unterschied auf, der schon viel höher liegt. Aber erst das Savegame mit der gleichen Szene zeigt auf, wie CPU-abhängig das Spiel wirklich ist. Zusätzlich konnte ja noch ermittelt werden, inwiefern sich ein hier aufgenommenes Timedemo von derselben Szene unterscheidet, wenn diese auch gespielt wird: Die Werte des aufgenommenen Timedemos waren mit einer Radeon X800 XL und dem Athlon 64 3800+ um 27% höher und mit einem Athlon 64 3000+ sogar um 48% höher als die Szene, die auch wirklich gespielt wurde. Da sich die Werte zwischen dem Timedemo und dem Savegame unter 1600x1200 mit 6xAA und 16xAF nur noch um 8% unterschieden haben, kann wohl davon ausgegangen werden, dass durch das Timedemo bei GT: Legends hauptsächlich CPU-Last wegfällt.

  • Need for Speed: Most Wanted
    Das einzige Spiel hier, in dem sich das Bild ein wenig umkehrt. Dort geschieht nämlich in dem Intro deutlich mehr als beim Renn-Start, in dem ja praktisch nur die drei Kontrahenten und man selber berechnet werden müssen. Dadurch hängt die Performance des Intros auch noch eher an der CPU als es beim Renn-Start der Fall ist. Bei einem Wechsel der CPU von 1200 MHz auf 1800 MHz bringt das im Intro schließlich schon 54%, beim Renn-Start nur 28%. Auffällig ist aber auch hier wieder, dass beim Rennstart der Performancegewinn durch Deaktivieren von Anti-Aliasing wieder viel größer ausfällt als im Timedemo des Intros. Das kann an der geringen Komplexität der Szene liegen, entspricht aber den Beobachtungen von F.E.A.R und Quake 4.

  • Quake 4
    Eine extreme Grafiklimitierung prägt die Ergebnisse dieses Tests. Folglich unterscheiden sich die Messwerte kaum, egal ob nun average, minimal fps oder per Savegame. Nur im Savegame lässt sich erkennen, dass die CPU noch früher limitiert als das Timedemo angibt. So ganz nebenbei scheint Quake 4 aber auch nur wenig CPU-Leistung zu verlangen. Allerdings ist eines auffällig, was sich eigentlich auch schon in jedem anderen Spiel, das hier eher Grafikkarten-limitiert war, abgezeichnet hat: Der Leistungsverlust für Anti-Aliasing im Timedemo ist viel geringer als es im eigentlichen Spiel der Fall ist, bei Quake 4 mit sogar am extremsten. Demnach ist auch das Timedemo von Quake 4 schlicht ungeeignet zur Performancebestimmung.

In einem der letzten Artikel ging es darum, den "average fps" als unantastbares Gesetz auf den Zahn zu fühlen. Dieses Mal wollten wir einen Schritt weiter gehen, und haben tatsächlich auch weitere bedenkliche Ergebnisse erhalten. Zum einen zeigen die Ergebnisse nicht nur, dass sich von average fps oft ganz andere Aussagen ableiten lassen, als das bei Messung der minimalen Werten der Fall wäre.

Auf der anderen Seite zeigt sich, dass selbst diese Werte oft weit entfernt vom realen Spielverlauf sind. Eigentlich gar nicht im Visier, fand sich dann aber noch eine andere Unstimmigkeit: Viele Timedemos erzeugen viel zu hohe Werte, wenn Anti-Aliasing im Spiel ist. Denn selbst gespielt, fallen die Werte viel geringer aus bzw. der Gewinn ohne Anti-Aliasing ist viel höher. Demnach versagen diese Timedemos dann nicht nur bei der Bewertung der CPU-Last, sondern geben eventuell auch generell falsche Aussagen selbst in eher Grafikkarten-limitierten Szenarien an.

Natürlich muss das nicht für alle Spiele gelten. Wir haben nur eine kleine Auswahl an Timedemos und Spielen betrachtet. Allerdings ist jeder gerne eingeladen, selbst entsprechende Tests durchzuführen. Insbesondere nach diesen Tests glauben wir, dass es doch Zeit wird, intensiv über neue Testverfahren nachzudenken. Darunter fallen neben neuen Messmethoden auch eine kritische Betrachtung der Timedemos.

Sicherlich ist der ursprüngliche Gedanke durchaus richtig, absolut reproduzierbare Timedemos für die Benchmarks zu benutzen. Diese sind meistens sehr kurz, minimieren Messungenauigkeiten und enthalten relativ viele, verschiedene Szenen. Jedoch wird durch die aufgezeigten Umstände das Ergebnis in den meisten Vergleichen arg verzerrt, die Aussagekraft dadurch natürlich arg geschmälert. Gerade weil sich Limitierungen durch CPU und GPU meist stellenweise abwechseln (außer bei extrem limitierenden Einstellungen), lassen sich über die average fps kaum Aussagen treffen, welche Szenen von einer schnellere CPU oder Grafikkarte profitieren würden.

Selbst bei reinen CPU-Vergleichen wird bei ansteigender CPU-Leistung eine immer größere Tendenz zur Grafik-Limitierung folgen, wodurch durchaus auch einmal der falsche Eindruck entstehen kann: Die CPU scheint dann ab einer gewissen Taktrate schlechter zu skalieren als sie es wirklich tut.

Man kann nun anführen, dass man diese Effekte durch eine Umstellung auf minimale-fps-Werte herausgefiltert werden können. Dabei entsteht jedoch zwangsweise das Problem, dass die Timedemo unter Umständen weniger CPU-Last erzeugt, als es tatsächlich im Spiel der Fall ist. Als Krönung stellt sich zudem die überraschende Unstimmigkeit beim Einsatz von Anti-Aliasing heraus: Einige Timedemos erzeugen dort weitaus geringere Last für den Grafikchip, was sich in unverhältnismäßig hohen Werten widerspiegelt.

Wir finden deshalb, dass es unabdingbar ist, das Timedemo an sich weiter zu hinterfragen - und gleichzeitig neue Methoden zu entwickeln, um Hardware besser einschätzen zu können. Eine überwältigend große Anzahl an Benutzern verlässt sich schließlich darauf, ihren Hardwarekauf anhand von (bisher überwiegend mittels Timedemos erstellter) Benchmarks zu tätigen.






Kommentare, Meinungen, Kritiken können ins Forum geschrieben werden - Registrierung ist nicht notwendig Zurück / Back 3DCenter-Artikel - Index Home

Shortcuts
nach oben