Künstliche Intelligenz kann derzeit schon einige Aufgaben erfolgreich übernehmen, aber der ganze Hype und das viele darin steckende Geld sind natürlich nur gerechtfertigt, wenn sich dies auch wirklich breitflächig ausweiten läßt. Besonders im Blickfeld stehen dabei typische Fleißaufgaben, wo der Mensch üblicherweise einfach nur viel Arbeitszeit versenkt und auch eventuelle Faselfehler macht. Genau hier könnte KI nutzvoll sein, wenn man viel Zeit sparen kann und gleichzeitig die Faselfehler gar nicht erst entstehen. Ein wahrscheinlich sehr gutes Beispiel für eine solche Aufgabe ist die Datenerfassung zugunsten eines Performance-Index' für einen der Launch-Artikel von 3DCenter. Dafür wird Zeit benötigt, zudem ergibt sich da immer die Chance auf Ablese- oder Eingabefehler in die bestehende Excel-Datei.
Theoretisch könnte künstliche Intelligenz diese Aufgabe in wenigen Sekunden und zudem fehlerfrei lösen, zumindest menschliche Ablese- oder Eingabefehler wären der KI fremd. Nach einem fehlgeschlagenem Versuch letztes Jahr sollte heuer nun ein erneuter Versuch in diese Richtung unternommen werden. Als einfachstmöglich erreichbare KI wurde hierfür Grok von X/Twitter ausgewählt, welche in einigen anderen Fragen bereits durchaus zu überzeugen wusste. Nachfolgend sind die aktuellen Erfahrungswerte geschildert beim Versuch, mit Hilfe von Grok einen Performance-Index aus den FullHD-Werten von TechPowerUp's [1] Launch-Review zur Radeon RX 9060 XT zu erstellen. Hierzu mussten zuerst die Daten aus Diagrammen in Bildform erfasst werden, sprich die KI musste mittels Texterkennung in Bildern arbeiten.
1) Die allerersten Versuche führten erst einmal zu reihenweisen Fantasie-Ergebnissen, da Grok lieber irgendwelche erdachten Zahlen lieferte als schlicht zuzugeben, dass der KI kein direkter Zugriff auf die Quelle möglich war. 2) Korrekte Ergebnisse waren erst dann zu erreichen, nachdem ein betreffendes Diagramm in den Grok-Chat hochgeladen wurde. Spezifisch für Grok wäre dies dann wenig Praxis-tauglich, andererseits könnten andere KIs nicht über diese Limitation verfügen. Damit konnte natürlich auch nicht getestet werden, ob die KI korrekt das jeweils erste Diagramm von jeder der nachfolgenden Seiten des TechPowerUp-Techberichts erkennen konnte. 3) Gänzlich korrekt war dieses erste "echte" Ergebnis allerdings auch nicht: Anstatt der "Arc A770" notierte Grok eine von TechPowerUp nicht getestete (sowie nicht existente) "Radeon RX 6700 8 GB" und verband jene dann nicht mit dem Benchmark-Wert der Arc A770, sondern wiederum einen Fantasie-Wert. 4) Nachfolgend sollte die Eignung der KI überprüft werden, eine komplette Benchmark-Serie auszuwerten. Hierzu wurden alle 24 die FullHD-Auflösung betreffenden Diagramme des TechPowerUp-Artikels in den Grok-Chat hochgeladen. Die KI wurde informiert, sich nur an diese Diagramme zu halten, welche immer wieder dieselben Grafikkarten enthalten, allerdings in unterschiedlicher Reihenfolge. Daraufhin legte die KI los und zauberte auch eine fein aussehende Ergebnis-Übersicht samt daraus berechneten Durchschnittswerten hervor. 5) Dummerweise sahen die dem dem ersten Diagramm nachfolgenden Werte auffallend gleichförmig aus – und ein Blick zur originalen Quelle zeigte, das Grok hier schon wieder nicht die tatsächlichen Werte ausgelesen hatte, sondern wiederum nur fantasierte. Der Hinweis auf diesen Fehler führte aber nur dazu, dass der als Beispiel gebrachte Einzelwert korrigiert wurde, der Rest der Werte nach wie vor falsch blieb. 6) Selbst der erneute Hinweis darauf, die Werte des zweiten Diagramms nicht zu raten, führte zu gar nichts. Den expliziten Hinweis darauf, dass die Werte des zweiten Diagramms [2] in einem völlig anderen Wertebereich liegen (von 24,9 bis 58,4 fps) als die des ersten Diagramms [3] (von 46,2 bis 100,5 fps), beantwortete Grok mit einer neuen, bemerkenswerten Datenreihe: Der niedrigste und höchste Wert des zweiten Diagramms waren nunmehr korrekt, ganz wie im Hinweis an Grok schon genannt. Die Werte dazwischen wurden allerdings wiederum nur geraten. Aber noch viel schlimmer: Auch die Werte des ersten Diagramms, die eigentlich schon einmal korrekt ausgelesen waren, wurden nunmehr durch geratene Werte (auf der hierzu nicht passenden Wertehöhe des zweiten Diagramms) ersetzt. |
Der Versuch wurde an dieser Stelle abgebrochen. Sicherlich könnte man über eine verfeinerte Herangehensweise noch etwas herausholen, am Ende vielleicht sogar zu einem Ergebnis gelangen, was der Realität (sprich der manuellen Berechnung durch einen Menschen) entspricht. Diesen Weg zu gehen, lohnt aber aus einem schlagenden Grund nicht: Der Zeitaufwand hierfür erscheint zu hoch angesichts der Fehlerrate der KI. Insbesondere der Fall mit der einzelnen falsch erkannten Grafikkarte unter 20 korrekt erkannten Grafikkarten zeigt darauf hin, dass man wirklich alles, jedes kleinste Detail selber kontrollieren muß. Stichproben reichen hierfür augenscheinlich nicht aus. Und dies erfordert einen Zeitaufwand, welcher das Pro-Argument der KI einer (vorgeblichen) Zeitersparnis konterkariert.
Denkbarerweise könnten explizit für den Unternehmenseinsatz konzipierte KIs mehr bzw. sind eher darauf geeicht, nicht lieber ihre Trainigsdaten zu bemühen anstatt allein mit den vorliegenden Daten zu arbeiten. Für einen Menschen ist es schon echt mühsam, wenn man der KI bei wirklich jeder einzelnen Eingabe immer wieder vorkauen muß, nicht mit fantasierten Daten zu arbeiten. Für den Augenblick ist es für die gestellte Aufgabe jedenfalls nicht möglich, mittels künstlicher Intelligenz eine Zeitersparnis zu erzielen. Dies kann sich in Zukunft natürlich ändern, ein neuer Versuch hierzu wird sicherlich eines Tages stattfinden. Eventuell ergeben die Kommentare zu diesem Blog-Eintrag auch Hinweise darauf, welche KI derzeit schon für dieserart Aufgaben besser geeignet ist.
Nachtrag vom 14. August 2025
Nach einigen mittels der Foren-Diskussion zum Thema [4] nachzuvollziehenden weiteren Fehlschlägen sollte das Problem nunmehr mittels einer lokalen KI angegangen werden, wofür das Programm "LM Studio [5]" zum Einsatz kam. Leider waren die KI-Modelle "DeepSeek" und "GPT-OSS" mit der Resoning-Funktionalität nicht einsetzbar, denn jene beherrschen (im Rahmen von LM Studio) keine Arbeit mit Bildern, sprich die Analyse von Texten in Bildern. Unter den entsprechend fähigen KI-Modellen von LM Studio wurde dann "Gemm3-12B" ausgewählt, ein mittelgroßes Modell mit eben jener Fähigkeit zum Arbeiten mit Bildern. Zugleich wurde die Aufgabenstellung vereinfacht: Es sollte nunmehr ein arithmetisches wie geometrisches Mittel der FullHD-Werte unter RayTracing des eTeknix [6]-Tests zur Radeon RX 9060 XT aufstellt werden, dies sind dann nur 4 Diagramme, wozu zudem bereits eine Auswertung seitens eTeknix zum Vergleich vorliegt (Wertediagramme auf Seiten 16-19 des Artikels, Auswertung auf Seite 20).
Der erste Eindruck von der Arbeit der KI war gut. Es wurde eine vernünftige Wertetabelle aufgestellt, die Werte schienen auch optisch zu passen (niedriger unter Cyberpunk, höher unter F1). Die gezogenen arithmetischen wie geometrischen Mittel dürften (auf Basis der ermittelten Werte) jeweils korrekt sein, dies ist wohl der kleinste Teil der Aufgabe. Leider stimmen aber die ermittelten fps-Werte zumeist nicht. Die KI ließ sich von den zwei angegebenen Werten pro Grafikkarte außer Tritt bringen, benutzte manchmal den ersten Wert (Minimum-fps) und manchmal den zweiten Wert (durchschnittliche fps) – obwohl eine klare Anweisung gegeben worden war, immer nur den zweiten Wert zu verwenden. Zudem vermischte die KI manchmal auch die Grafikkarten ("GeForce RTX 4070 Ti 16GB") und unterschlug damit am Ende ca. 20% aller in den Diagrammen gelisteten Grafikkarten. Denkbarerweise funktionierte hier die OCR-Erkennnung der KI mangelhaft, wenngleich die eTeknix-Diagramme aus rein menschlicher Sicht nicht besonders kompliziert aussehen.
Trotz also gutem Start dieses Versuchs und erstmals auch halbwegs in die richtige Richtung gehenden Resultats führte somit auch dieser Versuch nicht zum Erfolg. Wie schon beim vorherigen Versuch wäre man selbst bei besserer Texterkennung in den Diagrammen weiterhin gezwungen, eigentlich jeden Wert einzeln zu kontrollieren. Wirklich sinnvoll ist das nicht, denn erst wenn die Fehlerquote der KI deutlich unterhalb der menschlichen Fehlerquote beim manuellen Ablesen und Eintragen der Werte in eine Tabellenkalkulation ist, wäre die Praktikabilitäts-Schwelle überschritten. Zugleich zeigt dieser weitere Fehlversuch erneut darauf hin, dass das künstliche Intelligenz derzeit schwer daran mangelt, so einfach für mehr als die üblichen Text- sowie Bildaufgaben verwendet zu werden. Dabei soll gar nicht in Abrede gestellt werden, dass dies nicht doch (auch jetzt schon) möglich sein könnte. Nur ist der Weg dahin schwer und man verballert ernsthaft Zeit mir allen möglichen Fehlversuchen auf der Suche nach der einen Kombination aus Angebot, Tool und KI-Modell, welches eine gestellte Praxisaufgabe tatsächlich lösen kann.
Verweise:
[1] https://www.techpowerup.com/review/asus-radeon-rx-9060-xt-prime-oc-16-gb/
[2] https://www.techpowerup.com/review/asus-radeon-rx-9060-xt-prime-oc-16-gb/7.html
[3] https://www.techpowerup.com/review/asus-radeon-rx-9060-xt-prime-oc-16-gb/8.html
[4] https://www.forum-3dcenter.org/vbulletin/showthread.php?t=622104
[5] https://winfuture.de/downloadvorschalt,4126.html
[6] https://www.eteknix.com/amd-radeon-rx-9060-xt-review-ft-sapphire-nitro-amp-xfx-swft/
[7] http://www.3dcenter.org/blog/leonidas/ein-beispiel-zu-den-limits-von-ki