Ein Beispiel zu den Limits von KI

Künstliche Intelligenz kann derzeit schon einige Aufgaben erfolgreich übernehmen, aber der ganze Hype und das viele darin steckende Geld sind natürlich nur gerechtfertigt, wenn sich dies auch wirklich breitflächig ausweiten läßt. Besonders im Blickfeld stehen dabei typische Fleißaufgaben, wo der Mensch üblicherweise einfach nur viel Arbeitszeit versenkt und auch eventuelle Faselfehler macht. Genau hier könnte KI nutzvoll sein, wenn man viel Zeit sparen kann und gleichzeitig die Faselfehler gar nicht erst entstehen. Ein wahrscheinlich sehr gutes Beispiel für eine solche Aufgabe ist die Datenerfassung zugunsten eines Performance-Index' für einen der Launch-Artikel von 3DCenter. Dafür wird Zeit benötigt, zudem ergibt sich da immer die Chance auf Ablese- oder Eingabefehler in die bestehende Excel-Datei.

Theoretisch könnte künstliche Intelligenz diese Aufgabe in wenigen Sekunden und zudem fehlerfrei lösen, zumindest menschliche Ablese- oder Eingabefehler wären der KI fremd. Nach einem fehlgeschlagenem Versuch letztes Jahr sollte heuer nun ein erneuter Versuch in diese Richtung unternommen werden. Als einfachstmöglich erreichbare KI wurde hierfür Grok von X/Twitter ausgewählt, welche in einigen anderen Fragen bereits durchaus zu überzeugen wusste. Nachfolgend sind die aktuellen Erfahrungswerte geschildert beim Versuch, mit Hilfe von Grok einen Performance-Index aus den FullHD-Werten von TechPowerUp's Launch-Review zur Radeon RX 9060 XT zu erstellen. Hierzu mussten zuerst die Daten aus Diagrammen in Bildform erfasst werden, sprich die KI musste mittels Texterkennung in Bildern arbeiten.

1)   Die allerersten Versuche führten erst einmal zu reihenweisen Fantasie-Ergebnissen, da Grok lieber irgendwelche erdachten Zahlen lieferte als schlicht zuzugeben, dass der KI kein direkter Zugriff auf die Quelle möglich war.
 
2)   Korrekte Ergebnisse waren erst dann zu erreichen, nachdem ein betreffendes Diagramm in den Grok-Chat hochgeladen wurde. Spezifisch für Grok wäre dies dann wenig Praxis-tauglich, andererseits könnten andere KIs nicht über diese Limitation verfügen. Damit konnte natürlich auch nicht getestet werden, ob die KI korrekt das jeweils erste Diagramm von jeder der nachfolgenden Seiten des TechPowerUp-Techberichts erkennen konnte.
 
3)   Gänzlich korrekt war dieses erste "echte" Ergebnis allerdings auch nicht: Anstatt der "Arc A770" notierte Grok eine von TechPowerUp nicht getestete (sowie nicht existente) "Radeon RX 6700 8 GB" und verband jene dann nicht mit dem Benchmark-Wert der Arc A770, sondern wiederum einen Fantasie-Wert.
 
4)   Nachfolgend sollte die Eignung der KI überprüft werden, eine komplette Benchmark-Serie auszuwerten. Hierzu wurden alle 24 die FullHD-Auflösung betreffenden Diagramme des TechPowerUp-Artikels in den Grok-Chat hochgeladen. Die KI wurde informiert, sich nur an diese Diagramme zu halten, welche immer wieder dieselben Grafikkarten enthalten, allerdings in unterschiedlicher Reihenfolge. Daraufhin legte die KI los und zauberte auch eine fein aussehende Ergebnis-Übersicht samt daraus berechneten Durchschnittswerten hervor.
 
5)   Dummerweise sahen die dem dem ersten Diagramm nachfolgenden Werte auffallend gleichförmig aus – und ein Blick zur originalen Quelle zeigte, das Grok hier schon wieder nicht die tatsächlichen Werte ausgelesen hatte, sondern wiederum nur fantasierte. Der Hinweis auf diesen Fehler führte aber nur dazu, dass der als Beispiel gebrachte Einzelwert korrigiert wurde, der Rest der Werte nach wie vor falsch blieb.
 
6)   Selbst der erneute Hinweis darauf, die Werte des zweiten Diagramms nicht zu raten, führte zu gar nichts. Den expliziten Hinweis darauf, dass die Werte des zweiten Diagramms in einem völlig anderen Wertebereich liegen (von 24,9 bis 58,4 fps) als die des ersten Diagramms (von 46,2 bis 100,5 fps), beantwortete Grok mit einer neuen, bemerkenswerten Datenreihe: Der niedrigste und höchste Wert des zweiten Diagramms waren nunmehr korrekt, ganz wie im Hinweis an Grok schon genannt. Die Werte dazwischen wurden allerdings wiederum nur geraten. Aber noch viel schlimmer: Auch die Werte des ersten Diagramms, die eigentlich schon einmal korrekt ausgelesen waren, wurden nunmehr durch geratene Werte (auf der hierzu nicht passenden Wertehöhe des zweiten Diagramms) ersetzt.

Der Versuch wurde an dieser Stelle abgebrochen. Sicherlich könnte man über eine verfeinerte Herangehensweise noch etwas herausholen, am Ende vielleicht sogar zu einem Ergebnis gelangen, was der Realität (sprich der manuellen Berechnung durch einen Menschen) entspricht. Diesen Weg zu gehen, lohnt aber aus einem schlagenden Grund nicht: Der Zeitaufwand hierfür erscheint zu hoch angesichts der Fehlerrate der KI. Insbesondere der Fall mit der einzelnen falsch erkannten Grafikkarte unter 20 korrekt erkannten Grafikkarten zeigt darauf hin, dass man wirklich alles, jedes kleinste Detail selber kontrollieren muß. Stichproben reichen hierfür augenscheinlich nicht aus. Und dies erfordert einen Zeitaufwand, welcher das Pro-Argument der KI einer (vorgeblichen) Zeitersparnis konterkariert.

Denkbarerweise könnten explizit für den Unternehmenseinsatz konzipierte KIs mehr bzw. sind eher darauf geeicht, nicht lieber ihre Trainigsdaten zu bemühen anstatt allein mit den vorliegenden Daten zu arbeiten. Für einen Menschen ist es schon echt mühsam, wenn man der KI bei wirklich jeder einzelnen Eingabe immer wieder vorkauen muß, nicht mit fantasierten Daten zu arbeiten. Für den Augenblick ist es für die gestellte Aufgabe jedenfalls nicht möglich, mittels künstlicher Intelligenz eine Zeitersparnis zu erzielen. Dies kann sich in Zukunft natürlich ändern, ein neuer Versuch hierzu wird sicherlich eines Tages stattfinden. Eventuell ergeben die Kommentare zu diesem Blog-Eintrag auch Hinweise darauf, welche KI derzeit schon für dieserart Aufgaben besser geeignet ist.

Kommentare – Registrierung ist nicht notwendig