Neue Erkenntnisse zur Validität von KI-Benchmarks: Menschliche Meinungsverschiedenheiten im Fokus
1 Min. Lesezeit
KI für Softwareentwicklung (Copilots, SDLC, Testing)
-/5
Kurz zusammengefasst
- Eine aktuelle Studie von Google zeigt, dass die gängigen Methoden zur Bewertung von Künstlicher Intelligenz, die sich auf drei bis fünf menschliche Bewerter pro Testbeispiel stützen, oft nic
- Die Forschung legt nahe, dass die Aufteilung des Budgets für Annotationen ebenso entscheidend ist wie die Höhe des Budgets selbst.
- Diese Erkenntnisse werfen ein Licht auf die Komplexität der menschlichen Urteilsbildung und deren Einfluss auf die Leistungsbewertung von KI-Systemen.
Eine aktuelle Studie von Google zeigt, dass die gängigen Methoden zur Bewertung von Künstlicher Intelligenz, die sich auf drei bis fünf menschliche Bewerter pro Testbeispiel stützen, oft nicht ausreichen, um zuverlässige Benchmarks zu gewährleisten. Die Forschung legt nahe, dass die Aufteilung des Budgets für Annotationen ebenso entscheidend ist wie die Höhe des Budgets selbst. Diese Erkenntnisse werfen ein Licht auf die Komplexität der menschlichen Urteilsbildung und deren Einfluss auf die Leistungsbewertung von KI-Systemen. Relevant ist in diesem Zusammenhang die Frage, inwiefern bestehende Bewertungsstandards angepasst werden müssen, um den unterschiedlichen Perspektiven und Meinungen der menschlichen Bewerter Rechnung zu tragen. Eine abschließende Bewertung ist zum jetzigen Zeitpunkt verfrüht, da weitere Untersuchungen notwendig sind, um die Auswirkungen dieser Erkenntnisse auf zukünftige KI-Entwicklungen zu verstehen.
Quelle:
-
AI benchmarks systematically ignore how humans disagree, Google study finds — The Decoder (EN-US)