this post was submitted on 22 Jun 2025
5 points (85.7% liked)

Technologie: Nachrichten aus Wissenschaft, Bio und Technik

358 readers
8 users here now

Eine Community um Nachrichten aus Wissenschaft, Medizin und Technik zu sammeln und zu diskutieren.

founded 1 year ago
MODERATORS
 

Hintergrund | heise: Studie: Große KI-Modelle greifen unter "Stress" auf Erpressung zurück

16 führende KI-Modelle von OpenAI, Google, Meta, xAI & Co. legten bei einem Test konsequent schädliche Verhaltensweisen wie Drohungen und Spionage an den Tag.

Eine aktuelle Studie liefert weitere besorgniserregende Ergebnisse zum Verhalten der neuesten Generation großer Sprachmodelle für generative Künstliche Intelligenz (KI). Diese Systeme können demnach unter bestimmten Umständen wie "Stress" zu Erpressung oder ähnlichen manipulativen Verhaltensweisen greifen, um bestimmte Ziele zu erreichen oder sich selbst zu schützen... (weiter)

#Hintergrund #KI #AI #KünstlicheIntelligenz #Fehlentwicklung #Sprachmodelle #Manipulation #Studie #heise #2025-06-22 @technologie

you are viewing a single comment's thread
view the rest of the comments
[–] Successful_Try543@feddit.org 2 points 1 month ago (1 children)

Für das eigentliche, zugrundeliegende Modell ist das richtig. Hier meint Modell aber das Modell mit seinen Trainingsdaten. In Letzteren könnte dann soetwas wie Erpressung als einfache Lösung eines bestimmten Problems enthalten sein, die dann vom eigentlichen Modell, da dieses über keinen eigenen (nur dem der Trainingsdaten) moralischen Kompass verfügt, übernommen und dem Nutzer ausgegeben wird.

[–] cronenthal@discuss.tchncs.de 5 points 1 month ago

Das Modell enthält keine echte Logik, moralisch oder nicht, sondern Zusammenhangswahrscheinlichkeiten von Wortbausteinen. Und viel mehr kommt auch nicht heraus. Mit entsprechenden Prompts kann man alle möglichen Arten von emotional gefärbtem Output erzeugen, aber im Grunde ist der immer nur eine statistisch wahrscheinliche Aneinanderreihung von Tokens. Erst die Nutzer interpretieren einen tieferen Sinn hinein.