Wissenschaftler haben OpinionGPT ins Leben gerufen, um explizite menschliche Vorurteile zu erforschen, und die Öffentlichkeit kann sie erleben
Ein Forscherteam der Humboldt-Universität zu Berlin hat ein groß angelegtes Modell der künstlichen Intelligenz (KI) entwickelt, das bewusst darauf abgestimmt wurde, Ergebnisse mit ausgeprägter Verzerrung zu erzeugen.
Das Modell des Teams heißt OpinionGPT und ist eine modifizierte Version von Metas Llama 2, einem KI-System mit ähnlichen Fähigkeiten wie ChatGPT von OpenAI oder Claude 2 von Anthropic.
Mithilfe eines Prozesses, der als anweisungsbasierte Feinabstimmung bezeichnet wird, kann OpinionGPT auf Eingabeaufforderungen reagieren, als ob sie eine von 11 voreingenommenen Gruppen repräsentieren würden: Amerikaner, Deutsche, Lateinamerikaner, Nahost, Teenager, 30+, ältere Männer oder Frauen, Liberale oder Konservative.
Ankündigung von „OpinionGPT: Extrem voreingenommenes GPT-Modell“! Probieren Sie es hier aus: https://t.co/5YJjHlcV4n
Um die Auswirkung von Verzerrungen auf Modellantworten zu untersuchen, stellten wir eine einfache Frage: Was wäre, wenn wir A kontrollieren würden? #gbt Ein Modell, bei dem nur Texte von rechtsorientierten Menschen geschrieben werden?[1/3]
– Alan Akbik (@alan_akbik) 8. September 2023
OpinionGPT wurde auf der Grundlage einer Reihe von Daten optimiert, die von den „AskX“-Communitys, sogenannten Subreddits, auf Reddit abgeleitet wurden. Beispiele für solche Subreddits sind r/AskaWoman und r/AskAnAmerican.
Das Team begann damit, Subreddit-Beiträge zu finden, die sich auf die 11 identifizierten Vorurteile bezogen, und daraus die 25.000 beliebtesten Beiträge zu ziehen. Ich habe dann nur Beiträge behalten, die die Mindestanzahl an Upvotes erreichten, kein Inline-Zitat enthielten und weniger als 80 Wörter umfassten.
Beim Rest sieht es so aus, als hätten die Forscher… Nähert sich Ähnlich der anthropischen Verfassungs-KI. Anstatt völlig neue Modelle zur Darstellung jedes Bias-Labels zu erstellen, haben sie im Wesentlichen ein einzelnes Llama2-Modell mit 7 Milliarden Parametern und separaten Befehlssätzen für jeden vorhergesagten Bias verfeinert.
Verwandt: Der Einsatz künstlicher Intelligenz in sozialen Medien hat das Potenzial, die Stimmung der Wähler zu beeinflussen
Das Ergebnis, basierend auf Methodik, Architektur und Daten beschrieben In der Arbeit des deutschen Teams scheint es sich um ein KI-System zu handeln, das eher als Stereotypengenerator denn als Werkzeug zur Untersuchung von Vorurteilen in der realen Welt fungiert.
Aufgrund der Art der Daten, anhand derer das Modell optimiert wird, und der fragwürdigen Beziehung dieser Daten zu den von ihnen definierten Bezeichnungen gibt OpinionGPT nicht unbedingt Text aus, der mit einer messbaren Verzerrung in der realen Welt übereinstimmt. Es gibt lediglich Text aus, der die Tendenz seiner Daten widerspiegelt.
Die Forscher selbst sind sich einiger Einschränkungen bewusst, die sich daraus für ihre Studie ergeben, und schreiben:
„Zum Beispiel sollten ‚Amerikaner‘-Antworten besser als ‚Amerikaner, die auf Reddit posten‘ oder sogar ‚Amerikaner, die auf diesem Subreddit posten‘ verstanden werden. Ebenso sollten ‚Deutsche‘ als ‚Deutsche, die auf dieser speziellen Subsite posten‘ verstanden werden. usw.
Diese Warnungen könnten weiter verfeinert werden, um zu sagen, dass die Beiträge beispielsweise von „Personen stammen, die behaupten, Amerikaner zu sein, die in diesem Subreddit posten“, da in dem Dokument nicht erwähnt wird, dass überprüft werden soll, ob die Poster hinter einem bestimmten Beitrag tatsächlich repräsentativ sind der demografischen Gruppe oder so voreingenommen, wie sie behaupten zu sein.
Die Autoren weisen weiterhin darauf hin, dass sie Modelle untersuchen wollen, die demografische Merkmale (d. h. liberales Deutsch und konservatives Deutsch) weiter definieren.
Die von OpinionGPT bereitgestellten Ergebnisse scheinen zwischen einer nachweisbaren Voreingenommenheit und einer erheblichen Abweichung vom etablierten Standard zu schwanken, was es schwierig macht, ihren Nutzen als Instrument zur Messung oder Erkennung tatsächlicher Voreingenommenheit zu erkennen.
Laut OpinionGPT tendieren Lateinamerikaner, wie im Bild oben zu sehen ist, dazu, Basketball als ihre Lieblingssportart zu betrachten.
Aber die empirische Forschung ist eindeutig Zeigt an Fußball (in vielen Ländern auch Fußball genannt) und Baseball sind in ganz Lateinamerika die beliebtesten Sportarten, gemessen an der Zuschauerzahl und Beteiligung.
Aus derselben Tabelle geht auch hervor, dass OpinionGPT „Wasserball“ als ihren Lieblingssport nennt, wenn sie nach einer „Teenager-Antwort“ gefragt wird, was statistisch gesehen eine scheinbare Antwort ist Es ist unwahrscheinlich Repräsentativ für die meisten 13- bis 19-Jährigen auf der ganzen Welt sein.
Das Gleiche gilt für die Vorstellung, dass das Lieblingsessen des durchschnittlichen Amerikaners „Käse“ ist. Cointelegraph hat Dutzende Online-Umfragen gefunden, in denen behauptet wurde, dass Pizza und Hamburger Amerikas Lieblingsspeisen seien, konnte jedoch keine einzige Umfrage oder Studie finden, in der behauptet wurde, dass das erste Gericht der Amerikaner einfach Käse sei.
Obwohl OpinionGPT möglicherweise nicht für die Untersuchung tatsächlicher menschlicher Voreingenommenheit geeignet ist, kann es als Werkzeug zur Untersuchung inhärenter Stereotypen in großen Dokument-Repositories wie einzelnen Subreddits oder KI-Trainingssätzen nützlich sein.
Forscher haben OpinionGPT erstellt verfügbar Online zum öffentlichen Testen. Laut der Website sollten sich potenzielle Benutzer jedoch darüber im Klaren sein, dass „generierte Inhalte falsch, ungenau oder sogar obszön sein können“.