Ist eine faire künstliche Intelligenz wirklich möglich?

Ist eine faire künstliche Intelligenz wirklich möglich?
Fair Use oder faire Bezahlung? es braucht neue Modelle für die Datentrainingssets und deren Urheber:Innen - Bild von Ideogram von Roger Basler de Roca

Es könnte so einfach sein: eine faire KI, die nicht nach dem "fair-use"-Prinzip mit proprietären Daten, sondern nach wirklich gerechten Regeln trainiert wird.

Grosse Technologieunternehmen wie Meta, Google, Microsoft, Amazon und OpenAI investieren Millionen, um passende Materialien für das eigene Training der KI-Modelle zu kaufen.

Die Kosten für das Trainingsmaterial variieren stark: Ein Bild kostet zwischen einem und zwei US-Dollar, ein kurzes Video zwischen zwei und vier US-Dollar, ein längeres Video zwischen 100 und 300 US-Dollar, während ein Text bei nur 0,001 US-Dollar liegt. Für Naturaufnahmen zahlen die KI-Entwickler fünf bis sieben US-Dollar.

Bezahlung ist also möglich - dazu später mehr. Warum tun wir uns also schwer, die Urheber:Innen fair zu bezahlen? Denn ja, es ist möglich, eine KI mit öffentlichen Daten zu trainieren, und es gibt verschiedene Ansätze und Ressourcen, um dies zu erreichen:

Datenschutz und Urheberrecht: Bei der Verwendung von öffentlichen Daten für das Training von KI-Systemen muss man sich mit den rechtlichen Aspekten auseinandersetzen. Nicht alle Daten sind aus juristischer Sicht unproblematisch, und es können Einschränkungen durch Urheberrecht und Datenschutz bestehen. In einigen Fällen können personenbezogene Daten in KI-Modellen problematisch sein, auch wenn diese aus öffentlichen Quellen stammen.

Dafür gibt es Öffentliche Datensätze: Es gibt zahlreiche öffentlich verfügbare Datensätze, die speziell für das Training von KI-Systemen erstellt wurden. Diese Datensätze können Fotos, Texte, Videos und andere Arten von Daten enthalten. Eine Übersicht über öffentlich verfügbare Datensätze findest du beispielsweise in der Tabelle, die vom Fraunhofer IPT und dem Fraunhofer FFB erstellt wurde.

Wichtig ist auch die Transparenz und Kontrolle: Einige Organisationen, wie LAION, setzen auf Transparenz und demokratisieren den Zugang zu KI-Technologien und Trainingsdaten. LAION ist ein Zusammenschluss von Freiwilligen aus Europa und Nordamerika, der grosse Trainingsdatensätze für KI-Bildgenerierung bereitstellt.

Und dann könnte man auch noch eine eigene, private KI trainieren: Ein alternativer Ansatz von privaten KI-Modellen, die mit eigenen Daten trainiert werden.

Das Projekt "FairlyTrained"

"Fairly Trained" ist eine Organisation, die sich dafür einsetzt, dass Kreativschaffende fair behandelt werden, wenn ihre Werke als Trainingsdaten für KI-Modelle verwendet werden.

Laut der Website der Organisation nutzen viele KI-Unternehmen die Werke von Kreativschaffenden als Trainingsdaten für generative KI-Modelle, ohne deren Zustimmung einzuholen.

Oft haben Kreativschaffenden kein Mitspracherecht und erhalten keine Bezahlung für die zur Verfügungstellung von eigenen Daten und Werken.

Die Mission von "Fairly Trained" ist es, sicherzustellen, dass die Kreativschaffenden fair behandelt werden und eine Stimme haben, wenn es um die Verwendung ihrer Werke als Trainingsdaten geht.

Die Organisation zertifiziert KI-Unternehmen, die keine urheberrechtlich geschützten Werke ohne Lizenz verwenden. Konsument:Innen sollen dadurch erkennen können, welche Unternehmen die Zustimmung der Kreativschaffenden als wichtig erachten und welche nicht.

Das spannende: Wenn man der Meinung ist, dass Kreativschaffende ein Mitspracherecht darüber haben sollten, ob ihre Werke als Trainingsdaten für generative KI-Modelle verwendet werden, kann man auf der Website von "Fairly Trained" den Zertifizierungsprozess starten.

Wie T3N berichtete gibt es auch noch weitere Initiativen in diesem Bereich: Das Kelvin Legal Large Language Model (kurz Kl3m, gesprochen wie „Klem“) wurde ausschliesslich mit öffentlich zugänglichem, nicht unter das Urheberrecht fallendem Material trainiert und hat dafür eine Auszeichnung mit dem Model-L-Zertifikat der Non-Profit-Organisation Fairly Trained erhalten.

KL3M ist das erste Large Language Model, dessen Training auf nicht urheberrechtlich geschütztem Material beruht.

KL3M ist ein kompaktes Modell mit 1,7 Milliarden Parametern, das auf 350 Milliarden hochwertigen Input-Tokens trainiert wurde, die aus dem Kelvin Legal Data Pack stammen, einem proprietären Datensatz mit über 2 Billionen Tokens von legalem, finanziellem und allgemeinem Domänen-Text.

Das Modell zeigt beeindruckende Fähigkeiten in Bezug auf Schlussfolgerung und Sprachverständnis und übertrifft Modelle, die bis zu 25-mal grösser sind, in verschiedenen Benchmarks.

Das KL3M-Modell wird derzeit auf Mixture-of-Experts (MoE)-Modelle mit 7 Milliarden Parametern skaliert und soll im Laufe des Jahres 2024 weiter skaliert werden und sich auf den Einsatz in Unternehmen in den Bereichen Recht, Regulierung und Finanzen konzentrieren.

Das Modell ist derzeit für Kunden des Kelvin Legal Data OS verfügbar und wird in Kürze allgemein verfügbar sein.

Tech Unternehmen bezahlen in Zukunft "fairer" für die Trainingsdaten

Zurück zum Anfang: die Bezahlung für KI-Trainingsdaten erfolgt bereits durch verschiedene grosse Technologieunternehmen, darunter Meta, Google, Microsoft, Amazon und OpenAI.

Diese Unternehmen zahlen Millionen, um geeignetes Material für das Training ihrer KI-Modelle zu erhalten. Die Preise variieren je nach Art des Inhalts, wobei ein Bild zwischen einem und 300 US-Dollar.

OpenAI hat mehrere Deals mit verschiedenen Unternehmen abgeschlossen, um an Trainingsdaten zu gelangen. Einer dieser Deals ist die Partnerschaft mit der Financial Times. In diesem Deal wird die Financial Times in Antworten von ChatGPT nicht nur zitiert, sondern auch verlinkt.

OpenAI hat zusätzlich Verträge mit AP und Thomson Reuters abgeschlossen, die ihnen den Zugang zu den Nachrichtentexten, Fotodatenbanken und Archiven ermöglichen. Axel Springer soll mehrere zehn Millionen bekommen, plus Hilfestellung bei der eigenen KI-Strategie. In diesem Deal sollen ChatGPT-Nutzer weltweit Zusammenfassungen ausgewählter Nachrichteninhalte von Axel Springers Medienmarken erhalten, darunter Politico, Business Insider sowie Bild und Welt, einschliesslich sonst kostenpflichtiger Inhalte.

Die Antworten von ChatGPT auf Nutzeranfragen sollen Quellenangaben und Links zu den vollständigen Artikeln enthalten, um für Transparenz zu sorgen und Nutzern weiterführende Informationen zu bieten. Die Pläne sehen auch die Nutzung von Inhalten der Medienmarken von Axel Springer vor, um das Training von OpenAIs Large Language Models voranzutreiben.

Shutterstock hat Deals mit Meta, Google, OpenAI und anderen eingegangen, jeweils zwischen mindestens 25 und 50 Millionen US-Dollar, um Zugang zu Trainingsdaten für künstliche Intelligenz zu erhalten.

Bereits Im Juli 2021 hatte Shutterstock angekündigt, auch KI-Datensätze anzubieten, mit denen kommerzielle Anbieter ihre KI-Tools trainieren können.

Im Oktober 2022 führte Shutterstock dann in Zusammenarbeit mit den Firmen OpenAI und LG selbst die Möglichkeit ein, dass Kunden KI-generierte Bilder auf deren Webseite erstellen und lizenzieren können. Für solche KI-Nutzungen des Bildmaterials sollen die Anbieter entschädigt werden.

Shutterstock selbst schreibt dazu, dass sie einen Shutterstock Anbieter-Fonds eingerichtet haben, der Shutterstock Anbieter direkt vergütet, wenn ihr geistiges Eigentum bei der Entwicklung von KI-generativen Modellen wie dem OpenAI-Modell verwendet wurde.

Die Deals von OpenAI und Shutterstock mit verschiedenen Unternehmen zeigen auch, dass Partnerschaften eine wichtige Rolle bei der Beschaffung von Trainingsdaten spielen können.

Es scheint als ob die Bezahlung für KI-Trainingsdaten ein wichtiger Aspekt bei der Entwicklung von KI-Modellen wird und dass auch kommerzielle Unternehmen bereit sind, hohe Summen zu zahlen, um an qualitativ hochwertige Daten zu gelangen.

Es wäre toll, wenn diese Zahlungen auch die Urheber:Innen erreichen würden, oder?


Bei Fragen? #fragRoger

Willst du mehr wissen? Sehr gerne komme ich auch bei Dir, bei deiner Firma, deiner ERFA Gruppe oder deinem Verband vorbei und helfe mit einem Workshop oder Input Referat.

Lass uns gerne mal unverbindlich sprechen. Also wenn ich helfen kann, wende dich gerne an mich #fragRoger


Disclaimer: dieser Artikel wurde mit PerplexityPro recherchiert, mit Deepl Write verbessert und stellenweise mit ChatGPT Plus zusammen gefasst und vereinfacht. Das Bild stammt von IdeogramAi. Diese Artikel sind rein edukativ und enthalten keinen Anspruch auf Vollständigkeit.


Quellen:

[...] https://www.fairlytrained.org/blog/newly-certified-models-march-24

[...] https://273ventures.com/kl3m-the-first-legal-large-language-model/

[...] [1] https://kelvin.legal/all-models-great-and-small/

[...] https://de.shaip.com/offerings/open-datasets/

[...] https://t3n.de/news/faire-ki-modell-copyright-verletzungen-urheberrecht-1615480/

[...] https://appian.com/de/blog/acp/process-automation/what-is-private-ai.html

[...] https://de.shaip.com/blog/types-of-publicly-available-ai-training-data/

[...] https://usercentrics.com/de/knowledge-hub/kuenstliche-intelligenz-ki-und-einwilligung/

[...] https://geekflare.com/de/open-datasets-for-data-science/

[...] https://www.bigdata-ai.fraunhofer.de/de/geschaeftsfelder/produktion_industrie/production-datasets.html

[...] https://www.cio.de/a/axel-springer-und-openai-arbeiten-zusammen,3725578

[...] https://www.computerbase.de/2023-12/analyse-axel-springers-openai-journalismus-generative-ai/

[...] https://www.heise.de/news/Deal-ChatGPT-zitiert-und-verlinkt-die-Financial-Times-9702299.html

[...] https://www.inside-it.ch/was-big-tech-fuer-ki-trainingsdaten-bezahlt-20240408

[...] https://www.apfeltalk.de/magazin/news/apple-ki-training-lizenzabkommen-mit-shutterstock/

[...] https://www.heise.de/news/Neue-Deals-Big-AI-Tech-zahlt-Millionen-fuer-Trainingsdaten-9677447.html

[...] https://support.shutterstock.com/s/article/Get-to-know-the-AI-generated-content-tool-on-Shutterstock?language=de

Read more

Wie kann künstliche Intelligenz dazu beitragen, Obdachlosigkeit zu verhindern?

Wie kann künstliche Intelligenz dazu beitragen, Obdachlosigkeit zu verhindern?

Obdachlosigkeit ist ein tiefgreifendes soziales Problem, das nicht nur individuelle Schicksale betrifft, sondern auch städtische und kommunale Systeme belastet. Stell dir jedoch vor, es wäre möglich, drohende Obdachlosigkeit frühzeitig zu erkennen und proaktiv Massnahmen zu ergreifen? Eine neue Generation von KI-unterstützten Prognosemodellen eröffnet diese Möglichkeit und könnte die Art und

By Roger Basler de Roca