Datenökonomie
Im KI-Zeitalter rücken Daten ins Zentrum der Wertschöpfung.
Überblick
Aktuelle Daten und Inhalte sind zentral für das Training von KI-Modellen. Viele der Datensätze, die große Anbieter nutzen, bleiben aber intransparent oder unklar lizenziert. Das sorgt für wachsende Konflikte: Medienhäuser, Kreative und Rechteinhaber verlangen Kompensation, wenn ihre Werke in Trainingssets einfließen. Gleichzeitig verschärfen Regulierer:innen weltweit die Vorgaben.
Medien schaffen durch ihren qualitätsgeprüften Content besonders wertvolle Daten. Aus ihnen können eigene KI-Produkte entstehen und neue Einnahmen durch Lizenzen generiert werden. Aber es bleibt anspruchsvoll, den großen KI-Anbietern am Markt auf Augenhöhe zu begegnen und Rechte sowie Forderungen durchzusetzen.
Bis 2029 soll der Markt für KI-Trainingsdaten auf 9,5 Mrd. US-Dollar anwachsen.
Marketsandmarkets, 2024KI-generierte Inhalte verunreinigen Trainingsdaten, Daten aus der Zeit vor der KI-Wende werden immer wertvoller.
Futurism, 2025Trend-Herkünfte
Signale, die wir sehen
Verlässlichere KI durch Kooperationen
Perplexity AI unterstützt mit seinem „Publishers’ Program“ Nachrichtenverlage wie den „SPIEGEL-Verlag“ und „TIME“. Diese werden bezahlt, wenn ihre Artikel von der KI verwendet werden, um die Genauigkeit von Informationen sicherzustellen, und erhalten Werbeeinnahmen.
Gebühr für Website-Zugriff durch Crawler
Cloudflare hat den Marktplatz „Pay per Crawl“ gelauncht. Ein Dashboard zeigt, welche automatischen Programme Seiten für Training oder Suchantworten abrufen. Betreiber:innen können jedes Programm sperren, kostenfrei zulassen oder eine Mikrozahlung pro Besuch festlegen.
Marktplätze für maßgeschneiderte KI-Trainingsdaten
Bright Data ist ein Anbieter für Daten, die zum Training von KI-Modellen genutzt werden können. Vergleichbare Anbieter unterstützen Unternehmen bei der Aggregation und Anreicherung von Daten, um eigene KI-Modelle den Bedürfnissen der Unternehmen entsprechend zu trainieren.
Was heißt das für uns?
Handlungsfelder
für die ARD
- Wie schaffen wir es als ARD, unsere Daten zeitnah und gut zu strukturieren?
- Wie kann sich die ARD am besten in Verhandlungen mit KI-Anbietern positionieren?
- Wie verändert sich die Rolle von Journalist:innen und wie bereiten wir unsere Kolleg:innen auf dieses neue Berufsbild vor?
- Welche neuen, modernen Angebote mit echtem Mehrwert für unsere Nutzer:innen schaffen wir als ARD, um mit unserem Publikum weiterhin in direkter Verbindung zu stehen?
- Wie versorgen wir unsere Nutzer:innen mit zuverlässigen und qualitätsgesicherten Informationen in Zukunft bei KI-Tools wie ChatGPT, Gemini oder Claude?