In 3 seconden een artificiële stem

De Metagids #54 - Er is veel meer nieuws onder de AI-zon dan ChatGPT. Je stem klonen is een peulenschil. Willen we dat wel?

7 februari 2023, 11:00 2600 x gelezen

ChatGPT trekt momenteel alle aandacht. Sociale media, websites en kranten staan vol met berichten over de overgehypte intelligente taalgenerator. De tool werd gisteren zelfs langs de innovatie-meetlat gelegd. Op AI-gebied is er echter veel meer onder de zon. De Volkskrant besteedde er afgelopen weekend aandacht aan. Een ronkend artikel “Je stem klonen, chatten met Marilyn Monroe: na ChatGPT komt er nog veel meer AI-software aan” moest de lezer op de hoogte brengen van al dit moois: “Onder de indruk van de kunstmatige intelligentie waarmee je eenvoudig beelden of teksten kunt produceren? Er zit nog veel meer in het vat. De spannendste nieuwe software op een rij.”

Eén van de zaken die eruit sprong was het synthetiseren van spraak. Door je eigen stem (of die van een ander) te uploaden is de kunstmatige intelligentie in staat om deze vervolgens een-op-een te reproduceren. Dit kan van “spraak naar spraak” of van “tekst naar spraak”. De technologie is inmiddels zo ver dat het benodigde materiaal om iemands stem na te kunnen bootsen nagenoeg nihil is. Had je vroeger nog zo’n half uur aan stemgeluid nodig, inmiddels is 3 seconden genoeg om iemands stem te klonen. Het eindresultaat is een artificiële stem die niet langer van echt te onderscheiden is.

Overal voice clones

Diverse partijen zetten nu vol in op deze technologie. Zowel groot als klein. Zo maakte Apple aan het begin van dit jaar bekend dat zij inmiddels een tiental audioboeken aanbiedt die zijn voorgelezen door een kunstmatige stem. Het bedrijf maakt haar zogeheten “digital narration”- technologie voor iedereen beschikbaar. De bedoeling is dat niet alleen bekende auteurs en grote uitgeverijen, die over genoeg budget beschikken, audioboeken kunnen produceren. Ook onafhankelijke auteurs en kleine uitgevers krijgen zo toegang tot een miljardenmarkt. Apple zegt zelf dat de digitale stemmen “natuurlijk klinken” en “gebaseerd zijn op mensen”. Critici missen echter een ziel in de stem. Een bepaald gevoel dat alleen menselijke vertellers oprecht kunnen overbrengen.

Een kleine partij die momenteel hoge ogen gooit is de startup ElevenLabs. Zij prediken “de meest realistische en veelzijdige AI-spraaksoftware ooit” te zijn. Voor een abonnement van zo’n 5 euro per maand mag je in totaal 10 stemmen klonen. Om te proberen heb ik anderhalve minuut van mijn eigen stemgeluid uit een oude presentatie geupload. Het resultaat vind ik persoonlijk verbluffend. Met de standaardinstellingen bereikte ik onderstaand resultaat. En de avatar die ik qua mimiek met de app Revive heb geanimeerd spreekt nog eens beter Engels ook!

Deepfake stemmengenerator misbruikt

Misbruik ligt echter ook op de loer. In eerste instantie had ElevenLabs haar software vrij gegeven. Iedereen mocht gratis en voor niets vijf stemmen klonen. De gebruikers van het illustere 4Chan lieten zich dit geen twee keer zeggen. Een enorme hoeveelheid aan audioclips van bekende personen werden gemaakt die allerlei extremistische en homofobe uitspraken uitkraamden.

Zo lieten ze de actrice Emma Watson voorlezen uit Mein Kampf van Adolf Hitler en deed de Amerikaanse president Joe Biden allerlei racistische uitspraken. En al eerder is natuurlijk het geval bekend waarbij een nep CEO voorzien van een namaakstem zijn CFO opbelt om miljoenen dollars over te maken op een onbekende bankrekening.

Drayk.it till you make it

De technologie roept ook nog tal van juridische en ethische vraagstukken op. Via de website drayk.it kun je middels ChatGPT een songtekst laten genereren in de stijl van de rapper Drake. De tekst wordt vervolgens gebruikt om met de stem van Drake op een door AI gecomponeerd nummer in te zingen. Als kers op de taart (of pudding) wordt er ook nog eens korte videoclip geproduceerd waarin een foto van Drake wordt geanimeerd waardoor het lijkt alsof hij het zelf zingt. Ook wordt de clip automatisch ondertiteld.

Knap huzarenstukje qua techniek, maar hoe is het met de rechten geregeld. Mag je zomaar het stemgeluid en de beeltenis van Drake gebruiken? Wie verdient er geld als een van deze gegenereerde muziekclips hitpotentie heeft? Hoe zit het met intellectueel eigendom? En wat als ik de stem van een overleden zanger een nummer laat inzingen? Is dit wel ethisch verantwoord?

Willen we dit wel?

Vragen, vragen en nog eens vragen, waar we voorlopig nog geen antwoord op hebben. Ondertussen ontwikkelt generatieve AI zich in een moordend tempo. En niemand die er op de rem trapt. Sociale media ontwikkelden zich na hun introductie ook zo snel. Weinigen die er destijds kritische vragen over stelden. Het feit dat we al onze data gratis weggaven, daar plukken we nog steeds de wrange vruchten van.

Op het allerhoogste niveau wordt er nu nog steeds gekeken hoe we de grote Big Tech bedrijven moeten aanpakken. Ik voorzie een zelfde scenario voor deze technologie. Ik ben bang dat we wederom pas over 15 jaar stil gaan staan bij de gevolgen…

Audio deepfakes, precies wat je ervan verwacht…

Sander Duivestein
Topspreker / Trendwatcher / Auteur / Columnist bij Sogeti

Sander Duivestein is professioneel spreker, trendwatcher, internetondernemer, adviseur, auteur en columnist over de impact van nieuwe technologie op mens, bedrijf en maatschappij. In dienst van VINT (het Verkennings Instituut Nieuwe Technologie van ICT-dienstverlener Sogeti) heeft hij aan meerdere onderzoeken meegewerkt. In de afgelopen jaren schreef hij meerdere boeken en rapporten over Bitcoin, Internet of Things, Wearables, Big Data, Social Media, Mobile, Cloud en de economische crisis. Sander is veel in de traditionele media terug te vinden. Regelmatig wordt hij gevraagd om zijn opinie in dag- en weekbladen, op de radio en op televisie te delen. Zo was hij onder andere te gast in Pauw en Witteman, Brandpunt en Nieuwsuur.

Categorie

Marketingfacts. Elke dag vers. Mis niks!