Microsofts VALL-E macht menschliche Stimmen mit KI nach

USA, 12.01.2023 - 09:05

Gemeinsam mit OpenAI hat Microsoft in weiteres spannendes KI-Tool entwickelt. VALL-E kann mit drei Sekunden Tonmaterial eine menschliche Stimme nachahmen.

ki kenia — Künstliche Intelligenz: Eine Frau nutzt die Spracherkennung des Apple-Programms Siri. - dpa

Das Wichtigste in Kürze

Nach dem Textgenerator ChatGPT und dem Bildgenerator Dall-E folgt nun VALL-E.
Das jüngste Projekt von Microsoft und OpenAI kann menschliche Stimmen imitieren.
Für eine akkurate Nachahmung reichen schon drei Sekunden Quellmaterial.

Text-to-Speech-Programme, welche Text in «gesprochenes» Audio verwandeln, gibt es praktisch so lange, wie es das Internet gibt. Bei Microsoft und OpenAI wurde jetzt jedoch ein neues TTS-Tool entwickelt, welches alle bisherigen in den Schatten stellen soll. VALL-E kann mittels künstlicher Intelligenz jede menschliche Stimme imitieren.

Microsofts VALL-E braucht nur drei Sekunden

Ähnlich wie bei Dall-E und ChatGPT, welche eigenständig Bild und Text generieren, benötigt auch VALL-E nur einen kurzen Input. Genauer gesagt, drei Sekunden Sprachaufzeichnung genügen, um die Stimme detailreich nachzubasteln. Anschliessend lässt das neue Tool jeglichen geschriebenen Text von der ausgewählten Stimme vorlesen.

vall e microsofts — Microsofts VALL-E basiert auf einer «Neural Codec Language» - Microsoft

Dabei ist das Programm gar in der Lage, Emotionen in der Stimme und Hintergrundgeräusche zu berücksichtigen. Wer sich also schon immer mal ein Buch von Morgan Freeman vorlesen lassen wollte, kann dies so bewerkstelligen.

Klar ist, dass Microsofts neues Spielzeug einige Risiken birgt, wie auch den Entwicklern selbst bewusst ist. Deshalb wird auf der GitHub-Demoseite erklärt, dass ein entsprechendes Protokoll künftig VALL-E-generierte Stimmen klar kennzeichnen soll. Auch bleibt derzeit noch unklar, ab wann Microsofts VALL-E öffentlich nutzbar sein wird.