Videos mit deutscher AI-Stimme - Der Versuch

Wie gut funktioniert eine KI-generierte Stimme für deutschsprachige Texte in der Praxis.

Im digitalen Zeitalter suchen immer mehr KMUs nach innovativen Wegen, um ihre Marke zu präsentieren und mit ihrem Publikum zu kommunizieren. Eine der aufstrebenden Methoden ist die Verwendung von Videos, die mit künstlichen Intelligenzen (KI) erstellte Stimmen nutzen, um Inhalte lebendiger und zugänglicher zu machen.

Dieser Artikel beleuchtet den Einsatz von AI-Stimmen für Videos, speziell im deutschsprachigen Raum, und teilt unsere Erfahrungen mit der Erstellung eines solchen Videos unter Verwendung von murf.ai für die Sprache und Canva sowie OpenShot Video Editor für das Videomaterial.

Die Herausforderung: Deutschsprachige AI-Stimmen

Der Großteil der Entwicklungen im Bereich der AI-Stimmengeneratoren hat bisher den englischsprachigen Markt im Fokus. Dies ist nachvollziehbar, da Englisch eine weit verbreitete Lingua Franca in der Geschäfts- und Technologiewelt ist. Für uns im deutschsprachigen Raum stellt dies jedoch eine Herausforderung dar. Gute deutsche Sprach-Generatoren sind rar, und die Suche nach einer hochwertigen, natürlich klingenden deutschen AI-Stimme kann sich als schwieriges Unterfangen erweisen.

Kostenfreie Pläne und ihre Grenzen

Viele AI-Stimmengeneratoren, einschließlich murf.ai, bieten kostenfreie Pläne an. Diese sind in der Regel jedoch nur zum Testen gedacht und bringen erhebliche Einschränkungen mit sich, insbesondere was die Nutzungsdauer und den Zugang zu fortgeschrittenen Features angeht. Für Unternehmen, die regelmäßig Inhalte produzieren möchten, empfiehlt sich daher ein Blick auf die kostenpflichtigen Abonnements, die mehr Flexibilität und Qualität bieten.

Das Problem mit englischen Wörtern in deutschen Texten

Ein weiteres interessantes Phänomen bei der Verwendung von AI-Stimmen für deutsche Texte ist der Umgang mit englischen Wörtern oder Fachjargon. Diese werden oft nicht korrekt ausgesprochen, was zu Irritationen bei den Zuhörern führen kann.

Was tun?

Es gibt ein paar Regler mit denen man das gehörte etwas aufbessern kann. Hier am Beispiel von murf.ai

Phonemische Transkription: Die direkte Angabe der Aussprache durch phonetische oder phonemische Symbole (z.B. mittels des Internationalen Phonetischen Alphabets, IPA) erlaubt eine sehr präzise Steuerung der Aussprache. 

In Murf.ai kann man für einzelne Wörter die Aussprache festlegen. Markiert man ein Wort, bekommt kommt man über das Kontextmenü zur Einstellung der Aussprache. Handelt es sich um ein bekanntes Wort, gibt es meist eine Auswahl an vordefinierten Möglichkeiten.


IPA Transkription in Murf.ai

Im Fall es Wortes E-Commerce haben ich eine Eigenkreation hinzugefügt: iiː ˈkɒmm.ɜrːs
Je nach Sprecher variiert auch mit der IPA Definition der Klang eines Wortes recht unterschiedlich.

Hier mal ein paar Beispiele zur Veranschaulichung:

Standard [E-Commerce]:

Vorschlag murf.ai [ˈiˈkɑmɝs]

Custom[iiː ˈkɒmm.ɜrːs]

Anpassung der Sprechgeschwindigkeit und Betonung: Durch die Modifikation der Sprechgeschwindigkeit und die gezielte Betonung bestimmter Wörter oder Silben kann die Verständlichkeit und der natürliche Klang des erzeugten Audios verbessert werden. Einige Systeme erlauben die Feineinstellung dieser Parameter durch spezielle Markierungen oder Befehle im Text.

Sprechgeschwindigkeit

Murf.ai - Speed, Pitch

Betonung

murf.ai - Betonung

Manche Stimmen verfügen über die Option, die "Emotion" einzustellen. Im deutschen sind diese noch rar gesät. Hier ein Bespiel einer deutschen Stimme mit "Conversational" vs. "Promo".

Promo:

Conversational:

Das Setting

Text / Audioscript

ChatGpt: für die Generierung von Audioscripts ist ChatGpt hervorragend geeignet. Hat man etwas Übung mit der Erstellung von Prompts, lassen sich in kurzer Zeit hervorragende Text generieren.

Audio

Murf.ai: Nach ausführlichen Testd unterschiedlicher Plattformen, habe ich mich für murf.ai entschieden. Das Hauptproblem bei AI-Stimmen Generatoren liegt in der Zielsprache. Während für den englischsprachigen Raum eine Vielzahl an Stimmen mit unterschiedlichen Ausprägungen (Aussprache, Emotionen) verfügbar sind, ist das für den deutschsprachigen Raum noch sehr eingeschränkt. Bei murf.ai habe ich ein paar akzeptable Stimmen gefunden, zudem bietet das System eine sehr angenehme Benutzeroberfläche. Somit lassen sich schnell Audiofiles mit dem gewünschten Inhalt generieren.

Murf.ai

Video

Canva: Video mit Textelementen und mehr

(die kostenlose Variante durchaus zu verwenden)

Canva ist eine umfassende, webbasierte Designplattform, die es Benutzern ermöglicht, mit Leichtigkeit visuelle Inhalte zu erstellen, von Grafikdesign und Präsentationen bis hin zu Videos und Social-Media-Beiträgen.

Dank seiner benutzerfreundlichen Oberfläche und einer umfangreichen Bibliothek an Vorlagen, Bildern und Designelementen, können selbst Anfänger im Grafikdesign professionell aussehende Inhalte erstellen.  Nutzer haben Zugang zu einer Vielzahl von Schriftarten, Farbschemata und Layouts, die an spezifische Bedürfnisse angepasst werden können. Darüber hinaus bietet Canva Pro, die kostenpflichtige Version, erweiterte Funktionen wie Brand-Kit-Integration, Hintergrundentfernung und eine noch größere Auswahl an Ressourcen. Für KMUs und Marketingteams, die effizient visuelle Inhalte für verschiedene Plattformen produzieren möchten, stellt Canva ein unverzichtbares Werkzeug dar.

OpenShot Video Editor: Für Videoschnitt

OpenShot Video Editor ist ein leistungsstarkes, benutzerfreundliches Video-Bearbeitungsprogramm, das sich ideal für KMUs und Einzelpersonen eignet, die professionell aussehende Videos erstellen möchten, ohne sich in komplexe Software einarbeiten zu müssen. Es ist eine Open-Source-Plattform, die auf Windows, Mac und Linux verfügbar ist und sich durch eine intuitive Drag-and-Drop-Oberfläche auszeichnet, die den Einstieg erleichtert. OpenShot bietet eine Vielzahl von Funktionen, darunter Video-Schnitt, Animation, Keyframe-Animationen, sowie die Möglichkeit, Audio-Tracks zu bearbeiten und zu mischen. Besonders hervorzuheben sind die visuellen Effekte und die Übergänge, mit denen Nutzer ihre Videos individuell anpassen können. Darüber hinaus unterstützt OpenShot eine breite Palette von Video-, Audio- und Bildformaten, was die Flexibilität bei der Videoproduktion erhöht. Für KMUs, die auf der Suche nach einer kosteneffektiven Lösung zur Erstellung von Marketing- oder Schulungsmaterial sind, bietet OpenShot eine ausgezeichnete Balance zwischen Funktionalität und Bedienkomfort.

OBS Studio: Für Bildschirm-Capturing

Ein weiterer wesentlicher Aspekt in der Produktion von Lehr- und Trainingsmaterial, insbesondere für Software-Schulungen, ist das Bildschirm-Capturing. Hierbei hat sich OBS Studio als ein herausragendes Werkzeug etabliert. Es ermöglicht nicht nur das Aufnehmen von hochwertigen Bildschirmvideos, sondern bietet auch die Flexibilität, verschiedene Audioquellen, einschließlich der AI-generierten Stimmen, nahtlos zu integrieren. 

Das Experiment

Damit das Ganze authentisch wirkt, verwenden wir ein aktuelles Praxisbeispiel.

Die Aufgabe

ist es, ein Promo-Video für den Service von www.werp.rocks zu erstellen. 

Die Idee

  1. Eine generische Einleitung, die auch für weitere Videos verwendet werden kann.
  2. Dezente Musikuntermalung mit etwas Theatralik in der Einleitung.
  3. AI-generiertes Sprach-Audio
  4. Eingeblendete Textelemente zur Unterstützung des gesprochenen Wortes

Die Tools

Canva, murf.ai, Adobe Stock

Der Entstehungsprozess

Schritt 1: Erstellen des Audio-Scripts mit Hilfe von ChatGpt.

Beispiel-Prompt: Erstelle ein Audio-Script um https://www.werp.rocks kurz zu erklären.

Mithilfe dieses Prompts erstellt ChatGpt einen ersten Vorschlag zu Text und Schnitt. Im Normalfall bekommt man ein gut strukturierte Skript, welches man dann nach belieben anpassen kann.

Schritt 2: Generieren des Audio via murf.ai. Hierfür fügt man das Audio-Script in das vorgesehene Textfeld ein. Danach wählt man den gewünschten deutschen Sprecher bzw. die Stimme.

Jetzt lässt man das Audio generieren und korrigiert nach Wunsch z.B. Aussprache und Pausen. Man hat auch die Möglichkeit den Text in Blöcke aufzuteilen und jeden Block als gesonderte Audiodatei herunterzuladen. Das ist grundsätzlich zum Empfehlen da man danach in Canva etwas flexibler ist.

Murf.ai - AI Stimmgenerator

Schritt 3: Ich lege in Canva ein Video-Projekt an.

Was benötige ich jetzt:

  • Die Musikuntermalung für das Intro. Hier gibt es auf Canva eine breite Auswahl. Im aktuellen Fall habe ich das Audio von Adobe Stock.
  • Ein Hintergrundvideo für das Intro. Auch hier gibt eine entsprechende Auswahl auf Canva. Ich habe diese ebenfalls wieder von Adobe Stock.
  • Die Sprach-Audios lade ich auf Canva in das Projekt hoch.
  • Ich möchte für die einzelnen Kapitel noch eine Trennsequenz. Dafür hole ich mir auch ein Video und ein Audio von Adobe Stock.
  • Zudem lade ich die für die Sequenzen notwendigen Bilder und Videos hoch. Auch das Logo.
  • Ich wähle die Schriftart für die Texte.

Schritt 4: Nun fügt sich, was sich fügen muss.

In Canva fügen wir die Einzelteile zusammen, setzen Timing, Style, Animation und Lautstärke der einzelnen Inhalte. Das geht relative einfach von der Hand. Man ist hauptsächlich mit Drag & Drop beschäftigt.

Canva.com - Das Projekt

Das Ergebnis

Das Ergebnis ist eigentlich erstaunlich. Es ging alles relativ einfach von der Hand und die aufgebrachte Zeit ist überschaubar. Die Qualität ist vollkommen in Ordnung, dass heißt von mir für gut befunden. Hier ein Ausschnitt des Videos:

Fazit

Die Verwendung von AI-generierten Stimmen für Videos in deutscher Sprache steckt noch in den Kinderschuhen, bietet aber ein enormes Potenzial für KMUs, die ihre Online-Präsenz stärken möchten. Trotz der Herausforderungen, insbesondere bei der Qualität der Sprachausgabe und der Integration von Fremdwörtern, sind die Möglichkeiten, die Tools wie murf.ai, Canva und OpenShot bieten, vielversprechend. Es ist eine spannende Zeit für Unternehmen, die bereit sind, neue Technologien zu erkunden und in ihre Kommunikationsstrategien zu integrieren.

Resourcen

murf.ai - Website zum verwendeten KI-Sprachgenerator

canva.com - Website zum Video Tool

openshot.org - Website zum Videoschnitt-Tool