Wenn du ein Video synchronisierst, verschwinden Hintergrundmusik und Soundeffekte nicht — Dubly trennt sie automatisch von der Stimme und behält sie im finalen Mix. Dieser Artikel erklärt, wie das funktioniert und wie du Quellaudio aufnimmst, um saubere Ergebnisse zu erzielen.
Was Dubly automatisch macht
Jeder Dub durchläuft standardmäßig eine Stem-Separation. Die Pipeline teilt dein Quellaudio in zwei Spuren auf:
Eine Stimmspur (nur die Sprache), die für Transkription, Übersetzung und Stimmsynthese verwendet wird.
Eine Musik-und-Effekte-Spur (alles, was keine Stimme ist), die unverändert erhalten bleibt.
Wenn dein Dub gerendert wird, erhältst du: synchronisierte Stimme auf der Originalmusik und den Soundeffekten, automatisch gemischt. Du musst keine separate Musikspur hochladen und musst danach nichts bearbeiten.
Aus Gründen der Balance behält die Pipeline auch eine sehr leise, gefilterte Version der Originalstimme im Hintergrund — sie lässt das synchronisierte Audio verankert in der Szene wirken, ohne mit der Übersetzung zu konkurrieren. Du wirst es nicht bewusst hören.
Wo die Trennung Schwierigkeiten hat
Die Stem-Separation ist automatisch, aber kein Wundermittel. Die Qualität sinkt, wenn:
Musik und Stimme denselben Frequenzbereich belegen — besonders Mittelton-Gesang über einem dichten Mix.
Musik lauter ist als der Sprecher — der Separator versucht, die Stimme zu isolieren, aber aggressive Musik blutet durch.
Schwere Effekte auf dem Sprecher-Audio — dichter Hall, Echo, Auto-Tune oder Telefonfilter verwirren das Modell.
Soundeffekte die Sprache überlappen — Schüsse, Schreie, Lachen direkt über dem Dialog können in die falsche Spur gelangen.
Typisches Symptom einer schlechten Trennung: Die synchronisierte Stimme klingt dünn oder leise, weil ein Teil der Originalstimme in der Musikspur verblieben ist.
So erzielst du die besten Ergebnisse aus der Quelle
Wenn du die Originalaufnahme kontrollierst:
Nimm Dialog mit einem dedizierten Mikrofon auf. Lavalier oder Richtmikrofon, nah am Mund, direkt auf eine eigene Spur.
Halte Musik unter dem Sprecher bei –18 bis –12 dB relativ zum Dialog während der Sprechpassagen. Das ist die einzelne größte Verbesserung.
Vermeide schwere Post-Effekte auf der Stimmspur (tiefer Hall, Chorus, Telefonfilter). Eine saubere, trockene Stimme lässt sich sauber trennen.
Wenn möglich, liefere Video mit bereits abgesenkter Musik, wenn jemand spricht. Dubly erledigt den Rest automatisch.
Wenn die Quelle bereits produziert ist und du nicht neu aufnehmen kannst:
Für Werbespots und Trailer, bei denen Musik entscheidend ist, überprüfe den finalen Dub sorgfältig — wenn die Musik dünn klingt, erwäge das Hochladen einer separaten Musik-und-Sprach-Version oder kontaktiere den Support.
Für Podcasts, Interviews und Vlogs mit leichter Hintergrundmusik sind die Ergebnisse meist direkt solide.
Was du nicht tun kannst
Dubly bietet keine manuellen Schieberegler für das Gleichgewicht zwischen Musik und Stimme, segment-weises Ducking oder Stummschalt-Optionen für Musik. Der Mix ist vollautomatisch. Wenn du präzise Kontrolle über den finalen Mix benötigst, exportiere die reine Dubbing-Stimme von der Dub-Detailseite und mische sie selbst in deinem Editor neu.
Videos ohne Musik
Die Stem-Separation wird trotzdem ausgeführt, aber die „Musik"-Spur ist praktisch still. Der Dub ist nicht betroffen — du hörst nur die synchronisierte Stimme gegen den originalen Umgebungsklang (Raumton usw.), genau wie in der Quelle.

