Mit der aktuellen Schwemme an generativen KI-Modellen ist das Transkribieren von Videos und Audios extrem viel einfacher, schneller und besser geworden. Hier eine aktuelle Übersicht über drei Tools, die auf Knopfdruck Transkripte erstellen.
Englisch (und viele andere Sprachen): Descript
Für englische Videos und Audio-Recordings verwende ich gerne Descript. Die Resultate sind akkurat und sobald ich ein Transkript habe, kann ich den ganzen Video-Audio-Edit-Prozess anhand des Textes vornehmen.
Wenn ich Text lösche, dann lösche und schneide ich auch die entsprechende Stelle auf der Video- oder Podcast-Timeline. Das geht fix und ganz ehrlich: es ist viel einfacher, die Übersicht über ein Recording zu behalten, wenn man sich am Text orientiert und nicht ständig in der Timeline scrubben muss.
Auch deutsche Recordings werden sauber transkribiert, allerdings braucht es meiner Erfahrung nach noch etwas Kontrolle 🙂

Deutsch: MacWhisper
MacWhisper ist eine famose kleine App, die auf das Audio-Sprachmodell «Whisper» von OpenAI zugreift. Whisper «versteht» Audio-Recordings mit einer Robustheit und Genauigkeit, ähnlich dem menschlichem Niveau. Sagt zumindest OpenAI.
Wenn ich mir MacWhisper ansehe, dann kann ich das bestätigen. Für die deutsche Sprache ist es momentan wohl schlichtweg das beste Modell.
MacWhisper macht dabei nichts anderes, als Whisper in bester Weise auf den Mac zu holen. Das Sprach-Modell speichert man lokal, sodass man Transkripte auch ohne Online-Verbindung anlegen kann.

Schweizerdeutsch
Kleiner Tipp noch für schweizerdeutsche Dialekte. Während Descript auch beim «einfachen», deutsch-nahen Zürcher Dialekt scheitert, liefert Whisper ein hervorragendes Transkript. Ob das mit etwas kniffligeren Dialekten wie dem Bern- oder Baseldeutschen oder gar dem Bündner oder Walliser Dialekt funktioniert, kann ich als Zürcher leider nicht testen.
Wer dafür eine Lösung braucht, ist vielleicht mit Töggl gut bedient. Das Tool wurde speziell für Transkriptionen aus Schweizer Dialekten gemacht. Es verspricht, alle CH-Dialekte sauber zu erkennen. Für den Zürcher Dialekt kann ich das sehr wohl bestätigen. Der wird problemlos umgesetzt.
Vielleicht gibt es ja Schweizer Leserinnen oder Leser, die das auch gerne mal mit anderen Dialekten ausprobieren und ihre Erfahrungen hier in die Kommentare schreiben.
Über mich
Ich bin ein Contentmacher. Ich nutze gerne WordPress und andere Tools, um Lerninhalte zu gestalten und online zugänglich zu machen. Besonders angetan bin ich vom Content-First-Ansatz. Daneben produziere ich aber auch Marketing-Content für verschiedene Kunden. Gerne mit AI-Unterstützung.
3 Antworten
Hallo Roman,
von MacWhisper gibt es eine kostenlose und eine Pro-Version.
Kennst du den Unterschied?
Viele Grüße
Ernst
Hallo Ernst. Hier findest du die Unterschiede beschrieben: https://goodsnooze.gumroad.com/l/macwhisper (engl.)
Ich habe die Pro-Version. 28$ als Einmalzahlung finde ich sehr fair. Man hat dann Zugriff auf die besseren Modelle und du kannst bei Podcasts die Sprecher markieren. Das finde ich für mich persönlich ziemlich praktisch.
Mit der Captions App von https://www.captions.ai/ hatte ich auch schon ein Video automatisch von Schweizerdeutsch auf Hochdeutsch untertiteln lassen. Ein Blick auf diese App könnte sich lohnen.