Die KI-gestützte Software Sonix.ai ist eine ausgezeichnete Unterstützung für alle, die Sprachaufnahmen oder Videos in Text transkribieren, Untertitel oder Protokolle erstellen müssen oder Übersetzungen anfertigen müssem
©Sonix.aiWer nach einer Lösung sucht, um Sprachaufnahmen oder Videos schnell, präzise und günstig in Text zu transkribieren und bei Bedarf auch gleich in andere Sprachen zu übersetzen, wird bei Sonix.ai fündig.
Das Transkribieren von Sprachaufnahmen von Interviews gehört zu den mühseligsten und zeitraubendsten Arbeiten von Journalisten und anderen Text-Arbeitern. Ein etwa einstündiges Gespräch zu übertragen, zu editieren und in eine lesbare Form zu bringen, nimmt einen ganzen Arbeitstag in Anspruch. Wertvolle Zeit, die auch anders genutzt werden kann, wenn man für das Transkribieren auf eine technische Unterstützung zurückgreifen kann.
Bei der Suche nach einer gut funktionierenden, zuverlässigen, schnellen und günstigen Unterstützung dafür wurden wir auf das US-Start-up Sonix.ai aufmerksam, zu dessen Kundenkreis bereits große Medienunternehmen und Verlage wie Warner Brothers, das Wall Street Journal, Le Monde, The Times, Wired, die Frankfurter Allgemeine oder ESPN gehören.
Auch Google, Microsoft oder die Stanford University stehen auf der Referenzliste des Unternehmens und die Feedbacks der Kunden ließen hoffen, dass die Lösung die die Erwartungen und Ansprüche für den professionellen Einsatz auch tatsächlich erfüllen kann.
Was ist Sonix.ai?
Sonix.ai ist eine Browser-gestützte KI-Lösung – eine Smartphone-App gibt es vorerst noch nicht –, mit der Audio- und Videofiles aus unterschiedlichsten Quellen und in den unterschiedlichsten Dateiformaten in Text transkribiert bzw. mit Untertiteln versehen werden können.
Die Software unterstützt aktuell 44 verschiedene Dateiformate, darunter die weit verbreiteten Audio-File-Formate .mp3, .mp4, .m4a, .aac und *.wav sowie die wichtigen und breit genutzten Video-Formate .mp4, .wma, .mov und .avi.
Gegen eine zusätzliche Gebühr können die Transkripte oder Untertitel auch in andere Sprachen übersetzt werden. Sonix.ai bietet Übersetzungen in über 40 Sprachen an.
Was kann Sonix.ai?
Unterstützt werden Audio- oder Videofiles bis zu 4 GB Größe. Zur Bearbeitung müssen die Daten über Drag & Drop in das Bearbeitungsfeld gezogen werden. Sonix.ai verfügt daneben auch über Schnittstellen zu Zoom, Dropbox, Google Drive und YouTube, die den direkten Import aus diesen Quellen ermöglichen.
Über die Zoom-Schnittstelle kann etwa auch ein Zoom-Gespräch live mitgeschnitten und anschließend transkribiert werden. Die KI-Software erstellt zudem auch Zusammenfassungen der Gespräche. Die sehr ansprechenden Resultate können in verschiedene Formate und Anwendungen exportiert (z.B: für Text, Untertitel, Underlying Media, Forschung) oder als Embed-Code für Webseiten heruntergeladen werden.
Die Software erkennt automatisch die jeweilige Sprache und die einzelnen Sprecher und erstellt daraus ein Transkript, mit Sprecher-Anzeige und Zeit-Markern. Im Test dauerte das Transkribieren einer einstündigen Smartphone-Sprachaufnahme eines Interviews rund fünf Minuten.
Das Ergebnis der Speech-to-Text Transkription war ein Lichtblick. Obwohl die Smartphone-Aufnahme des Gesprächs durch Hintergrundgeräusche beeinträchtigt war und kein externes Mikrofon verwendet wurde, war das Resultat weitgehend tadellos.
Die Software hat Stellen, an denen die Transkription nochmals überprüft werden sollte, hervorgehoben und nach einer weiteren Hörkontrolle konnte das Transkript akzeptiert oder korrigiert werden. Es auch Passagen ausgeschnitten, Notizen hinzugefügt oder wichtige Passagen hervorgehoben werden.
Das Versprechen, viele Arbeitsstunden einsparen zu können, hat die Software jedenfalls erfüllt. Sonix gibt außerdem an, dass das Resultat einer Transkription durch bessere Audio-Qualität – erreichbar etwa mit externen Mikrofonen oder einer ruhigen Studio-Umgebung – weiter verbessert werden kann.
Tarifmodelle und Kosten
Für Sonix.ai werden 3 Tarifmodelle angeboten. Abgerechnet wird dabei nach Länge der Audio- oder Videodateien. Die ersten 30 Minuten sind kostenlos.
In der Standard Pay-As-You-Go Variante kostet das Transkribieren pro Stunde 10 $.
In der Premium-Variante mit Abo (22 $ pro User und Monat) pro Stunde 5 $. Bei jährlicher Zahlweise gibt es in der Premuim-Variante 25 % Rabatt.
Auf Anfrage wird auch eine Enterprise-Lösung für große Unternehmen und Power-User angeboten.
Weitere Informationen dazu finden Sie unter https://sonix.ai/pricing