Rev AI – Spracherkennung und Transkription in Echtzeit

k.A©Rev.ai

Die KI-Softwarelösungen von Rev AI kombinieren Spracherkennungs- Transkriptionsdienste zu einer komfortablen Busines Intelligence Lösung. Dank fairer Abrechnungsmodelle eignet sich das Angebot sowohl eine kontinuierliche Anwendung als auch für die gelegentliche Nutzung.

von

Peter Sempelmann

Inhalt

Was bietet Rev AI?

Rev AI ist wie der Name schon vermuten lässt, eine auf Künstliche Intelligenz (KI) - Englisch Artificial Intelligence - aufbauende Spracherkennungssoftware, mit der es möglich ist, asynchron oder synchron Sprache in Text zu übersetzen. Rev AI setzt dabei auf die bereits in den frühen 1950er Jahren in den Grundzügen entwickelte Technologie des Natural Language Processing (NLP).

Die Software arbeitet tatsächlich sehr schnell. Einstündige Audiodateien können damit in weniger als einer Minute transkribiert werden.

Die asynchrone Speech-to-Text-Engine von Rev AI dient für die Transkription von vorab aufgezeichneten Audioinhalten. Dabei können sowohl Informationen aus den Audiodateien extrahiert werden als auch die Inhalte in umfangreichen Größenordnungen in bearbeitbare Dokumente umgewandelt werden.

Das Modul Speech-to-Text-Live-Streaming dient zur Erstellung für Echtzeit-Untertitel während Vorträgen, Schulungen oder Meetings. Die Inhalte lassen sich in elektronischen Dokumenten speichern und für eine bessere Barrierefreiheit direkt anzeigen. Außerdem lassen sich die so extrahierten Inhalte für eine zukünftige Verwendung archivieren.

Rev.ai Overview

Spezialfunktionen der KI-Texterkennung

Topic Extraction. Mittels Themenextraktion lassen sich wichtige Schlüsselwörter, Ausdrücke oder Designs innerhalb unstrukturierter Textinhalte identifizieren, dabei ist die Genauigkeit für diese Extraktion mittels individuell einstellbarer Parameter bestimmbar
Sentiment Analysis. Die Inhalte lassen sich nach positiven oder negativen Aussagen filtern. Das kann beispielsweise hilfreich für die Analyse von Kundengesprächen, Meetings oder Vorträgen sein.
Wörterbuch. Es kann ein benutzerdefiniertes Vokabular angelegt werden.
Streaming. Für die Verarbeitung stehen mehrere Streaming-Protokolle zur Verfügung.
Zeitstempel. Automatisch generierte Zeitstempel für jedes Wort unterstützen detaillierte Analysen.
Textfilter für Untertitel. Bei der Erstellung von Echtzeit-Untertiteln kann ein automatischer Filter angewendet werden, der Obszönitäten bzw. unerwünschte Wörter aus den Untertiteln entfernt

Welche Sprachen werden unterstützt?

Rev AI unterstützt aktuell 31 Weltsprachen. Dazu gehören unter anderem Englisch mit zahlreichen unterschiedlichen Akzenten, Deutsch, zahlreiche weitere europäische Sprachen, Arabisch, Japanisch und vereinfachtes Mandarin-Chinesisch.

Die in der Audiodatei verwendete Sprache wird automatisch erkannt, bevor der Prozess der Transkription beginnt (insgesamt können 31 verschiedene Sprachen mit Rev AI erkannt und transkribiert werden). Dabei sind allerdings nicht alle Funktionen bzw. Module für alle Sprachen verfügbar. Für Deutsch können folgende Funktionen genutzt werden:

Async Transkription aus Audiodateien
HIPAA Datenschutz für persönliche bzw. Gesundheitsinformationen
Language ID automatische Erkennung der Sprache
Streaming

Für englische Texte stehen erweiterte Funktionen zur Verfügung, die daraus eine Business Intelligence Lösung, etwa für Call Center machen:

Global Deployment globale Bereitstellung
Human Transcription Transkriptionsservice durch reale Personen
Inverse Text Normalizationtooltip automatische und korrekte Formatierung von Inhalten wie Datumsangaben, Uhrzeiten, Adressen und Währungsbeträgen
On Prem serverbasierte Nutzung auf eigenen Geräten möglich
Sentiment Analysis
Topic Extraction

Details zum jeweiligen Funktionsumfang in den 31 unterstützten Sprachen finden Sie auf der Rev AI Website unter rev.ai/languages

Wofür ist Rev AI am besten geeignet?

Die Softwarelösungen von Rev AI eignen sich unter anderem für folgende Einsatzbereiche:

Im Medien- und Unterhaltungsbereich für die effektive und schnelle Erstellung von Untertiteln. Die Funktion ist auch zur Untertitelung von Social Media Videos bestens geeignet.

Facebook Captions und Subtitles mit Rev.ai erstellen

Recht- und Compliance-Umfeld. Mittels automatisierter Spracherkennung lassen sich digitale Aussagen, Anrufaufzeichnung, Risikoanalyse und Gerichtsberichterstattung effizient managen und auswerten.

Bildungsbereich: Die Zugänglichkeit sowie die Archivierung der Inhalte für Vorlesungen, Webinare und Veranstaltungen mit vorab aufgezeichneten Kursen lässt sich dank der automatischen Erstellung von Untertiteln oder der automatischen Transkription verbessern

Call Center und Analysen: mittels Audioaufnahmen lässt sich die Qualität der Anrufe kontrollieren und verbessern. Agenten können zielgerichteter geschult werden, außerdem lassen sich Anrufe klassifizieren und nachträglich analysieren – dies kann das Kundenerlebnis verbessern und gleichzeitig Betriebskosten senken.

Protokollfunktion – Meetings, Schulungen und beliebige Veranstaltungen lassen sich in Echtzeit transkribieren.

Diktat in digitale Dokumente. Die Funktionen dieser Software lassen sich darüber hinaus nutzen, um direkte Diktate in digitale Dokumente vorzunehmen. Damit können beispielsweise Bedienungsanleitungen, Briefe, Schulungsunterlagen oder Produktbeschreibungen schnell, effektiv und kostengünstig erstellt werden.

Einsatz in Unternehmen

In Unternehmen zeigen sich die Vorteile dieser Lösungen speziell bei der Auswertung von Audioaufzeichnungen. Beispielsweise lassen sich so die Aktivitäten in einem Callcenter mit äußerst geringem Aufwand optimieren. Die aufgezeichneten Gespräche können direkt in digitale Dokumente umgewandelt werden. Für die Auswertung können im nächsten Schritt über Suchfunktionen und Sortierung nach bestimmten Inhalten, kritischen Aussagen sowie auch positivem Feedback Anregungen für Verbesserungen im Kundenservice gefunden werden.

Wissenschaftliche Vorträge oder auch Vorträge von Mitarbeitern, Fachgruppen oder Spezialisten enthalten in der mündlichen Version häufig zahlreiche wichtige Informationen, welche im Tagesgeschäft ohne eine korrekte Protokollierung verloren gehen könnten. Mithilfe einer Audio-Aufnahme dieser Vorträge und der anschließenden Transkription in ein bearbeitbares Dokument können diese wertvollen Informationen strukturiert gesichert und archiviert werden. Es wird dann beispielsweise für den Vortragenden einfacher, aus diesen mündlichen Ausführungen Lehrmaterialien, Memos oder andere Dokumente zu erstellen. Zusätzlich lässt sich durch die Echtzeit-Generierung von Untertiteln die Barrierefreiheit dieser Vorträge oder Meetings steigern.

Im Juni 2022 hat Rev AI ein Datencenter in Frankfurt eröffnet. Seither können die Daten der Kunden auch innerhalb der Europäischen Union verarbeitet werden. Das Unternehmen garantiert damit eine vollständige Kompatibilität mit den DSGVO-Richtlinien. Weitere Informationen dazu finden Sie hier.

Voraussetzungen für den Einsatz im Unternehmen

Die Software für die Transkription funktioniert als Cloud-Anwendung. Die technischen Voraussetzungen sind also lediglich ein Internetzugang sowie eine Möglichkeit zur Aufnahme und Speicherung von Audiodateien.

Für ihre Benutzung ist lediglich die Erstellung eines zunächst kostenlosen Rev-AI-Kontos nötig, über welches sich die User anmelden. Im Account stehen alle Werkzeuge für die Anwendung online zur Verfügung. Die Audiodatei wird hochgeladen und der Transkriptionsprozess per Klick gestartet.

Weitere Voraussetzungen

Für eine maximale Qualität der Transkriptionen sind hochwertige Audioaufnahmen vorteilhaft. Je deutlicher die Sprecher Stimmen zu verstehen sind, desto präziser kann die Spracherkennung funktionieren. Falls diese Spracherkennung in einem größeren Umfang genutzt werden soll, kann sich eine Investition in hochwertige Aufnahmetechnik, leistungsfähige Computersysteme sowie in eine schnelle Internetverbindung lohnen.

Eine Unterstützung für die Implementierung dieser Lösungen lässt sich bei Rev AI anfordern.

Kosten für die Nutzung von Rev AI

Für die Buchung der Spracherkennung von Rev AI stehen zwei Kostenmodelle zur Verfügung. Beim Modell Pay as you go werden ausschließlich die tatsächlich abgerufenen Leistungen nach Zeiteinheiten abgerechnet.

Kosten im "Pay as you go" Modell:

Leistung	Preis
Maschinelle Transkription	‎$0.023‎‎ / Minute
Menschliche Transkription	‎$1.50‎‎ / Minute
Sprachidentifikation	‎$0.003‎‎ / Minute
Sentiment-Analyse	‎$0.0008‎‎ / 10 Wörter ‎Quickinfo
Themenextraktion	‎$0.0008‎‎ / 10 Wörter ‎Quickinfo

Für Unternehmen ist eine volumenbasierte Preisgestaltung für alle Rev AI-Produkte mit flexiblen Konditionen, einem vorrangigen technischen Support und zusätzlichen kostenlosen Leistungen für die Evaluierung möglich. In der Pro-Version stehen den Kunden unter anderem Auch übersichtliche Analyse-Dashboards zur Verfügung (siehe Video).

Benutzer-Dashboards

Unter www.rev.ai sind sowohl kostenfreie Testversionen als auch Lizenzen und weitere Informationen für die Spracherkennungssoftware des Unternehmens erhältlich.

Fazit: Rev AI

Die Spracherkennungssoftware von Rev eignet sich ausgezeichnet sowohl für kleinere als auch für größere Unternehmen und bietet zahlreiche Einsatzmöglichkeiten. Sie arbeitet mit hoher Präzision und lässt sich schnell skalieren, um veränderten Anforderungen im Unternehmen oder auf dem Markt zeitnah gerecht zu werden. Unternehmen können damit zu Beispiel aus bereits vorhandenen Audioaufnahmen Texte extrahieren, Untertitel für Videos generieren oder sie mit den erweiterten Analyse-Funktionen auch als Business Intelligence Software nutzen, um die Qualität im Kundenservice zu verbessern.

Mehr zum Thema

Sprachsteuerung und Spracherkennung:
Die besten Lösungen iWatson Speech to Text

Speech-Tools

Über die Autoren

Peter Sempelmann