Zum Inhalt springen
Agentwise
← Alle Beiträge

Echtzeit-Voice & Telefonanrufe: Konfigurierbare KI-Voice-Konversationen

Agenten können jetzt Echtzeit-Voice-Konversationen über WebRTC- und Telefon-Kanäle durchführen – mit konfigurierbarer Sprachererkennung, Barge-in-Empfindlichkeit, Audio-Aufzeichnung und mehreren Voice-Modellen.

Text ist seit Anfang das Standard-Interface für KI-Agenten. Aber viele reale Workflows geschehen über das Telefon – und viele Benutzer bevorzugen es einfach, zu sprechen, statt zu tippen. Agentwise unterstützt jetzt beides.

Agentwise Echtzeit-Voice-Interface

Echtzeit-Voice-Konversationen

Agenten können jetzt Live-Voice-Konversationen über WebRTC (Browser-basiert) und Telefon-Kanäle führen. Die Konversation verläuft natürlich: der Benutzer spricht, der Agent hört zu, verarbeitet und antwortet – alles in Echtzeit.

Konfigurierbares Voice-Verhalten

Voice-Konversationen haben einzigartige Anforderungen, die Text-Interaktionen nicht haben. Agentwise gibt Ihnen Kontrolle über die Einstellungen, die wichtig sind:

Sprachenerkennung — Konfigurieren Sie, wie der Agent bestimmt, wann der Benutzer fertig gesprochen hat und es Zeit ist, zu antworten. Passen Sie die Empfindlichkeit an, um gut mit verschiedenen Sprechstilen und Umgebungen zu funktionieren.

Barge-in-Empfindlichkeit — Kontrollieren Sie, wie reaktionsfähig der Agent für Unterbrechung ist. Ein Benutzer, der anfängt zu sprechen, während der Agent noch spricht, sollte gehört werden; zufälliges Hintergrundgeräusch sollte keinen Cutoff auslösen.

Audio-Aufzeichnung — Aktivieren oder deaktivieren Sie die Aufzeichnung pro Agent, mit entsprechenden Kontrollen für Aufbewahrung und Zugriff.

Voice-Modell-Auswahl — Wählen Sie aus mehreren Voice-Modellen (einschließlich Cedar, Marin und anderen), um den Ton und Register passend zu Ihrem Use-Case zu treffen.

Modality-Spezifische Einstellungen

Jeder Agent unterstützt jetzt drei separate Modality-Konfigurationen: Text, Voice und Telefon. Das bedeutet:

  • Verschiedene Systemanweisungen pro Modality – ein Telefon-Agent könnte knapper und direkter sein als ein Text-Agent, der das gleiche Thema bearbeitet
  • Verschiedene Modell-Zuweisungen pro Modality
  • Unabhängige Enable/Disable-Kontrollen pro Kanal

Ein einzelner Agent kann gleichzeitig Benutzer über Chat dienen, eingehende Anrufe bearbeiten und in einem Web-Voice-Widget verfügbar sein – jeder mit seinem eigenen gestimmten Verhalten.

Was dies ermöglicht

Voice-Unterstützung öffnet Use-Cases, die Text einfach nicht dienen kann: telefon-basierte IT-Helpdesk-Linien, Voice-Interfaces für Feldarbeiter, die nicht tippen können, während sie Maschinen bedienen, und Telefon-Aufnahme-Workflows für Organisationen, die heute eingehende Anrufe erhalten und diese effizienter bearbeiten möchten.

Wenn Sie interessiert sind, Voice für einen bestehenden Agent zu aktivieren, kontaktieren Sie uns und wir gehen Sie durch das Setup.