Poznaj Eleven Music. Stwórz idealną piosenkę na każdą okazję.

Dowiedz się więcej

Testowanie agentów Conversational AI

Dowiedz się, jak skutecznie testować i ulepszać agentów Conversational AI, używając solidnych kryteriów oceny i symulacji rozmów.

Abstract

Kiedy agenci konwersacyjni są uruchamiani, jak monitorujesz ich na dużą skalę? Jak wykrywasz, kiedy nie działają zgodnie z oczekiwaniami? A po wprowadzeniu zmian, jak je testujesz?

Te pytania kształtowały naszą pracę nad El, Alexis, Conversational AI. W miarę rozwoju El stworzyliśmy system monitorowania, oceny i testowania agentów, oparty na kryteriach oceny i symulacjach rozmów.

Podstawy: Wiarygodne Kryteria Oceny

Poprawa działania agenta zaczyna się od zrozumienia jego zachowania w praktyce. Oznaczało to dopracowanie naszych kryteriów oceny i upewnienie się, że są wystarczająco dokładne i wiarygodne, aby monitorować wydajność agenta. Definiujemy nieudaną rozmowę jako taką, w której agent podaje błędne informacje lub nie pomaga użytkownikowi osiągnąć celu.

Flow chart

Opracowaliśmy następujące Kryteria Oceny:

  • Interakcja: czy to była ważna rozmowa, czy użytkownik zadawał istotne pytania, czy rozmowa miała sens?
  • Pozytywna interakcja: czy użytkownik był zadowolony, czy może był zdezorientowany lub sfrustrowany?
  • Zrozumienie przyczyny: czy agent poprawnie zidentyfikował podstawowy problem użytkownika?
  • Rozwiązanie zapytania użytkownika: czy agent rozwiązał problem użytkownika lub zaproponował alternatywną metodę wsparcia?
  • Halucynacja: czy agent wymyślił informacje, które nie znajdują się w bazie wiedzy?

Jeśli Interakcja zawiedzie, sama rozmowa nie jest ważna. Jeśli jakiekolwiek inne kryteria zawiodą, badamy to dalej. Dochodzenie wskazuje, jak poprawić agenta. Czasami chodzi o dopracowanie użycia narzędzi lub czasu. Innym razem o dodanie zabezpieczeń, aby zapobiec nieobsługiwanym działaniom.

Iteracja z pewnością: API Symulacji Rozmów

Gdy już zidentyfikujemy, co poprawić, następnym krokiem jest testowanie. Tutaj wkracza nasze API Symulacji Rozmów symuluje realistyczne scenariusze użytkownika - zarówno end-to-end, jak i w wybranych segmentach - i automatycznie ocenia wyniki według tych samych kryteriów, które stosujemy w produkcji. Obsługuje symulację narzędzi i niestandardową ocenę, co czyni go wystarczająco elastycznym do testowania specyficznych zachowań.

Używamy dwóch podejść:

  • Pełne symulacje: Testuj całe rozmowy od początku do końca.
  • Częściowe symulacje: Rozpocznij w środku rozmowy, aby sprawdzić punkty decyzyjne lub podprocesy. To nasza metoda do testów jednostkowych, umożliwiająca szybkie iteracje i ukierunkowane debugowanie.

Jasne, skoncentrowane scenariusze pozwalają nam kontrolować, co jest testowane w LLM, zapewniając pokrycie przypadków brzegowych, użycia narzędzi i logiki awaryjnej.

Automatyzacja na dużą skalę: Wbudowanie testów w CI/CD

Ostatnim elementem jest automatyzacja. Użyliśmy otwartych API ElevenLabs, aby połączyć się z naszym przepływem GitHub DevOps, wbudowując ocenę i symulację w nasz pipeline CI/CD. Każda aktualizacja jest automatycznie testowana przed wdrożeniem. To zapobiega regresjom i daje nam szybki feedback na temat wydajności w rzeczywistych warunkach.

Rezultaty: Silniejszy, mądrzejszy El

Ten proces zmienił sposób, w jaki budujemy i utrzymujemy El. Stworzyliśmy pętlę zwrotną, która łączy rzeczywiste użycie z oceną, testowaniem i automatyczną walidacją, co pozwala nam szybciej wprowadzać ulepszenia z większą pewnością.

I to jest ramy, które teraz możemy zastosować do każdego agenta, którego budujemy.

Przeglądaj artykuły zespołu ElevenLabs

Safety

Safety framework for AI voice agents

AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.

ElevenLabs

Twórz z najwyższą jakością dźwięku AI