Découvrez Eleven Music. Créez la chanson parfaite pour chaque moment.

En savoir plus

TRANSCRIPTION VOCALE

Transcrivez la parole en texte avec le modèle ASR le plus précis au monde

Obtenez une précision de transcription de pointe dans 99 langues avec Scribe, avec horodatage au niveau des caractères, diarisation de l’orateur et marquage d’événements audio, le tout dans une réponse API structurée pour une intégration transparente

Intervenant 1
Quick
check-in.
Maple
Street
is
a
mess.
Time
to
fix
it.
Intervenant 2
Totally.
Some
of
those
potholes
could
swallow
a
small
car.
Intervenant 1
Or
a
very
brave
skateboarder.
Intervenant 2
We
start
next
week.
Jonas,
four-week
timeline?
Intervenant 3
Yep,
unless
the
concrete
throws
a
tantrum.
Intervenant 1
I'll
handle
flyers,
maybe
toss
in
a
joke.
"Maple
Street,
soon
less
bumpy."
Intervenant 2
Perfect.
Keep
it
simple
and
positive.
Intervenant 3
And
no
squirrels
on
sight,
please.
Intervenant 1
Agreed.
Let's
roll.
Thanks,
team.

Découvrez toute la plateforme d'IA Audio

Chaque mot, parfaitement capturé

Le scribe est à l’écoute de chaque nuance, capturant chaque mot avec une précision inégalée. Fournissant une transcription audio dans 99 langues, avec des horodatages au niveau des caractères, une diarisation de l’orateur et un balisage d’événements audio, il renvoie des résultats structurés pour une intégration transparente

De puissantes fonctionnalités de conversion de l’audio en texte pour votre application

Transformez votre audio en texte impeccable avec Scribe, le modèle ASR (reconnaissance vocale automatique) le plus avancé au monde avec l’intégration API de synthèse vocale la plus simple

Sirius software interface with gradient color bar, labeled "II Scribe V1," "Gemini 2.0 Flash," and "Whisper Large v3" on a black background.

Précision de pointe

Atteignez une précision comme jamais auparavant - Scribe offre le taux d’erreur de mot le plus bas du secteur pour une transcription parfaitement précise

Three glowing, multicolored circular shapes on a black background.

Diarisation intelligente des haut-parleurs

Dans n’importe quelle conversation, même les plus animées, Scribe distingue et étiquette intuitivement chaque intervenant pour des transcriptions claires et organisées

Audio level meter with red and white bars, showing levels around 1:00.

Horodatages précis au niveau du mot

Capturez le moment exact où chaque mot est prononcé. Les horodatages détaillés de Scribe permettent une synchronisation transparente des sous-titres et des expériences audio interactives

laughter

Balisage audio dynamique

Des rires aux bruits de pas, le modèle de transcription de Scribe balise chaque événement sonore, enrichissant vos transcriptions avec le contexte complet de votre audio

99 Languages supported

Prise en charge linguistique mondiale

Brisez les barrières linguistiques grâce à la prise en charge de 99 langues : Scribe débloque les capacités de transcription par IA pour des langues auparavant hors de portée

Développeurs

Intégrer ElevenLabs Scribe

Intégrez de manière transparente le modèle de conversion de la parole en texte le plus précis au monde dans votre application. Lancez-vous avec nos exemples conviviaux pour les développeurs qui présentent des fonctionnalités telles que la diarisation, l’horodatage au niveau des caractères et le balisage d’événements audio pour des transcriptions impeccables

Performance de référence FLEURS

La performance de Scribe V1 est à la pointe de la technologie sur le benchmark FLEURS.

Performance de référence de la voix commune

La performance de Scribe V1 est à la pointe de la technologie sur le benchmark Common Voice.

Repères

Le modèle ASR le plus précis au monde, prenant en charge plus de 99 langues

Center screen displays a presentation slide titled "The world's most accurate ASR model" by IIElevenLabs, with a gradient bar labeled "II Scribe" and version "V1".

Comparé à d'autres modèles de reconnaissance automatique de la parole, Scribe offre plus de 98 % de précision de transcription dans les principales langues tout en réduisant considérablement les erreurs dans celles traditionnellement sous-servies, telles que le serbe, le cantonais et le malayalam.

Commencez à transcrire gratuitement

Plans tarifaires Speech to Text

Interface

Facturation

Gratuit

0 $/mo
Commencez

Heures incluses

Prix par heure incluse

Prix par heure supplémentaire

2 heures 30 minutes

Le niveau gratuit nécessite une attribution et n'a pas de licence commerciale

Questions fréquentes

Excellente précision (≤ 5% Taux d'erreur de mots - WER)
Bulgare, Catalan, Tchèque, Danois, Néerlandais, Anglais, Finnois, Français, Galicien, Allemand, Grec, Hindi, Indonésien, Italien, Japonais, Kannada, Malais, Malayalam, Macédonien, Norvégien, Polonais, Portugais, Roumain, Russe, Serbe, Slovaque, Espagnol, Suédois, Turc, Ukrainien, Vietnamien

Haute précision (>5% à ≤10% WER)
Bengali, Biélorusse, Bosniaque, Cantonais, Estonien, Philippin, Gujarati, Hongrois, Kazakh, Letton, Lituanien, Mandarin, Marathi, Népalais, Odia, Persan, Slovène, Tamoul, Télougou

Bonne (>10% à ≤25% WER)
Afrikaans, Arabe, Arménien, Assamese, Asturien, Azerbaïdjanais, Birman, Cebuano, Croate, Géorgien, Haoussa, Hébreu, Islandais, Javanais, Kabuverdianu, Coréen, Kirghiz, Lingala, Maltais, Mongol, Māori, Occitan, Pendjabi, Sindhi, Swahili, Tadjik, Thaï, Ourdou, Ouzbek, Gallois

Modérée (>25% à ≤50% WER)
Amharique, Chichewa, Peul, Ganda, Igbo, Irlandais, Khmer, Kurde, Lao, Luxembourgeois, Luo, Sotho du Nord, Pachto, Shona, Somali, Umbundu, Wolof, Xhosa, Zoulou

Le speech-to-text (STT) est une technologie qui convertit la langue parlée en texte écrit grâce à la reconnaissance automatique de la parole (ASR). Elle traite les signaux audio, identifie les motifs de parole et les transcrit en texte avec une grande précision. Le logiciel speech-to-text d'ElevenLabs, alimenté par l'IA, est conçu pour transcrire le contenu audio et vidéo avec une précision quasi humaine, ce qui le rend idéal pour la conversion voix-texte, la transcription audio et la reconnaissance vocale en temps réel. La technologie speech-to-text est utilisée pour : ✔ La transcription audio-texte pour les podcasts, réunions et interviews. ✔ Les légendes et sous-titres dans le contenu vidéo. ✔ Les logiciels voix-texte pour la saisie mains libres et les outils d'accessibilité. L'ASR d'ElevenLabs offre une conversion speech-to-text rapide, fiable et très précise pour plusieurs langues et accents.

ElevenLabs propose la transcription vidéo pour convertir le dialogue parlé en format texte, facilitant ainsi la création de sous-titres, légendes et transcriptions consultables. Étapes pour transcrire une vidéo en texte : 1. Téléchargez votre fichier vidéo sur ElevenLabs ASR 2. La technologie de reconnaissance vocale traite l'audio 3. Une transcription est générée automatiquement, avec des horodatages 4. Téléchargez le fichier texte ou exportez les sous-titres pour les éditer. Ce modèle de transcription vidéo alimenté par l'IA aide les créateurs de contenu, les entreprises et les éducateurs à convertir rapidement le discours vidéo en texte précis pour l'accessibilité et la réutilisation du contenu.

Scribe fonctionne actuellement bien pour les cas où l'audio d'entrée est disponible à l'avance. Une version en temps réel à faible latence sera bientôt disponible.

À partir de 0,40 $ par heure d'audio transcrit, bien en dessous de ce tarif à grande échelle avec les plans Enterprise.

Guides récents Speech to Text & Tutoriels

Recherche
Introducing IIscribe V1, the world's most accurate speech-to-text model.

Découvrez Scribe

Auteurs
A young man with short brown hair, smiling, wearing a dark patterned shirt and a blazer.
A man standing on a beach with rows of blue umbrellas and a hillside town in the background.
Ressources
A close-up of a professional microphone in a recording studio with audio equipment in the background.

Meilleures Applications de Reconnaissance Vocale 2025

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter