Azure Speech
Azure Speech es un proveedor de conversión de texto a voz de Azure AI Speech. En OpenClaw sintetiza el audio de respuesta de salida como MP3 de forma predeterminada, Ogg/Opus nativo para notas de voz y audio mulaw de 8 kHz para canales de telefonía como Llamada de voz.
OpenClaw utiliza la API REST de Azure Speech directamente con SSML y envía
el formato de salida propiedad del proveedor a través de X-Microsoft-OutputFormat.
| Detalle | Valor |
|---|---|
| Sitio web | Azure AI Speech |
| Documentación | Conversión de texto a voz de REST Speech |
| Autenticación | AZURE_SPEECH_KEY más AZURE_SPEECH_REGION |
| Voz predeterminada | en-US-JennyNeural |
| Salida de archivo predeterminada | audio-24khz-48kbitrate-mono-mp3 |
| Archivo de nota de voz predeterminado | ogg-24khz-16bit-mono-opus |
Introducción
Sección titulada «Introducción»Crear un recurso de Azure Speech
En el portal de Azure, cree un recurso de Speech. Copie CLAVE 1 de Administración de recursos > Claves y punto de conexión, y copie la ubicación del recurso como
eastus.AZURE_SPEECH_KEY=AZURE_SPEECH_REGION=eastus
Seleccionar Azure Speech en messages.tts
{messages: {tts: {auto: "always",provider: "azure-speech",providers: {"azure-speech": {voice: "en-US-JennyNeural",lang: "en-US",},},},},}Enviar un mensaje
Envíe una respuesta a través de cualquier canal conectado. OpenClaw sintetiza el audio con Azure Speech y entrega MP3 para audio estándar, u Ogg/Opus cuando el canal espera una nota de voz.
Opciones de configuración
Sección titulada «Opciones de configuración»| Opción | Ruta | Descripción |
|---|---|---|
apiKey | messages.tts.providers.azure-speech.apiKey | Clave del recurso de Azure Speech. Se remite a AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY o SPEECH_KEY. |
region | messages.tts.providers.azure-speech.region | Región del recurso de Azure Speech. Se remite a AZURE_SPEECH_REGION o SPEECH_REGION. |
endpoint | messages.tts.providers.azure-speech.endpoint | Invalidación opcional del punto de conexión o la URL base de Azure Speech. |
baseUrl | messages.tts.providers.azure-speech.baseUrl | Anulación opcional de la URL base de Azure Speech. |
voice | messages.tts.providers.azure-speech.voice | Nombre corto (ShortName) de la voz de Azure (por defecto en-US-JennyNeural). |
lang | messages.tts.providers.azure-speech.lang | Código de idioma SSML (por defecto en-US). |
outputFormat | messages.tts.providers.azure-speech.outputFormat | Formato de salida de archivo de audio (por defecto audio-24khz-48kbitrate-mono-mp3). |
voiceNoteOutputFormat | messages.tts.providers.azure-speech.voiceNoteOutputFormat | Formato de salida de nota de voz (por defecto ogg-24khz-16bit-mono-opus). |
Autenticación
Azure Speech usa una clave de recurso de Speech, no una clave de Azure OpenAI. La clave
se envía como Ocp-Apim-Subscription-Key; OpenClaw deriva
`https://
.tts.speech.microsoft.comderegiona menos que proporcione endpointobaseUrl`.
Nombres de voz
Use el valor ShortName de la voz de Azure Speech, por ejemplo
en-US-JennyNeural. El proveedor incluido puede listar las voces a través del
mismo recurso de Speech y filtra las voces marcadas como obsoletas o retiradas.
Salidas de audio
Azure acepta formatos de salida como audio-24khz-48kbitrate-mono-mp3,
ogg-24khz-16bit-mono-opus y riff-24khz-16bit-mono-pcm. OpenClaw
solicita Ogg/Opus para los objetivos voice-note para que los canales puedan enviar
burbujas de voz nativas sin una conversión adicional a MP3.
Alias
Se acepta azure como alias de proveedor para PRs y configuraciones de usuario existentes,
pero las nuevas configuraciones deben usar azure-speech para evitar confusiones con los
proveedores de modelos de Azure OpenAI.
Relacionado
Sección titulada «Relacionado»Resumen de TTS, proveedores y configuración de messages.tts.
Referencia completa de la configuración, incluida la configuración de messages.tts.
Todos los proveedores incluidos en OpenClaw.
Problemas comunes y pasos de depuración.