Ir al contenido

Azure Speech

Azure Speech es un proveedor de conversión de texto a voz de Azure AI Speech. En OpenClaw sintetiza el audio de respuesta de salida como MP3 de forma predeterminada, Ogg/Opus nativo para notas de voz y audio mulaw de 8 kHz para canales de telefonía como Llamada de voz.

OpenClaw utiliza la API REST de Azure Speech directamente con SSML y envía el formato de salida propiedad del proveedor a través de X-Microsoft-OutputFormat.

DetalleValor
Sitio webAzure AI Speech
DocumentaciónConversión de texto a voz de REST Speech
AutenticaciónAZURE_SPEECH_KEY más AZURE_SPEECH_REGION
Voz predeterminadaen-US-JennyNeural
Salida de archivo predeterminadaaudio-24khz-48kbitrate-mono-mp3
Archivo de nota de voz predeterminadoogg-24khz-16bit-mono-opus
  1. Crear un recurso de Azure Speech

    En el portal de Azure, cree un recurso de Speech. Copie CLAVE 1 de Administración de recursos > Claves y punto de conexión, y copie la ubicación del recurso como eastus.

    AZURE_SPEECH_KEY=

    AZURE_SPEECH_REGION=eastus

  2. Seleccionar Azure Speech en messages.tts

    {
    messages: {
    tts: {
    auto: "always",
    provider: "azure-speech",
    providers: {
    "azure-speech": {
    voice: "en-US-JennyNeural",
    lang: "en-US",
    },
    },
    },
    },
    }
  3. Enviar un mensaje

    Envíe una respuesta a través de cualquier canal conectado. OpenClaw sintetiza el audio con Azure Speech y entrega MP3 para audio estándar, u Ogg/Opus cuando el canal espera una nota de voz.

OpciónRutaDescripción
apiKeymessages.tts.providers.azure-speech.apiKeyClave del recurso de Azure Speech. Se remite a AZURE_SPEECH_KEY, AZURE_SPEECH_API_KEY o SPEECH_KEY.
regionmessages.tts.providers.azure-speech.regionRegión del recurso de Azure Speech. Se remite a AZURE_SPEECH_REGION o SPEECH_REGION.
endpointmessages.tts.providers.azure-speech.endpointInvalidación opcional del punto de conexión o la URL base de Azure Speech.
baseUrlmessages.tts.providers.azure-speech.baseUrlAnulación opcional de la URL base de Azure Speech.
voicemessages.tts.providers.azure-speech.voiceNombre corto (ShortName) de la voz de Azure (por defecto en-US-JennyNeural).
langmessages.tts.providers.azure-speech.langCódigo de idioma SSML (por defecto en-US).
outputFormatmessages.tts.providers.azure-speech.outputFormatFormato de salida de archivo de audio (por defecto audio-24khz-48kbitrate-mono-mp3).
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormatFormato de salida de nota de voz (por defecto ogg-24khz-16bit-mono-opus).
Autenticación

Azure Speech usa una clave de recurso de Speech, no una clave de Azure OpenAI. La clave se envía como Ocp-Apim-Subscription-Key; OpenClaw deriva `https://

.tts.speech.microsoft.comderegiona menos que proporcione endpointobaseUrl`.

Nombres de voz

Use el valor ShortName de la voz de Azure Speech, por ejemplo en-US-JennyNeural. El proveedor incluido puede listar las voces a través del mismo recurso de Speech y filtra las voces marcadas como obsoletas o retiradas.

Salidas de audio

Azure acepta formatos de salida como audio-24khz-48kbitrate-mono-mp3, ogg-24khz-16bit-mono-opus y riff-24khz-16bit-mono-pcm. OpenClaw solicita Ogg/Opus para los objetivos voice-note para que los canales puedan enviar burbujas de voz nativas sin una conversión adicional a MP3.

Alias

Se acepta azure como alias de proveedor para PRs y configuraciones de usuario existentes, pero las nuevas configuraciones deben usar azure-speech para evitar confusiones con los proveedores de modelos de Azure OpenAI.

Texto a voz

Resumen de TTS, proveedores y configuración de messages.tts.

Configuración

Referencia completa de la configuración, incluida la configuración de messages.tts.

Proveedores

Todos los proveedores incluidos en OpenClaw.

Solución de problemas

Problemas comunes y pasos de depuración.