Skip to content

Azure Speech

Azure Speech 是一個 Azure AI Speech 文字轉語音提供商。在 OpenClaw 中,它預設將輸出回覆音訊合成為 MP3,語音訊息則為原生 Ogg/Opus 格式,而語音通訊等電信管道則使用 8 kHz mulaw 音訊。

OpenClaw 直接透過 SSML 使用 Azure Speech REST API,並透過 X-Microsoft-OutputFormat 傳送提供商擁有的輸出格式。

詳細資訊數值
網站Azure AI Speech
文件Speech REST 文字轉語音
驗證AZURE_SPEECH_KEY 加上 AZURE_SPEECH_REGION
預設語音en-US-JennyNeural
預設檔案輸出audio-24khz-48kbitrate-mono-mp3
預設語音訊息檔案ogg-24khz-16bit-mono-opus
  1. 建立 Azure Speech 資源

    在 Azure 入口網站中,建立 Speech 資源。從資源管理 > 金鑰和端點複製 金鑰 1 (KEY 1),並複製資源位置,例如 eastus

    AZURE_SPEECH_KEY=

    AZURE_SPEECH_REGION=eastus

  2. 在 messages.tts 中選取 Azure Speech

    {
    messages: {
    tts: {
    auto: "always",
    provider: "azure-speech",
    providers: {
    "azure-speech": {
    voice: "en-US-JennyNeural",
    lang: "en-US",
    },
    },
    },
    },
    }
  3. 傳送訊息

    透過任何連接的管道傳送回覆。OpenClaw 會使用 Azure Speech 合成音訊,並針對標準音訊傳送 MP3,當管道預期為語音訊息時則傳送 Ogg/Opus。

選項路徑描述
apiKeymessages.tts.providers.azure-speech.apiKeyAzure Speech 資源金鑰。會回退至 AZURE_SPEECH_KEYAZURE_SPEECH_API_KEYSPEECH_KEY
regionmessages.tts.providers.azure-speech.regionAzure Speech 資源區域。會回退至 AZURE_SPEECH_REGIONSPEECH_REGION
endpointmessages.tts.providers.azure-speech.endpoint選用的 Azure Speech 端點/基底 URL 覆寫。
baseUrlmessages.tts.providers.azure-speech.baseUrl選用 Azure Speech 基礎 URL 覆寫。
voicemessages.tts.providers.azure-speech.voiceAzure 語音 ShortName(預設為 en-US-JennyNeural)。
langmessages.tts.providers.azure-speech.langSSML 語言代碼(預設為 en-US)。
outputFormatmessages.tts.providers.azure-speech.outputFormat音訊檔案輸出格式(預設為 audio-24khz-48kbitrate-mono-mp3)。
voiceNoteOutputFormatmessages.tts.providers.azure-speech.voiceNoteOutputFormat語音備忘錄輸出格式(預設為 ogg-24khz-16bit-mono-opus)。
驗證

Azure Speech 使用的是 Speech 資源金鑰,而非 Azure OpenAI 金鑰。該金鑰 會以 Ocp-Apim-Subscription-Key 的形式傳送;除非您提供 endpointbaseUrl,否則 OpenClaw 會從 region 推導出 `https://

.tts.speech.microsoft.com`。

語音名稱

請使用 Azure Speech 語音的 ShortName 值,例如 en-US-JennyNeural。隨附的提供者可以透過相同的 Speech 資源列出語音,並 篩選出標記為已棄用或已淘汰的語音。

音訊輸出

Azure 接受的輸出格式包括 audio-24khz-48kbitrate-mono-mp3ogg-24khz-16bit-mono-opusriff-24khz-16bit-mono-pcm。OpenClaw 會針對 voice-note 目標請求 Ogg/Opus 格式,以便通道能夠發送原生語音氣泡,而無需額外 進行 MP3 轉換。

別名

為了相容現有的 PR 和使用者設定,系統接受將 azure 作為提供者別名, 但新設定應使用 azure-speech 以避免與 Azure OpenAI 模型提供者混淆。

文字轉語音

TTS 概覽、供應商及 messages.tts 設定。

設定

完整設定參考,包括 messages.tts 設定。

供應商

所有內建的 OpenClaw 供應商。

疑難排解

常見問題與除錯步驟。