Azure Speech
Azure Speech 是一個 Azure AI Speech 文字轉語音提供商。在 OpenClaw 中,它預設將輸出回覆音訊合成為 MP3,語音訊息則為原生 Ogg/Opus 格式,而語音通訊等電信管道則使用 8 kHz mulaw 音訊。
OpenClaw 直接透過 SSML 使用 Azure Speech REST API,並透過 X-Microsoft-OutputFormat 傳送提供商擁有的輸出格式。
| 詳細資訊 | 數值 |
|---|---|
| 網站 | Azure AI Speech |
| 文件 | Speech REST 文字轉語音 |
| 驗證 | AZURE_SPEECH_KEY 加上 AZURE_SPEECH_REGION |
| 預設語音 | en-US-JennyNeural |
| 預設檔案輸出 | audio-24khz-48kbitrate-mono-mp3 |
| 預設語音訊息檔案 | ogg-24khz-16bit-mono-opus |
建立 Azure Speech 資源
在 Azure 入口網站中,建立 Speech 資源。從資源管理 > 金鑰和端點複製 金鑰 1 (KEY 1),並複製資源位置,例如
eastus。AZURE_SPEECH_KEY=AZURE_SPEECH_REGION=eastus
在 messages.tts 中選取 Azure Speech
{messages: {tts: {auto: "always",provider: "azure-speech",providers: {"azure-speech": {voice: "en-US-JennyNeural",lang: "en-US",},},},},}傳送訊息
透過任何連接的管道傳送回覆。OpenClaw 會使用 Azure Speech 合成音訊,並針對標準音訊傳送 MP3,當管道預期為語音訊息時則傳送 Ogg/Opus。
| 選項 | 路徑 | 描述 |
|---|---|---|
apiKey | messages.tts.providers.azure-speech.apiKey | Azure Speech 資源金鑰。會回退至 AZURE_SPEECH_KEY、AZURE_SPEECH_API_KEY 或 SPEECH_KEY。 |
region | messages.tts.providers.azure-speech.region | Azure Speech 資源區域。會回退至 AZURE_SPEECH_REGION 或 SPEECH_REGION。 |
endpoint | messages.tts.providers.azure-speech.endpoint | 選用的 Azure Speech 端點/基底 URL 覆寫。 |
baseUrl | messages.tts.providers.azure-speech.baseUrl | 選用 Azure Speech 基礎 URL 覆寫。 |
voice | messages.tts.providers.azure-speech.voice | Azure 語音 ShortName(預設為 en-US-JennyNeural)。 |
lang | messages.tts.providers.azure-speech.lang | SSML 語言代碼(預設為 en-US)。 |
outputFormat | messages.tts.providers.azure-speech.outputFormat | 音訊檔案輸出格式(預設為 audio-24khz-48kbitrate-mono-mp3)。 |
voiceNoteOutputFormat | messages.tts.providers.azure-speech.voiceNoteOutputFormat | 語音備忘錄輸出格式(預設為 ogg-24khz-16bit-mono-opus)。 |
驗證
Azure Speech 使用的是 Speech 資源金鑰,而非 Azure OpenAI 金鑰。該金鑰
會以 Ocp-Apim-Subscription-Key 的形式傳送;除非您提供
endpoint 或 baseUrl,否則 OpenClaw 會從
region 推導出 `https://
.tts.speech.microsoft.com`。
語音名稱
請使用 Azure Speech 語音的 ShortName 值,例如
en-US-JennyNeural。隨附的提供者可以透過相同的 Speech 資源列出語音,並
篩選出標記為已棄用或已淘汰的語音。
音訊輸出
Azure 接受的輸出格式包括 audio-24khz-48kbitrate-mono-mp3、
ogg-24khz-16bit-mono-opus 和 riff-24khz-16bit-mono-pcm。OpenClaw 會針對
voice-note 目標請求 Ogg/Opus 格式,以便通道能夠發送原生語音氣泡,而無需額外
進行 MP3 轉換。
別名
為了相容現有的 PR 和使用者設定,系統接受將 azure 作為提供者別名,
但新設定應使用 azure-speech 以避免與 Azure OpenAI 模型提供者混淆。
TTS 概覽、供應商及 messages.tts 設定。
完整設定參考,包括 messages.tts 設定。
所有內建的 OpenClaw 供應商。
常見問題與除錯步驟。