艾可API中文文档
  1. 接口
艾可API中文文档
  • 艾可API文档站
    • 艾可API站点介绍
      • 艾可API介绍
      • 常见问题解答
      • 令牌分组详细表格
      • 计费规则说明
      • 站点快速上手教程
    • claude code 使用教程
      • Windows
      • Linux
      • Mac os
      • Vscode 及其他IDE
      • 在RooCode以及KiloCode使用ClaudeCode
    • Codex使用教程
      • WIndows
      • Linux
      • Mac os
      • VScode 及其他IDE
    • Gemini使用教程
      • Windows
      • Linux
      • Mac os
    • 好用的配置工具及软件
      • CC SWITCH
      • rooocde插件 (推荐使用-配置简单)
      • cherry studio
      • 酒馆PC端配置教程
    • 示例代码
      • python
        • 01 OpenAI-Python示例代码
        • 02 Claude-Python示例代码
        • 03 OpenAI-image-Python示例代码
        • 04 Gemini-Python示例代码
        • 05 Rerank-python示例代码
        • 06 Python分析文件代码示例
        • 07 whisper-1-Python实力代码
        • 08 Python其他示例
      • Java
        • 01 OpenAI-Java示例代码
        • 02 Claude-Java示例代码
    • 接口
      • Anthropic 对话格式(Messages)
      • Cohere 重排序格式(Rerank)
      • Deepseek reasoning 对话格式(类Chat Completions)
      • Jina AI 重排序格式(Rerank)
      • Midjourney 图像格式(Midjourney Proxy/Midjourney Proxy Plus)
      • OpenAI 音频格式
      • OpenAI 对话格式(Chat Completions)
      • OpenAI 嵌入格式(Embeddings)
      • OpenAI 图像格式(Image)
      • OpenAI 实时对话接口
      • OpenAI 响应格式(Responses)
      • Suno 音乐格式(Music)
      • Xinference 重排序格式(Rerank)
  1. 接口

OpenAI 音频格式

1.艾可AI官方客服#

---------------【点击添加微信客服不定期福利免费领】-------------------------
如果显示添加频繁请手动搜索微信号进行添加:
点击复制微信号:2236094129

OpenAI 音频格式#

!!! info "官方文档"
OpenAI Audio

📝 简介#

OpenAI 音频 API 提供了三个主要功能:
1.
文本转语音(TTS) - 将文本转换为自然的语音
2.
语音转文本(STT) - 将音频转录为文本
3.
音频翻译 - 将非英语音频翻译成英语文本

💡 请求示例#

文本转语音 ✅#

语音转文本 ✅#

响应示例:
{
  "text": "你好,世界!"
}

音频翻译 ✅#

响应示例:
{
  "text": "Hello, world!"
}

📮 请求#

端点#

文本转语音#

POST /v1/audio/speech
将文本转换为语音。

语音转文本#

POST /v1/audio/transcriptions
将音频转录为输入语言的文本。

音频翻译#

POST /v1/audio/translations
将音频翻译为英语文本。

鉴权方法#

在请求头中包含以下内容进行 API 密钥认证:
Authorization: Bearer $NEWAPI_API_KEY
其中 $NEWAPI_API_KEY 是您的 API 密钥。

请求体参数#

文本转语音#

model#
类型:字符串
必需:是
可选值:tts-1, tts-1-hd
说明:要使用的 TTS 模型
input#
类型:字符串
必需:是
最大长度:4096 字符
说明:要转换为语音的文本
voice#
类型:字符串
必需:是
可选值:alloy, echo, fable, onyx, nova, shimmer
说明:生成语音时使用的声音
response_format#
类型:字符串
必需:否
默认值:mp3
可选值:mp3, opus, aac, flac, wav, pcm
说明:音频输出格式
speed#
类型:数字
必需:否
默认值:1.0
范围:0.25 - 4.0
说明:生成语音的速度

语音转文本#

file#
类型:文件
必需:是
支持格式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
说明:要转录的音频文件
model#
类型:字符串
必需:是
当前仅支持:whisper-1
说明:要使用的模型 ID
language#
类型:字符串
必需:否
格式:ISO-639-1 (如 "en")
说明:音频的语言,提供可提高准确性
prompt#
类型:字符串
必需:否
说明:用于指导模型风格或继续前一段音频的文本
response_format#
类型:字符串
必需:否
默认值:json
可选值:json, text, srt, verbose_json, vtt
说明:输出格式
temperature#
类型:数字
必需:否
默认值:0
范围:0 - 1
说明:采样温度,较高的值使输出更随机
timestamp_granularities#
类型:数组
必需:否
默认值:segment
可选值:word, segment
说明:转录的时间戳粒度

音频翻译#

file#
类型:文件
必需:是
支持格式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm
说明:要翻译的音频文件
model#
类型:字符串
必需:是
当前仅支持:whisper-1
说明:要使用的模型 ID
prompt#
类型:字符串
必需:否
说明:用于指导模型风格的英文文本
response_format#
类型:字符串
必需:否
默认值:json
可选值:json, text, srt, verbose_json, vtt
说明:输出格式
temperature#
类型:数字
必需:否
默认值:0
范围:0 - 1
说明:采样温度,较高的值使输出更随机

📥 响应#

成功响应#

文本转语音#

返回二进制音频文件内容。

语音转文本#

基础 JSON 格式#
{
  "text": "转录的文本内容"
}
详细 JSON 格式#
{
  "task": "transcribe",
  "language": "english",
  "duration": 8.47,
  "text": "完整的转录文本",
  "segments": [
    {
      "id": 0,
      "seek": 0,
      "start": 0.0,
      "end": 3.32,
      "text": "分段的转录文本",
      "tokens": [50364, 440, 7534],
      "temperature": 0.0,
      "avg_logprob": -0.286,
      "compression_ratio": 1.236,
      "no_speech_prob": 0.009
    }
  ]
}

音频翻译#

{
  "text": "翻译后的英文文本"
}

错误响应#

当请求出现问题时,API 将返回一个错误响应对象,HTTP 状态码在 4XX-5XX 范围内。

常见错误状态码#

400 Bad Request: 请求参数无效
401 Unauthorized: API 密钥无效或未提供
429 Too Many Requests: 超出 API 调用限制
500 Internal Server Error: 服务器内部错误
错误响应示例:
{
  "error": {
    "message": "文件格式不支持",
    "type": "invalid_request_error",
    "param": "file",
    "code": "invalid_file_format"
  }
}
修改于 2025-12-22 12:52:10
上一页
Midjourney 图像格式(Midjourney Proxy/Midjourney Proxy Plus)
下一页
OpenAI 对话格式(Chat Completions)
Built with