概述
对口型(lip-sync)用于将已有视频与音频或文本结合,生成嘴型同步的视频。[!NOTE]
- 本平台接口:
POST https://models.kapon.cloud/vidu/ent/v2/lip-sync- 官方接口:
POST https://api.vidu.cn/ent/v2/lip-sync,详见 官方 API 文档
请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
video_url | string | ✅ | 原视频 URL |
audio_url | string | ⚠️ | 音频文件 URL(与 text 二选一) |
text | string | ⚠️ | 驱动口型的文本(与 audio_url 二选一) |
speed | float | ❌ | 语速 0.5–2,默认 1.0(仅文字驱动) |
voice_id | string | ❌ | 音色 ID(仅文字驱动) |
ref_photo_url | string | ❌ | 人脸参考图 URL(多人脸时指定目标) |
volume | int | ❌ | 音量 0–10,默认 0 |
callback_url | string | ❌ | 回调地址 |
payload | string | ❌ | 透传字段 |
[!IMPORTANT]audio_url和text至少需要提供其中之一。
音频驱动
文本驱动
<#x#> 插入 x 秒停顿
返回示例
视频要求
- 编码:H.264
- 时长:1–600 秒
- 大小:≤ 5GB
