kapon 支持以下 Gemini 图像生成模型:
| 模型 | 最大分辨率 | 特点 |
|---|
gemini-3-pro-image-preview | 4K | 高质量,支持复杂提示词理解和参考图编辑 |
gemini-2.5-flash-image / gemini-2.5-flash-image-preview | 1K | 快速生成,低延迟,适合原型验证 |
选择调用方式
根据您的使用场景和技术偏好,选择合适的 API 调用方式:
快速对比
| 特性 | OpenAI 兼容接口 | Gemini 原生 API |
|---|
| 学习成本 | 低(兼容 OpenAI SDK) | 中 |
| 文生图 | ✅ | ✅ |
| 参考图编辑 | ✅ | ✅ |
| 多参考图融合 | ✅ 最多 14 张 | ✅ 最多 15 张 |
| 自动分辨率推断 | ✅ | ❌ |
模型对比
| 模型 | 最大分辨率 | 推荐场景 |
|---|
gemini-3-pro-image-preview | 4K (4096×4096) | 复杂提示词、参考图编辑、高质量生产 |
gemini-2.5-flash-image / gemini-2.5-flash-image-preview | 1K (1024×1024) | 快速原型验证、低延迟场景 |
对于需要理解复杂语义或进行风格迁移的场景,优先使用 gemini-3-pro-image-preview。
分辨率与宽高比
Gemini 2.5 Flash 图片
gemini-2.5-flash-image 为单档位 1K 输出,不同宽高比对应的典型分辨率如下(单张固定约 1K image tokens):
| 宽高比 | 分辨率 | 令牌 |
|---|
| 1:1 | 1024x1024 | 1120 |
| 2:3 | 832x1248 | 1120 |
| 3:2 | 1248x832 | 1120 |
| 3:4 | 864x1184 | 1120 |
| 4:3 | 1184x864 | 1120 |
| 4:5 | 896x1152 | 1120 |
| 5:4 | 1152x896 | 1120 |
| 9:16 | 768x1344 | 1120 |
| 16:9 | 1344x768 | 1120 |
| 21:9 | 1536x672 | 1120 |
Gemini 3 Pro Image 预览版
gemini-3-pro-image-preview 支持 1K / 2K / 4K 三个分辨率档位,不同宽高比对应的典型分辨率如下(仅展示上游当前公开栅格,实际可能随官方更新而调整):
| 宽高比 | 1K 分辨率 | 1K 令牌 | 2K 分辨率 | 2K 令牌 | 4K 分辨率 | 4K 令牌 |
|---|
| 1:1 | 1024x1024 | 1120 | 2048x2048 | 1120 | 4096x4096 | 2000 |
| 2:3 | 848x1264 | 1120 | 1696x2528 | 1120 | 3392x5056 | 2000 |
| 3:2 | 1264x848 | 1120 | 2528x1696 | 1120 | 5056x3392 | 2000 |
| 3:4 | 896x1200 | 1120 | 1792x2400 | 1120 | 3584x4800 | 2000 |
| 4:3 | 1200x896 | 1120 | 2400x1792 | 1120 | 4800x3584 | 2000 |
| 4:5 | 928x1152 | 1120 | 1856x2304 | 1120 | 3712x4608 | 2000 |
| 5:4 | 1152x928 | 1120 | 2304x1856 | 1120 | 4608x3712 | 2000 |
| 9:16 | 768x1376 | 1120 | 1536x2752 | 1120 | 3072x5504 | 2000 |
| 16:9 | 1376x768 | 1120 | 2752x1536 | 1120 | 5504x3072 | 2000 |
| 21:9 | 1584x672 | 1120 | 3168x1344 | 1120 | 6336x2688 | 2000 |
计费说明
| 计费项 | 说明 |
|---|
| 文本输入 | 按提示词 tokens 数量计费 |
| 图像输出 | 优先使用上游 usageMetadata 中的 image tokens;若未提供,按 1K/2K=1120、4K=2000 tokens/张近似折算 |
kapon 会自动从响应中提取 token 使用量并计费,无需手动处理。