千问模型 Qwen-Image 系列
Qwen-Image 系列概述
Qwen-Image 是阿里云通义千问团队于 2025 年 8 月发布的图像生成基础模型,拥有 20B(200亿)参数规模。该模型在复杂文本渲染和精准图像编辑两个关键领域实现了重大突破。
核心能力
- 突破性文本渲染:首个真正掌握复杂中英文文本渲染的 20B 参数图像生成模型,中文文本渲染准确率达到 97.29%
- 多功能一体化:集成图像生成、编辑、理解三大核心功能,支持风格转换、物体增减、姿态调整
- 开源免费使用:基于 Apache 2.0 协议开源,可通过 HuggingFace 和 ModelScope 使用
Qwen-Image (基础文生图)
发布时间:2025 年 8 月
模型定位
Qwen-Image 是整个系列的基础模型,专注于高质量文本到图像生成。它是首个在文本渲染方面达到商业级准确率的开源大模型,特别是中文文本渲染。
Qwen-Image下的文生图模型有 qwen-image-plus与qwen-image,两者能力相同,但 qwen-image-plus 价格更优惠。
2025 年 12 月 31 日又上线了qwen-image-max 和 qwen-image-max-2025-12-30模型,这俩模型的能力也是一样的,相比 plus 模型提升了图像的真实感与自然度,有效降低了AI合成痕迹,在人物质感、纹理细节和文字渲染等方面表现突出,但是价格也更贵。
| 模型名称 | 单价 |
|---|---|
| qwen-image-plus | 0.2元/张 |
| qwen-image | 0.25元/张 |
| qwen-image-max | 0.5元/张 |
| qwen-image-max-2025-12-30 | 0.5元/张 |
核心优势
- 中文文本渲染:准确率 97.29%,远超同类开源模型
- 英文文本渲染:准确率 94.5%,与闭源商业模型持平
- 多语言支持:除中英文外,还支持日文、韩文等多种语言的文本渲染
- 复杂场景处理:能够处理包含多个文本元素的复杂场景
典型应用场景
- 海报设计:生成包含中英文标题的宣传海报
- 产品包装:创建带有产品名称和说明的包装设计
- 社交媒体内容:制作带有文字说明的社交图片
- Logo 设计:生成包含品牌名称的标识图案
API 对接
请求地址
POST https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-generation/generation
请求头
| Header | 值 | 说明 |
|---|---|---|
| Content-Type | application/json | 请求体格式 |
| Authorization | Bearer $DASHSCOPE_API_KEY | API 密钥认证 |
请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| model | string | 是 | 模型名称,可选 qwen-image-plus 或 qwen-image |
| input.messages | array | 是 | 消息列表,包含用户输入的文本描述 |
| parameters.negative_prompt | string | 否 | 负向提示词,描述不希望出现的内容 |
| parameters.prompt_extend | boolean | 否 | 是否启用提示词扩展,默认 true |
| parameters.watermark | boolean | 否 | 是否添加水印,默认 false |
| parameters.size | string | 否 | 输出尺寸,格式为 宽*高,如 1328*1328 |
支持的尺寸
1328*1328、1664*928、928*1664、1472*1104、1104*1472
| 宽高比 | 分辨率 | 适用场景 |
|---|---|---|
| 1:1 | 1328 x 1328 | 头像、社交媒体封面 |
| 16:9 | 1664 x 928 | 横版海报、电脑壁纸,默认尺寸 |
| 9:16 | 928 x 1664 | 手机壁纸、竖版海报 |
| 4:3 | 1472 x 1104 | 传统照片比例 |
| 3:4 | 1104 x 1472 | 竖版人像 |
生成数量
qwen-image 系列每个请求最多生成 1 张图像,如果需要生成多张图像,需要多次调用 API。
但是需要注意的是,qwen-image-plus 和 qwen-image 支持同步生成和异步任务,异步任务的下发限制为每分钟 2 次,同步处理中的任务并发数也是 2,也就是说,qwen-image-plus 和 qwen-image 最多支持 2 个生图任务。
而 qwen-image-max 系列则只支持同步生成,且同步接口没有并发限制,所以可以基于 qwen-image-max 系列实现批量生成图像的功能。
请求示例
curl --location 'https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-generation/generation' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--data '{
"model": "qwen-image-plus",
"input": {
"messages": [
{
"role": "user",
"content": [
{
"text": "一只可爱的橘猫坐在窗台上,阳光洒在它身上,背景是蓝天白云"
}
]
}
]
},
"parameters": {
"negative_prompt": "",
"prompt_extend": true,
"watermark": false,
"size": "1328*1328"
}
}'
图生图模型
通义千问图像编辑模型 Qwen-Image-Edit 是专门用于图像编辑的模型,支持精准的中英双语文字编辑、调色、细节增强、风格迁移、增删物体等操作,可实现复杂的图文编辑,用户可以通过自然语言描述想要的修改效果。
| 模型名称 | 单价 | 特点 |
|---|---|---|
| qwen-image-edit-plus | 0.2元/张 | 推荐,支持输出1-6张图片 |
| qwen-image-edit-plus-2025-12-15 | 0.2元/张 | 角色一致性、工业设计和几何推理能力更强 |
| qwen-image-edit-plus-2025-10-30 | 0.2元/张 | 与plus版能力相同 |
| qwen-image-edit | 0.3元/张 | 仅支持输出1张图片 |
qwen-image-edit 支持单图编辑和多图融合,仅支持输出 1 张图片。
qwen-image-edit-plus 当前与 qwen-image-edit-plus-2025-10-30 能力相同。
qwen-image-edit-plus-2025-12-15 在角色一致性、工业设计和几何推理能力上更强。
Qwen-Image-Edit (单图编辑)
发布时间:2025 年 8 月
核心优势
- 自然语言控制:无需复杂的参数调整,直接用文字描述编辑意图
- 局部编辑能力:精准定位并修改图像的特定区域
- 风格一致性:编辑后的内容与原图风格保持协调
支持的编辑类型
| 编辑类型 | 说明 | 示例 |
|---|---|---|
| 风格转换 | 将图像转换为特定艺术风格 | "转换为油画风格" |
| 物体添加 | 在图像中添加新元素 | "在桌子上添加一杯咖啡" |
| 物体移除 | 删除图像中的特定元素 | "移除背景中的人物" |
| 属性修改 | 改变物体的颜色、材质等属性 | "将汽车颜色改为红色" |
| 背景替换 | 更换图像背景 | "将背景改为海滩" |
| 光影调整 | 修改光照效果 | "添加暖色调的夕阳光线" |
典型应用场景
- 电商产品图:调整产品颜色、更换背景场景
- 人像修图:修改服装颜色、添加配饰
- 室内设计:更换家具款式、调整墙面颜色
- 创意设计:将普通照片转换为艺术风格
应用场景详解
| 场景 | 说明 |
|---|---|
| 多图融合 | 将多张图片的元素融合到一张图中,如将人物、服装、姿势分别来自不同图片 |
| 主体一致性保持 | 保持人物或产品主体不变,更换背景、服装、场景等 |
| 草图创作 | 根据手绘草图生成真实风格的图像 |
| 文创生成 | 将IP形象应用到T恤、手办、包装等产品上 |
| 深度图生成 | 根据深度图生成符合空间结构的图像 |
| 关键点生成 | 根据人体姿态关键点生成对应姿势的人物图像 |
| 文字编辑 | 修改、替换图片中的文字内容或字体样式 |
输入要求
| 项目 | 要求 |
|---|---|
| 图片数量 | 1-3张 |
| 图片格式 | JPG、JPEG、PNG、BMP、TIFF、WEBP、GIF |
| 建议分辨率 | 384-3072像素 |
| 文件大小 | 单张不超过10MB |
| 传入方式 | 公网URL 或 Base64编码 |
API 对接
请求地址
POST https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-generation/generation
请求参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| model | string | 是 | 模型名称,如 qwen-image-edit-plus |
| input.messages | array | 是 | 消息列表,包含图像和编辑指令 |
| parameters.n | integer | 否 | 输出图像数量,plus系列支持1-6张,默认1 |
| parameters.negative_prompt | string | 否 | 反向提示词,描述不希望出现的内容 |
| parameters.watermark | boolean | 否 | 是否添加水印,默认false |
| parameters.seed | integer | 否 | 随机数种子,范围[0, 2147483647] |
| parameters.size | string | 否 | 输出分辨率,格式"宽*高",仅n=1时可用 |
| parameters.prompt_extend | boolean | 否 | 是否开启提示词智能改写,默认true |
qwen-image-edit-plus系列模型,支持单图编辑和多图融合,可输出 1-6 张图片,支持自定义分辨率,支持提示词智能优化。输出的图片格式为 PNG,分辨率可通过 parameters.size 指定,但是需要注意,parameters.size 仅在输出图像数量 n 为 1 时可用 。默认情况下,输出图像分辨率接近 1024×1024,宽高比与输入图像(多图输入时为最后一张)保持一致。
输出多张图片时,按输出的图片张数计费的,单次请求如果返回n张图片,则当次费用为 n×单价。
qwen-image-edit 支持单图编辑和多图融合,但是仅支持输出 1 张图片,且不支持不支持自定义分辨率,默认情况下,输出图像分辨率接近 1024×1024,宽高比与输入图像(多图输入时为最后一张)保持一致。输出的图片格式也是 PNG。
messages 结构
messages 是一个数组,必须仅包含一个对象,该对象包含 role 和 content 属性:
role:必须设置为usercontent:需要同时包含image(1-3张图像)和text(一条编辑指令)
{
"messages": [
{
"role": "user",
"content": [
{ "image": "图1的公网URL或Base64数据" },
{ "image": "图2的公网URL或Base64数据" },
{ "image": "图3的公网URL或Base64数据" },
{ "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
]
}
]
}
图像传入方式
| 方式 | 格式 | 示例 |
|---|---|---|
| 公网URL | HTTP/HTTPS 地址 | https://example.com/img.png |
| Base64编码 | data:{mime_type};base64,{base64_data} |
data:image/jpeg;base64,GDU7MtCZ... |
请求示例
curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "qwen-image-edit-plus",
"input": {
"messages": [
{
"role": "user",
"content": [
{"image": "https://example.com/image1.png"},
{"text": "将图片中的背景替换为海边"}
]
}
]
},
"parameters": {
"n": 1,
"watermark": false
}
}'
注意事项
- 生成的图像URL链接有效期为24小时,需及时下载保存
- 多图输入时,编辑指令需与图像顺序对应(如"图1"、"图2")
size参数仅在输出数量 n=1 时可用,否则会报错- GIF动图仅处理其第一帧,其他帧会被忽略
相关推荐
哆啦A梦讲解知识点的制作流程
使用 AI 工具制作哆啦A梦风格漫画讲解知识点的完整流程,包括角色生成、对话设计和排版技巧
高清放大和修复模型
详细介绍 Stable Diffusion 中常用的图片放大和修复模型,包括写实类、二次元类、人脸修复和功能性修复模型的选择指南
Stable Diffusion 的版本演进
深入解析 Stable Diffusion 的版本演进,了解各个版本的特性和差异。