千问模型 Qwen-Image 系列

·13 分钟阅读·2447··作者:冬眠

Qwen-Image 系列概述

Qwen-Image 是阿里云通义千问团队于 2025 年 8 月发布的图像生成基础模型,拥有 20B(200亿)参数规模。该模型在复杂文本渲染精准图像编辑两个关键领域实现了重大突破。

核心能力

  • 突破性文本渲染:首个真正掌握复杂中英文文本渲染的 20B 参数图像生成模型,中文文本渲染准确率达到 97.29%
  • 多功能一体化:集成图像生成、编辑、理解三大核心功能,支持风格转换、物体增减、姿态调整
  • 开源免费使用:基于 Apache 2.0 协议开源,可通过 HuggingFace 和 ModelScope 使用

Qwen-Image (基础文生图)

发布时间:2025 年 8 月

模型定位

Qwen-Image 是整个系列的基础模型,专注于高质量文本到图像生成。它是首个在文本渲染方面达到商业级准确率的开源大模型,特别是中文文本渲染。

Qwen-Image下的文生图模型有 qwen-image-plus与qwen-image,两者能力相同,但 qwen-image-plus 价格更优惠。

2025 年 12 月 31 日又上线了qwen-image-max 和 qwen-image-max-2025-12-30模型,这俩模型的能力也是一样的,相比 plus 模型提升了图像的真实感与自然度,有效降低了AI合成痕迹,在人物质感、纹理细节和文字渲染等方面表现突出,但是价格也更贵。

模型名称 单价
qwen-image-plus 0.2元/张
qwen-image 0.25元/张
qwen-image-max 0.5元/张
qwen-image-max-2025-12-30 0.5元/张

核心优势

  • 中文文本渲染:准确率 97.29%,远超同类开源模型
  • 英文文本渲染:准确率 94.5%,与闭源商业模型持平
  • 多语言支持:除中英文外,还支持日文、韩文等多种语言的文本渲染
  • 复杂场景处理:能够处理包含多个文本元素的复杂场景

典型应用场景

  • 海报设计:生成包含中英文标题的宣传海报
  • 产品包装:创建带有产品名称和说明的包装设计
  • 社交媒体内容:制作带有文字说明的社交图片
  • Logo 设计:生成包含品牌名称的标识图案

API 对接

请求地址

POST https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-generation/generation

请求头

Header 说明
Content-Type application/json 请求体格式
Authorization Bearer $DASHSCOPE_API_KEY API 密钥认证

请求参数

参数 类型 必填 说明
model string 模型名称,可选 qwen-image-plusqwen-image
input.messages array 消息列表,包含用户输入的文本描述
parameters.negative_prompt string 负向提示词,描述不希望出现的内容
parameters.prompt_extend boolean 是否启用提示词扩展,默认 true
parameters.watermark boolean 是否添加水印,默认 false
parameters.size string 输出尺寸,格式为 宽*高,如 1328*1328

支持的尺寸

1328*13281664*928928*16641472*11041104*1472

宽高比 分辨率 适用场景
1:1 1328 x 1328 头像、社交媒体封面
16:9 1664 x 928 横版海报、电脑壁纸,默认尺寸
9:16 928 x 1664 手机壁纸、竖版海报
4:3 1472 x 1104 传统照片比例
3:4 1104 x 1472 竖版人像

生成数量

qwen-image 系列每个请求最多生成 1 张图像,如果需要生成多张图像,需要多次调用 API。

但是需要注意的是,qwen-image-plus 和 qwen-image 支持同步生成和异步任务,异步任务的下发限制为每分钟 2 次,同步处理中的任务并发数也是 2,也就是说,qwen-image-plus 和 qwen-image 最多支持 2 个生图任务。

而 qwen-image-max 系列则只支持同步生成,且同步接口没有并发限制,所以可以基于 qwen-image-max 系列实现批量生成图像的功能。

请求示例

curl --location 'https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-generation/generation' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--data '{
    "model": "qwen-image-plus",
    "input": {
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "text": "一只可爱的橘猫坐在窗台上,阳光洒在它身上,背景是蓝天白云"
                    }
                ]
            }
        ]
    },
    "parameters": {
        "negative_prompt": "",
        "prompt_extend": true,
        "watermark": false,
        "size": "1328*1328"
    }
}'

图生图模型

通义千问图像编辑模型 Qwen-Image-Edit 是专门用于图像编辑的模型,支持精准的中英双语文字编辑、调色、细节增强、风格迁移、增删物体等操作,可实现复杂的图文编辑,用户可以通过自然语言描述想要的修改效果。

模型名称 单价 特点
qwen-image-edit-plus 0.2元/张 推荐,支持输出1-6张图片
qwen-image-edit-plus-2025-12-15 0.2元/张 角色一致性、工业设计和几何推理能力更强
qwen-image-edit-plus-2025-10-30 0.2元/张 与plus版能力相同
qwen-image-edit 0.3元/张 仅支持输出1张图片

qwen-image-edit 支持单图编辑和多图融合,仅支持输出 1 张图片。

qwen-image-edit-plus 当前与 qwen-image-edit-plus-2025-10-30 能力相同。

qwen-image-edit-plus-2025-12-15 在角色一致性、工业设计和几何推理能力上更强。

Qwen-Image-Edit (单图编辑)

发布时间:2025 年 8 月

核心优势

  • 自然语言控制:无需复杂的参数调整,直接用文字描述编辑意图
  • 局部编辑能力:精准定位并修改图像的特定区域
  • 风格一致性:编辑后的内容与原图风格保持协调

支持的编辑类型

编辑类型 说明 示例
风格转换 将图像转换为特定艺术风格 "转换为油画风格"
物体添加 在图像中添加新元素 "在桌子上添加一杯咖啡"
物体移除 删除图像中的特定元素 "移除背景中的人物"
属性修改 改变物体的颜色、材质等属性 "将汽车颜色改为红色"
背景替换 更换图像背景 "将背景改为海滩"
光影调整 修改光照效果 "添加暖色调的夕阳光线"

典型应用场景

  • 电商产品图:调整产品颜色、更换背景场景
  • 人像修图:修改服装颜色、添加配饰
  • 室内设计:更换家具款式、调整墙面颜色
  • 创意设计:将普通照片转换为艺术风格

应用场景详解

场景 说明
多图融合 将多张图片的元素融合到一张图中,如将人物、服装、姿势分别来自不同图片
主体一致性保持 保持人物或产品主体不变,更换背景、服装、场景等
草图创作 根据手绘草图生成真实风格的图像
文创生成 将IP形象应用到T恤、手办、包装等产品上
深度图生成 根据深度图生成符合空间结构的图像
关键点生成 根据人体姿态关键点生成对应姿势的人物图像
文字编辑 修改、替换图片中的文字内容或字体样式

输入要求

项目 要求
图片数量 1-3张
图片格式 JPG、JPEG、PNG、BMP、TIFF、WEBP、GIF
建议分辨率 384-3072像素
文件大小 单张不超过10MB
传入方式 公网URL 或 Base64编码

API 对接

请求地址

POST https://dashscope.aliyuncs.com/compatible-mode/v1/services/aigc/multimodal-generation/generation

请求参数

参数 类型 必填 说明
model string 模型名称,如 qwen-image-edit-plus
input.messages array 消息列表,包含图像和编辑指令
parameters.n integer 输出图像数量,plus系列支持1-6张,默认1
parameters.negative_prompt string 反向提示词,描述不希望出现的内容
parameters.watermark boolean 是否添加水印,默认false
parameters.seed integer 随机数种子,范围[0, 2147483647]
parameters.size string 输出分辨率,格式"宽*高",仅n=1时可用
parameters.prompt_extend boolean 是否开启提示词智能改写,默认true

qwen-image-edit-plus系列模型,支持单图编辑和多图融合,可输出 1-6 张图片,支持自定义分辨率,支持提示词智能优化。输出的图片格式为 PNG,分辨率可通过 parameters.size 指定,但是需要注意,parameters.size 仅在输出图像数量 n 为 1 时可用 。默认情况下,输出图像分辨率接近 1024×1024,宽高比与输入图像(多图输入时为最后一张)保持一致。

输出多张图片时,按输出的图片张数计费的,单次请求如果返回n张图片,则当次费用为 n×单价。

qwen-image-edit 支持单图编辑和多图融合,但是仅支持输出 1 张图片,且不支持不支持自定义分辨率,默认情况下,输出图像分辨率接近 1024×1024,宽高比与输入图像(多图输入时为最后一张)保持一致。输出的图片格式也是 PNG。

messages 结构

messages 是一个数组,必须仅包含一个对象,该对象包含 rolecontent 属性:

  • role:必须设置为 user
  • content:需要同时包含 image(1-3张图像)和 text(一条编辑指令)
{
  "messages": [
    {
      "role": "user",
      "content": [
        { "image": "图1的公网URL或Base64数据" },
        { "image": "图2的公网URL或Base64数据" },
        { "image": "图3的公网URL或Base64数据" },
        { "text": "图1中的女生穿着图2中的黑色裙子按图3的姿势坐下" }
      ]
    }
  ]
}

图像传入方式

方式 格式 示例
公网URL HTTP/HTTPS 地址 https://example.com/img.png
Base64编码 data:{mime_type};base64,{base64_data} ...

请求示例

curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen-image-edit-plus",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": [
            {"image": "https://example.com/image1.png"},
            {"text": "将图片中的背景替换为海边"}
          ]
        }
      ]
    },
    "parameters": {
      "n": 1,
      "watermark": false
    }
  }'

注意事项

  • 生成的图像URL链接有效期为24小时,需及时下载保存
  • 多图输入时,编辑指令需与图像顺序对应(如"图1"、"图2")
  • size 参数仅在输出数量 n=1 时可用,否则会报错
  • GIF动图仅处理其第一帧,其他帧会被忽略

相关推荐

哆啦A梦讲解知识点的制作流程

使用 AI 工具制作哆啦A梦风格漫画讲解知识点的完整流程,包括角色生成、对话设计和排版技巧

·10 分钟·
#AI绘画#漫画创作

高清放大和修复模型

详细介绍 Stable Diffusion 中常用的图片放大和修复模型,包括写实类、二次元类、人脸修复和功能性修复模型的选择指南

·6 分钟·
#Stable Diffusion#图片放大

Stable Diffusion 的版本演进

深入解析 Stable Diffusion 的版本演进,了解各个版本的特性和差异。

·14 分钟·
#Stable Diffusion#AI绘画