Checkpoint 模型详解与选择指南

·17 分钟阅读·3233··作者:冬眠

Checkpoint 详解 - Stable Diffusion 的核心模型 中,我们详细解析了 Checkpoint 模型的原理,在这篇文章中,我们将介绍 Checkpoint 模型的文件格式、模型大小以及分类方法。

文件格式

Checkpoint 模型主要有以下几种文件格式:

格式 文件扩展名 特点 推荐使用
SafeTensors .safetensors 安全、快速加载、防恶意代码 强烈推荐
PyTorch .ckpt 传统格式,可能有安全风险 不推荐
Pickle .pt, .pth Python 序列化格式 不推荐

PyTorch 格式

.ckpt 是 PyTorch 原生 checkpoint,是 SD 1.x 和 2.x 版本最常用的文件格式(SD1.4、SD1.5 官方模型和SD2.x 的一些早期模型)。它实际上是一个打包的 Python 序列化文件,但是它的最大问题是“太灵活了” —— 不仅能存模型参数,还能夹带可执行代码。这就好比你收到的快递里不仅有你买的商品,还可能藏着一个自动运行的程序,风险极高。

Pickle 格式

.pt.pth 是 PyTorch 的通用模型格式,是早期研究实验性模型权重格式(如部分 open-sourced Diffusers)。与 .ckpt 不同,.pt.pth 是二进制文件,但 PyTorch 默认使用 Python 的 pickle 模块进行序列化,而 pickle 本质上是不安全的,因为它在加载时可以执行任意代码。

尽管 .pt.pth 在技术上同样使用 Pickle,但社区模型通常只保存参数字典,因此实际风险小得多。不过,由于格式本身并不禁止嵌入可执行对象,安全性仍不如 SafeTensors,因此,除非没有替代品,否则不建议使用。

SafeTensors 格式

SafeTensors 是为了解决 .ckpt 存在的代码注入风险而设计的安全模型格式。它采用结构化的元数据 + 顺序存储的张量数据的方式,确保文件中不包含可执行代码,因此加载时不会执行恶意 Python 脚本。

SafeTensors 是目前的行业标准,也是我们强烈推荐的格式。它不仅彻底解决了代码注入的安全隐患,还引入了一项“黑科技”——内存映射(mmap)。简单来说,系统不需要先把整个几个 G 的大文件读进内存再处理,而是直接像“查字典”一样读取硬盘上的数据。这使得加载大模型(特别是 SDXL)的速度有了质的飞跃。

传统 .pt 的加载流程:

graph LR
    %% 定义节点
    A([读取文件<br/>Read File])
    B([解析/解码<br/>Parse / Decode])
    C([拷贝到内存<br/>Copy to Memory])
    D([构建 Tensor<br/>Build Tensor])

    %% 定义连接
    A ==> B ==> C ==> D

    %% 样式定义 (CSS风格)
    classDef step1 fill:#e3f2fd,stroke:#42a5f5,stroke-width:2px,color:#0d47a1
    classDef step2 fill:#e8f5e9,stroke:#66bb6a,stroke-width:2px,color:#1b5e20
    classDef step3 fill:#fff3e0,stroke:#ffa726,stroke-width:2px,color:#e65100
    classDef step4 fill:#f3e5f5,stroke:#ab47bc,stroke-width:2px,color:#4a148c

    %% 应用样式
    class A step1
    class B step2
    class C step3
    class D step4

SafeTensors 的加载流程:

graph LR
    %% 节点定义
    subgraph OS_Kernel [操作系统内核 / Filesystem]
        DiskFile[("磁盘文件<br/>(Disk File)")]
    end

    subgraph User_Space [用户空间 / Application]
        VirtualMem([虚拟内存地址<br/>Virtual Address Space])
        Tensor[("Tensor Object<br/>(Metadata + Storage Ptr)")]
    end

    %% 核心动作
    Action_Mmap[[mmap 系统调用]]

    %% 连线关系
    DiskFile -.->|直接映射 / Zero Copy| VirtualMem
    Action_Mmap --> VirtualMem
    VirtualMem == "作为 Storage 指针" ==> Tensor

    %% 样式美化
    classDef disk fill:#37474f,stroke:#263238,stroke-width:2px,color:#ffffff
    classDef mem fill:#e3f2fd,stroke:#2196f3,stroke-width:2px,stroke-dasharray: 5 5,color:#0d47a1
    classDef tensor fill:#f3e5f5,stroke:#9c27b0,stroke-width:2px,color:#4a148c
    classDef action fill:#fff3e0,stroke:#ff9800,stroke-width:2px,color:#e65100

    class DiskFile disk
    class VirtualMem mem
    class Tensor tensor
    class Action_Mmap action

.safetensors 是目前 Stabl Diffusion 模型的标准格式(SDXL / LoRA 全部推荐 safetensors),它在加载速度和安全性上都更优秀,建议直接使用 .safetensors 格式的模型

代表性模型有:

  • Anything 系列(后期)

  • ChilloutMix(安全版)

  • SDXL 官方模型

  • 几乎所有 LoRA(LoRA 只用 safetensors)

模型大小

不同版本的 Checkpoint 模型大小不同:

版本 完整版大小 精简版大小 备注
SD 1.5 约 4GB 约 2GB 最常用版本
SD 2.1 约 5GB 约 2.5GB 更高分辨率支持
SDXL 6.5~7GB(Base) - Refiner 另需 6.5~7GB
SD 3.0/3.5 8GB - 12GB - 根据具体版本不同

随着模型架构从 U-Net 逐渐演化到 DiT(Diffusion Transformer),参数量不断增长,因此新版本模型普遍比早期 SD1.5 大得多。

避坑指南: 你经常会看到同一个模型有 Full (fp32,完整版) 和 Pruned (fp16,精简版) 两个版本,完整版包含了训练时的所有数据,适合还要继续训练模型的人;精简版去除了主要用于训练的冗余数据,画质几乎没有肉眼可见的损失,但加载更快、更省显存。对于绝大多数只进行绘图的用户,请首选精简版本。

Checkpoint 模型的分类

面对浩如烟海的模型库,我们可以从两个维度来定位 Checkpoint 的模型分类:训练方式、风格。

按训练方式分类

类型 说明 代表作品 特点
官方基础模型
(Base Model)
Stability AI 官方发布的原始模型,
没有经过任何微调
• runwayml/stable-diffusion-v1-5
• stabilityai/stable-diffusion-2-1
• stabilityai/stable-diffusion-xl-base-1.0
• 通用性强,适应各种风格
• 需要配合 LoRA 或提示词精细调整
• 适合作为微调的基础
社区微调模型
(Fine-tuned Model)
在官方基础模型上,
使用特定数据集进行微调的模型
见下表详细分类 • 针对特定风格优化
• 开箱即用效果好
• 社区资源丰富
融合模型
(Merge Model)
通过混合多个模型的权重
创建的新模型
• 加权平均(Weighted Sum)
• Add Difference(差异添加)
• Train Difference(训练差异)
• 结合多个模型的优点
• 创造出独特的风格
• 不需要重新训练

官方基础模型(Base Model)是由 Stability AI 发布的“地基”,它们就像未装修的毛坯房,虽然功能齐全且通用性极强,但直接生成的画面可能缺乏美感,通常作为训练其他模型的底模使用。

在基础模型之外,社区中最常见的就是微调模型与融合模型。微调模型是社区大神在官方模型基础上,给模型“喂”了特定风格的数据(如几千张动漫图或摄影图)训练出来的。它们专精于某一领域,能开箱即用生成高质量图像。而融合模型则更像“调和味道”,创作者像调鸡尾酒一样,将“写实模型A”的质感与“动漫模型B”的构图按比例混合(例如 0.5A + 0.5B),从而创造出兼具两者优点的新模型,目前市面上大多数高分模型(如 ChilloutMix)其实都是融合模型;融合模型不需要训练,因此特别适合普通用户。

社区微调模型

风格类型 代表模型 适用场景
写实摄影风格 • Realistic Vision
• ChilloutMix
• Deliberate
商业摄影、人物肖像、产品图
二次元动漫风格 • Anything V5
• CounterfeitV3
• AbyssOrangeMix
动漫插画、角色设计、壁纸
艺术风格 • DreamShaper
• Protogen
• MeinaMix
概念艺术、游戏设计、创意表达

按风格分类

写实风格(Realistic)

追求照片级别的真实感,对光影、皮肤纹理(如毛孔、雀斑)的表现极佳,适合商业摄影、海报、电商展示等。

推荐模型

模型名称 适用场景 特点
Realistic Vision V6.0 人物摄影、商业广告 皮肤质感细腻,光影自然
ChilloutMix 亚洲面孔、时尚摄影 适合生成亚洲人物
Deliberate V3 多场景通用 平衡性好,易于控制

提示词特征

  • 强调摄影术语:RAW photo, 8k uhd, dslr, high quality
  • 光线描述:soft lighting, natural light, studio lighting
  • 相机参数:f/1.4, bokeh, depth of field

秘籍:提示词中加入 RAW photo, dslr, f/1.4 等摄影术语,能显著提升真实感。

2.5D 风格(2.5D/Semi-realistic)

介于写实和二次元之间,人物保留了动漫的完美五官,但材质和光影却有着现实世界的立体感,兼具动漫的线条表现与写实的光影细节,这是目前游戏设计和概念艺术最喜欢的风格。

推荐模型

模型名称 适用场景 特点
DreamShaper 游戏角色、概念设计 细节丰富,风格多变
MeinaMix 美少女角色 平衡写实与二次元
GhostMix 幻想风格 适合奇幻题材

提示词特征

  • 风格融合:semi-realistic, 2.5D, stylized
  • 质量控制:detailed, high quality, cinematic
  • 材质描述:smooth shading, cel shading, painterly
  • 光影平衡:dramatic lighting, ambient occlusion
  • 角色特征:expressive eyes, refined features

二次元风格(Anime)

纯粹的扁平化或赛璐璐风格,强调线条和色块。

推荐模型

模型名称 适用场景 特点
Anything V5 通用动漫 社区最流行的动漫模型
CounterfeitV3 日系动漫 色彩饱和,风格统一
AbyssOrangeMix3 高质量插画 细节精致,适合壁纸

提示词特征

  • 风格标签:anime, manga, illustration
  • 质量词:masterpiece, best quality, highly detailed
  • 画师风格:makoto shinkai, genshin impact style

艺术风格(Artistic)

模仿特定艺术流派或画家风格。

推荐模型

模型名称 适用场景 特点
OpenJourney 艺术插画 Midjourney 风格
Protogen 科幻艺术 适合机械、科技题材
Vintedois 复古艺术 怀旧感强

提示词特征

  • 艺术流派:impressionism, surrealism, abstract art, art nouveau
  • 艺术家风格:style of [artist name], inspired by [artist]
  • 媒介描述:oil painting, watercolor, digital art, concept art
  • 艺术质感:artistic, painterly, stylized, expressive brushstrokes
  • 构图元素:dramatic composition, vibrant colors, artistic interpretation

如何选择 Checkpoint 模型

明确创作目标

在选择模型前,先问自己以下问题:

  1. 风格需求:写实、动漫还是艺术风格?
  2. 使用场景:商业项目、个人创作还是学习研究?
  3. 硬件条件:显存容量、加载速度要求
  4. 输出分辨率:512px、768px 还是 1024px?

选择模型就像挑选画风,在确定硬件(显存)限制之前,最好先明确你想要的视觉效果。

要做电商模特图?👉 选 Realistic Vision。

要做二次元老婆壁纸?👉 选 Anything V5。

要做游戏图标或场景概念?👉 选 DreamShaper。

风格决定大方向,而显存决定你能否加载对应的模型。

  • 8GB 以下:这是“显存寸土寸金”的区间。请死守 SD 1.5 版本的模型,它们体积小(2GB),速度快,生态资源(LoRA/ControlNet)最丰富。

  • 8GB - 12GB:你可以尝试 SDXL,但可能需要配合一些优化设置(如 Tiled VAE)。

  • 12GB 以上:恭喜你,可以自由探索 SDXL 甚至 SD 3.5 的高清世界。

新手不必贪多。在每个风格分类下下载 1-2 个高分模型(例如一个写实、一个二次元),吃透它们的提示词习惯,比下载几十个模型却不知道怎么用要强得多。

模型选择流程图

%%{init: {'theme': 'base', 'themeVariables': {'fontSize': '12px'}}}%%
graph TD
    %% --- 节点定义 ---
    Start([开始选择模型])
    
    %% 决策节点
    StyleDec{确定风格}
    HWDec{显卡显存<br/>VRAM}
    Satisfied{效果满意?}

    %% 风格分支
    Real[写实摄影<br/>Realistic Vision<br/>ChilloutMix]
    Anime[二次元动漫<br/>Anything V5<br/>CounterfeitV3]
    Mix[2.5D 混合<br/>DreamShaper<br/>MeinaMix]
    Art[艺术风格<br/>OpenJourney<br/>Protogen]

    %% 硬件分支
    LowVRAM[8GB 以下<br/>强推 SD 1.5 版本]
    MidVRAM[8-12GB<br/>SD 1.5 / SD 2.1]
    HighVRAM[12GB 以上<br/>推荐 SDXL / Pony]

    %% 动作与结果
    Test([生成测试/XY Plot])
    Done([锁定模型])
    Retry[尝试其他模型<br/>或 配合 LoRA 微调]

    %% --- 连接关系 ---
    Start ==> StyleDec
    StyleDec --> Real & Anime & Mix & Art
    
    %% 汇聚到硬件判断
    Real & Anime & Mix & Art --> HWDec

    %% 硬件分流
    HWDec -->|入门| LowVRAM
    HWDec -->|主流| MidVRAM
    HWDec -->|发烧| HighVRAM

    %% 测试流程
    LowVRAM & MidVRAM & HighVRAM --> Test
    Test --> Satisfied
    
    %% 结果判定
    Satisfied -->|Yes| Done
    Satisfied -->|No| Retry
    Retry -.-> Test

    %% --- 样式定义 ---
    %% 在这里统一添加了 font-size:12px
    classDef start fill:#263238,stroke:#000,stroke-width:2px,color:#fff,font-size:12px
    classDef decision fill:#fff9c4,stroke:#fbc02d,stroke-width:2px,color:#000,font-size:12px
    
    %% 风格配色
    classDef real fill:#eceff1,stroke:#607d8b,stroke-width:2px,color:#37474f,font-size:12px
    classDef anime fill:#fce4ec,stroke:#f06292,stroke-width:2px,color:#880e4f,font-size:12px
    classDef mix fill:#f3e5f5,stroke:#ab47bc,stroke-width:2px,color:#4a148c,font-size:12px
    classDef art fill:#fff3e0,stroke:#ff9800,stroke-width:2px,color:#e65100,font-size:12px
    
    %% 硬件与流程配色
    classDef tech fill:#e3f2fd,stroke:#2196f3,stroke-width:2px,color:#0d47a1,font-size:12px
    classDef success fill:#e8f5e9,stroke:#4caf50,stroke-width:2px,color:#1b5e20,font-size:12px
    classDef warn fill:#ffebee,stroke:#ef5350,stroke-width:2px,stroke-dasharray: 5 5,font-size:12px

    %% 应用样式
    class Start start
    class StyleDec,HWDec,Satisfied decision
    class Real real
    class Anime anime
    class Mix mix
    class Art art
    class LowVRAM,MidVRAM,HighVRAM,Test tech
    class Done success
    class Retry warn

选择合适的 Checkpoint 模型,就像选择合适的工具,没有绝对的好坏,只有是否适合你的创作需求。希望本文能帮助你在 AI 绘画的道路上,找到最适合自己的那把"画笔"。

相关推荐

Stable Diffusion 模型下载指南

详细介绍 Stable Diffusion 模型的下载渠道、文件格式说明以及安装方法

·19 分钟·
#Stable Diffusion#Checkpoint

Stable Diffusion 的版本演进

深入解析 Stable Diffusion 的版本演进,了解各个版本的特性和差异。

·14 分钟·
#Stable Diffusion#AI绘画