如何 Fine-Tune 语言模型：从入门到实操

近年来，大语言模型（LLM）在各种任务上取得了惊人的成果。但在实际应用中，我们经常需要让模型更贴合某个具体任务或行业，这时候就用到了 Fine-Tuning（微调）。

这篇文章将系统地讲清楚 Fine-Tune 是什么、为什么要 Fine-Tune、有哪些方法，以及你如何从头开始 Fine-Tune 一个模型。

一、什么是 Fine-Tune？

Fine-Tune 指的是在已有的预训练语言模型基础上，继续用特定任务的数据进行训练，使模型更适应某个细分领域或任务。

简单理解：OpenAI 给你一个学富五车的大脑，但你要让它变成懂“金融分析”或“医疗问诊”的专家，就要靠 Fine-Tune。

二、为什么要 Fine-Tune？

目的	举例
提升任务性能	如法律问答、医学诊断、客服对话
缩小模型尺寸但保持效果	用小模型做特定任务，减少资源开销
控制模型输出风格	如用公司语气回复用户问题

如果你发现 Prompt Engineering 已经无法满足你，那就是时候 Fine-Tune 了。

三、Fine-Tune 方法总览

目前主流的微调方式分为三大类：

1. 全参数微调（Full Fine-Tuning）

直接训练整个模型的所有参数。好处是性能最好，缺点是成本极高，对 GPU 要求高。

不适合个人玩家，更适合大厂。

2. 参数高效微调（PEFT）方法

常见代表包括：

LoRA（Low-Rank Adaptation）
QLoRA（量化后的 LoRA）
Adapter（插入小网络）
Prefix Tuning / Prompt Tuning

核心思想：只训练一小部分参数，比如权重的低秩部分或插入模块，大幅降低资源消耗。

适合个人使用，配合 HuggingFace 的 peft 库使用非常方便。

3. 指令微调（Instruction Fine-Tuning）

让模型学会“听懂指令”，如输入“帮我写一封道歉信”，模型能给出符合预期的格式和语气。

通常搭配多轮对话的数据训练，比如：

{
  "instruction": "请帮我写一个辞职信模板",
  "input": "",
  "output": "尊敬的领导：……"
}

四、实操流程：用 QLoRA 微调一个小模型

这里以 HuggingFace + QLoRA 为例，演示如何微调一个小模型（如 Mistral 7B、TinyLLaMA）：

1. 安装必要依赖

pip install transformers peft datasets accelerate bitsandbytes

2. 准备数据格式（Alpaca 格式最常见）

{
  "instruction": "解释什么是量子计算",
  "input": "",
  "output": "量子计算是一种基于量子位的计算方式……"
}

你需要至少几百条这样的样本，格式整齐、有代表性。

3. 编写 Fine-Tune 脚本（精简版）

from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
from peft import get_peft_model, LoraConfig, TaskType
from datasets import load_dataset

model_name = "TinyLlama/TinyLlama-1.1B-Chat-v0.6"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, load_in_8bit=True)

# 应用 LoRA
peft_config = LoraConfig(task_type=TaskType.CAUSAL_LM, inference_mode=False, r=8, lora_alpha=16, lora_dropout=0.05)
model = get_peft_model(model, peft_config)

# 加载你的数据
data = load_dataset("json", data_files="your_data.json")

# 定义训练参数
args = TrainingArguments(
    output_dir="output",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    num_train_epochs=3,
    logging_steps=10,
    save_steps=500,
    fp16=True,
    save_total_limit=2,
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=data["train"],
    tokenizer=tokenizer,
)
trainer.train()

4. 模型保存和推理

model.save_pretrained("finetuned-model")
tokenizer.save_pretrained("finetuned-model")

# 推理示例
input = tokenizer("你是谁？", return_tensors="pt").to("cuda")
output = model.generate(**input, max_new_tokens=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))

五、常见坑和建议

问题	建议
显存不够	用 QLoRA + 8bit 模式，batch 小一点
Loss 不下降	数据质量不够，格式问题，或学习率太高
模型输出没变化	检查是否真的调用的是微调后的模型
输出乱码	tokenizer 不匹配，注意中英混输问题

六、结语

Fine-Tuning 不再是只有大厂才能玩的东西。借助 LoRA、QLoRA 等技术，普通开发者也可以用消费级 GPU 或云平台（如 Colab、RunPod）进行训练。

记住一句话：Prompt 限于表层，Fine-Tune 才能改变本质。