第五章 模型管理
模型是墨鱼的大脑。选对大脑,墨鱼才能又快又聪明。本章帮你理解 Hermes Agent 的模型体系,选出最适合你的方案。
核心概念
Hermes Agent 的模型配置是统一的——所有配置都存在 ~/.hermes/config.yaml 里,这是唯一的真相来源。
重要变化
旧版的 OPENAI_BASE_URL 和 LLM_MODEL 环境变量已废弃。如果你在 ~/.hermes/.env 里还有旧的配置,它们不会被读取。请使用 hermes model 或直接编辑 config.yaml。
切换模型有两种方式:
# 交互式切换(推荐)
hermes model
# 直接指定
/model <provider>/<model>主流提供商一览
| 提供商 | Provider ID | 特点 | 免费额度 | 推荐模型 |
|---|---|---|---|---|
| Nous Portal | nous | Hermes 官方,开箱即用 | ✅ 有 | hermes-4 |
| OpenRouter | openrouter | 200+ 模型市场 | ✅ 有限 | 各家旗舰 |
| 智谱 GLM | glm | 国内直连,无需代理 | ✅ 有 | glm-4-plus |
| Kimi / Moonshot | kimi | 长上下文,国产 | ✅ 有 | moonshot-v1 |
| MiniMax | minimax | 国产,多模态 | ✅ 有 | minimax-01 |
| Anthropic | anthropic | Claude 系列 | ❌ | claude-sonnet-4 |
| OpenAI | openai | GPT 系列 | ❌ | gpt-4o |
| GitHub Copilot | copilot | 订阅制,多模型 | 订阅内 | gpt-5, claude |
| Hugging Face | huggingface | 20+ 开源模型 | ✅ $0.1/月 | 各开源模型 |
| 本地模型 | 自定义 | Ollama/vLLM 等 | 免费 | Qwen2.5, Llama3 |
国内用户推荐
首选 智谱 GLM(glm)——国内直连,无需代理,免费额度充足。次选 Kimi。如果需要最强能力,配代理用 OpenRouter。
配置提供商
方式一:交互式配置(推荐)
hermes model向导会列出所有可用的提供商,用方向键选择,然后输入 API Key。
方式二:编辑 config.yaml
# ~/.hermes/config.yaml
model:
default: glm-4-plus
provider:
default: glmAPI Key 仍然放在 ~/.hermes/.env:
# 智谱 GLM
GLM_API_KEY=your_glm_api_key
# OpenRouter
OPENROUTER_API_KEY=your_openrouter_key
# Anthropic
ANTHROPIC_API_KEY=your_anthropic_key
# Kimi
KIMI_API_KEY=your_kimi_key重点提供商配置详解
智谱 GLM(推荐国内用户)
# 1. 获取 API Key:https://open.bigmodel.cn/
# 2. 配置
hermes model --provider glm
# 3. 输入 API Key自动探测
GLM 提供商会自动探测多个端点(全球、中国、编程变体),找到能接受你 API Key 的那个。无需手动设置 GLM_BASE_URL。
Hermes 会自动处理 GLM 的 429 限流,但建议避免密集并发请求。
OpenRouter
# 1. 获取 API Key:https://openrouter.ai/keys
# 2. 配置
hermes model --provider openrouter
# 3. 选择模型(如 anthropic/claude-sonnet-4)OpenRouter 提供 200+ 模型,价格从免费到高端不等。
GitHub Copilot
hermes model --provider copilot认证方式(按优先级):
gh auth token(需 GitHub Copilot 订阅)- OAuth 设备码登录(向导会自动引导)
注意
不支持 ghp_* 类型的 Personal Access Token。如果 gh auth token 返回 ghp_*,请通过 hermes model 使用 OAuth 登录。
Anthropic (Claude)
hermes model --provider anthropic
# 或简写
hermes model --provider claude支持三种认证方式:API Key、OAuth、Claude Code 凭据。
本地模型
不想依赖云服务?可以跑本地模型。
Ollama(最简单)
# 1. 安装 Ollama:https://ollama.ai
# 2. 拉取模型
ollama pull qwen2.5:14b
# 3. 配置 Hermes
hermes model --provider custom --base-url http://localhost:11434/v1上下文窗口
Ollama 默认只用 4k 上下文。Agent 使用工具时,光系统提示 + 工具定义就可能占满。建议至少 16k-32k:
# 启动时设置
OLLAMA_NUM_PARALLEL=1 ollama serve
# 或创建 Modelfile 设置 num_ctx
FROM qwen2.5:14b
PARAMETER num_ctx 32768vLLM(GPU 高性能)
# 启动 vLLM 服务
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen2.5-14B-Instruct \
--tool-call-parser hermes \
--max-model-len 32k
# 配置 Hermes
hermes model --provider custom --base-url http://localhost:8000/v1llama.cpp(CPU / Apple Silicon)
# 启动 llama-server
./llama-server -m model.gguf -c 32768 --jinja --port 8080
# 配置 Hermes
hermes model --provider custom --base-url http://localhost:8080/v1必须加 --jinja
不加 --jinja,llama-server 会完全忽略 tools 参数。你的模型会尝试在文本里写 JSON 调用工具,但 Hermes 不会识别——你会看到原始 JSON 被当作消息输出。
会话中切换模型
在任何对话中,你都可以用 /model 命令临时切换:
/model openrouter/anthropic/claude-sonnet-4
/model glm/glm-4-plus
/model custom # 自动查询本地端点切换后会持久化到 config.yaml,重启后仍然生效。
辅助模型(Auxiliary Models)
即使你选了 Nous Portal 或其他提供商,部分工具(视觉、网页摘要、MoA)仍需要一个辅助模型。默认使用 Gemini Flash(通过 OpenRouter)。
设置 OPENROUTER_API_KEY 即可自动启用这些工具。
模型选型指南(2026 年 4 月更新)
| 使用场景 | 推荐模型 | 原因 |
|---|---|---|
| 日常对话 | GLM-5.1 | 国内直连,性价比高($0.95/M) |
| 编程开发 | Claude Sonnet 4.6 | 代码理解力强,1M 上下文 |
| 复杂推理 | GPT-5.4 Pro / Claude Opus 4.6 | 综合能力最强 |
| 隐私敏感 | Qwen3 (本地) | 数据不出本机 |
| 预算有限 | GPT-5.4 Nano / DeepSeek V3.2 | 极致便宜($0.2-0.26/M) |
| 长文档处理 | Gemini 2.5 Pro / Qwen3.6 Plus | 1M 超长上下文 |
| 实验探索 | OpenRouter | 200+ 模型随意试 |
📊 完整模型对比和价格一览,请参阅附录 E:模型选型指南。
深入阅读
- 官方文档:AI Providers
- 模型路由与回退:Provider Routing