第五章模型管理

模型是墨鱼的大脑。选对大脑，墨鱼才能又快又聪明。本章帮你理解 Hermes Agent 的模型体系，选出最适合你的方案。

核心概念

Hermes Agent 的模型配置是统一的——所有配置都存在 ~/.hermes/config.yaml 里，这是唯一的真相来源。

重要变化

旧版的 OPENAI_BASE_URL 和 LLM_MODEL 环境变量已废弃。如果你在 ~/.hermes/.env 里还有旧的配置，它们不会被读取。请使用 hermes model 或直接编辑 config.yaml。

切换模型有两种方式：

bash

# 交互式切换（推荐）
hermes model

# 直接指定
/model <provider>/<model>

主流提供商一览

提供商	Provider ID	特点	免费额度	推荐模型
Nous Portal	nous	Hermes 官方，开箱即用	✅ 有	hermes-4
OpenRouter	openrouter	200+ 模型市场	✅ 有限	各家旗舰
智谱 GLM	glm	国内直连，无需代理	✅ 有	glm-4-plus
Kimi / Moonshot	kimi	长上下文，国产	✅ 有	moonshot-v1
MiniMax	minimax	国产，多模态	✅ 有	minimax-01
Anthropic	anthropic	Claude 系列	❌	claude-sonnet-4
OpenAI	openai	GPT 系列	❌	gpt-4o
GitHub Copilot	copilot	订阅制，多模型	订阅内	gpt-5, claude
Hugging Face	huggingface	20+ 开源模型	✅ $0.1/月	各开源模型
本地模型	自定义	Ollama/vLLM 等	免费	Qwen2.5, Llama3

国内用户推荐

首选 智谱 GLM（glm）——国内直连，无需代理，免费额度充足。次选 Kimi。如果需要最强能力，配代理用 OpenRouter。

配置提供商

方式一：交互式配置（推荐）

bash

hermes model

向导会列出所有可用的提供商，用方向键选择，然后输入 API Key。

方式二：编辑 config.yaml

yaml

# ~/.hermes/config.yaml
model:
  default: glm-4-plus
provider:
  default: glm

API Key 仍然放在 ~/.hermes/.env：

bash

# 智谱 GLM
GLM_API_KEY=your_glm_api_key

# OpenRouter
OPENROUTER_API_KEY=your_openrouter_key

# Anthropic
ANTHROPIC_API_KEY=your_anthropic_key

# Kimi
KIMI_API_KEY=your_kimi_key

重点提供商配置详解

智谱 GLM（推荐国内用户）

bash

# 1. 获取 API Key：https://open.bigmodel.cn/
# 2. 配置
hermes model --provider glm
# 3. 输入 API Key

自动探测

GLM 提供商会自动探测多个端点（全球、中国、编程变体），找到能接受你 API Key 的那个。无需手动设置 GLM_BASE_URL。

Hermes 会自动处理 GLM 的 429 限流，但建议避免密集并发请求。

OpenRouter

bash

# 1. 获取 API Key：https://openrouter.ai/keys
# 2. 配置
hermes model --provider openrouter
# 3. 选择模型（如 anthropic/claude-sonnet-4）

OpenRouter 提供 200+ 模型，价格从免费到高端不等。

GitHub Copilot

bash

hermes model --provider copilot

认证方式（按优先级）：

gh auth token（需 GitHub Copilot 订阅）
OAuth 设备码登录（向导会自动引导）

注意

不支持 ghp_* 类型的 Personal Access Token。如果 gh auth token 返回 ghp_*，请通过 hermes model 使用 OAuth 登录。

Anthropic (Claude)

bash

hermes model --provider anthropic
# 或简写
hermes model --provider claude

支持三种认证方式：API Key、OAuth、Claude Code 凭据。

本地模型

不想依赖云服务？可以跑本地模型。

Ollama（最简单）

bash

# 1. 安装 Ollama：https://ollama.ai
# 2. 拉取模型
ollama pull qwen2.5:14b

# 3. 配置 Hermes
hermes model --provider custom --base-url http://localhost:11434/v1

上下文窗口

Ollama 默认只用 4k 上下文。Agent 使用工具时，光系统提示 + 工具定义就可能占满。建议至少 16k-32k：

bash

# 启动时设置
OLLAMA_NUM_PARALLEL=1 ollama serve

# 或创建 Modelfile 设置 num_ctx
FROM qwen2.5:14b
PARAMETER num_ctx 32768

vLLM（GPU 高性能）

bash

# 启动 vLLM 服务
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --tool-call-parser hermes \
  --max-model-len 32k

# 配置 Hermes
hermes model --provider custom --base-url http://localhost:8000/v1

llama.cpp（CPU / Apple Silicon）

bash

# 启动 llama-server
./llama-server -m model.gguf -c 32768 --jinja --port 8080

# 配置 Hermes
hermes model --provider custom --base-url http://localhost:8080/v1

必须加 --jinja

不加 --jinja，llama-server 会完全忽略 tools 参数。你的模型会尝试在文本里写 JSON 调用工具，但 Hermes 不会识别——你会看到原始 JSON 被当作消息输出。

会话中切换模型

在任何对话中，你都可以用 /model 命令临时切换：

/model openrouter/anthropic/claude-sonnet-4
/model glm/glm-4-plus
/model custom                    # 自动查询本地端点

切换后会持久化到 config.yaml，重启后仍然生效。

辅助模型（Auxiliary Models）

即使你选了 Nous Portal 或其他提供商，部分工具（视觉、网页摘要、MoA）仍需要一个辅助模型。默认使用 Gemini Flash（通过 OpenRouter）。

设置 OPENROUTER_API_KEY 即可自动启用这些工具。

模型选型指南（2026 年 4 月更新）

使用场景	推荐模型	原因
日常对话	GLM-5.1	国内直连，性价比高（$0.95/M）
编程开发	Claude Sonnet 4.6	代码理解力强，1M 上下文
复杂推理	GPT-5.4 Pro / Claude Opus 4.6	综合能力最强
隐私敏感	Qwen3 (本地)	数据不出本机
预算有限	GPT-5.4 Nano / DeepSeek V3.2	极致便宜（$0.2-0.26/M）
长文档处理	Gemini 2.5 Pro / Qwen3.6 Plus	1M 超长上下文
实验探索	OpenRouter	200+ 模型随意试

📊 完整模型对比和价格一览，请参阅附录 E：模型选型指南。

深入阅读

官方文档：AI Providers
模型路由与回退：Provider Routing

第五章 模型管理 ​

核心概念 ​

主流提供商一览 ​

配置提供商 ​

方式一：交互式配置（推荐） ​

方式二：编辑 config.yaml ​

重点提供商配置详解 ​

智谱 GLM（推荐国内用户） ​

OpenRouter ​

GitHub Copilot ​

Anthropic (Claude) ​

本地模型 ​

Ollama（最简单） ​

vLLM（GPU 高性能） ​

llama.cpp（CPU / Apple Silicon） ​

会话中切换模型 ​

辅助模型（Auxiliary Models） ​

模型选型指南（2026 年 4 月更新） ​

深入阅读 ​

第五章模型管理

核心概念

主流提供商一览

配置提供商

方式一：交互式配置（推荐）

方式二：编辑 config.yaml

重点提供商配置详解

智谱 GLM（推荐国内用户）

OpenRouter

GitHub Copilot

Anthropic (Claude)

本地模型

Ollama（最简单）

vLLM（GPU 高性能）

llama.cpp（CPU / Apple Silicon）

会话中切换模型

辅助模型（Auxiliary Models）

模型选型指南（2026 年 4 月更新）

深入阅读