Skip to content

第五章 模型管理

模型是墨鱼的大脑。选对大脑,墨鱼才能又快又聪明。本章帮你理解 Hermes Agent 的模型体系,选出最适合你的方案。

核心概念

Hermes Agent 的模型配置是统一的——所有配置都存在 ~/.hermes/config.yaml 里,这是唯一的真相来源。

重要变化

旧版的 OPENAI_BASE_URLLLM_MODEL 环境变量已废弃。如果你在 ~/.hermes/.env 里还有旧的配置,它们不会被读取。请使用 hermes model 或直接编辑 config.yaml

切换模型有两种方式:

bash
# 交互式切换(推荐)
hermes model

# 直接指定
/model <provider>/<model>

主流提供商一览

提供商Provider ID特点免费额度推荐模型
Nous PortalnousHermes 官方,开箱即用✅ 有hermes-4
OpenRouteropenrouter200+ 模型市场✅ 有限各家旗舰
智谱 GLMglm国内直连,无需代理✅ 有glm-4-plus
Kimi / Moonshotkimi长上下文,国产✅ 有moonshot-v1
MiniMaxminimax国产,多模态✅ 有minimax-01
AnthropicanthropicClaude 系列claude-sonnet-4
OpenAIopenaiGPT 系列gpt-4o
GitHub Copilotcopilot订阅制,多模型订阅内gpt-5, claude
Hugging Facehuggingface20+ 开源模型✅ $0.1/月各开源模型
本地模型自定义Ollama/vLLM 等免费Qwen2.5, Llama3

国内用户推荐

首选 智谱 GLMglm)——国内直连,无需代理,免费额度充足。次选 Kimi。如果需要最强能力,配代理用 OpenRouter。


配置提供商

方式一:交互式配置(推荐)

bash
hermes model

向导会列出所有可用的提供商,用方向键选择,然后输入 API Key。

方式二:编辑 config.yaml

yaml
# ~/.hermes/config.yaml
model:
  default: glm-4-plus
provider:
  default: glm

API Key 仍然放在 ~/.hermes/.env

bash
# 智谱 GLM
GLM_API_KEY=your_glm_api_key

# OpenRouter
OPENROUTER_API_KEY=your_openrouter_key

# Anthropic
ANTHROPIC_API_KEY=your_anthropic_key

# Kimi
KIMI_API_KEY=your_kimi_key

重点提供商配置详解

智谱 GLM(推荐国内用户)

bash
# 1. 获取 API Key:https://open.bigmodel.cn/
# 2. 配置
hermes model --provider glm
# 3. 输入 API Key

自动探测

GLM 提供商会自动探测多个端点(全球、中国、编程变体),找到能接受你 API Key 的那个。无需手动设置 GLM_BASE_URL

Hermes 会自动处理 GLM 的 429 限流,但建议避免密集并发请求

OpenRouter

bash
# 1. 获取 API Key:https://openrouter.ai/keys
# 2. 配置
hermes model --provider openrouter
# 3. 选择模型(如 anthropic/claude-sonnet-4)

OpenRouter 提供 200+ 模型,价格从免费到高端不等。

GitHub Copilot

bash
hermes model --provider copilot

认证方式(按优先级):

  1. gh auth token(需 GitHub Copilot 订阅)
  2. OAuth 设备码登录(向导会自动引导)

注意

不支持 ghp_* 类型的 Personal Access Token。如果 gh auth token 返回 ghp_*,请通过 hermes model 使用 OAuth 登录。

Anthropic (Claude)

bash
hermes model --provider anthropic
# 或简写
hermes model --provider claude

支持三种认证方式:API Key、OAuth、Claude Code 凭据。


本地模型

不想依赖云服务?可以跑本地模型。

Ollama(最简单)

bash
# 1. 安装 Ollama:https://ollama.ai
# 2. 拉取模型
ollama pull qwen2.5:14b

# 3. 配置 Hermes
hermes model --provider custom --base-url http://localhost:11434/v1

上下文窗口

Ollama 默认只用 4k 上下文。Agent 使用工具时,光系统提示 + 工具定义就可能占满。建议至少 16k-32k

bash
# 启动时设置
OLLAMA_NUM_PARALLEL=1 ollama serve

# 或创建 Modelfile 设置 num_ctx
FROM qwen2.5:14b
PARAMETER num_ctx 32768

vLLM(GPU 高性能)

bash
# 启动 vLLM 服务
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct \
  --tool-call-parser hermes \
  --max-model-len 32k

# 配置 Hermes
hermes model --provider custom --base-url http://localhost:8000/v1

llama.cpp(CPU / Apple Silicon)

bash
# 启动 llama-server
./llama-server -m model.gguf -c 32768 --jinja --port 8080

# 配置 Hermes
hermes model --provider custom --base-url http://localhost:8080/v1

必须加 --jinja

不加 --jinja,llama-server 会完全忽略 tools 参数。你的模型会尝试在文本里写 JSON 调用工具,但 Hermes 不会识别——你会看到原始 JSON 被当作消息输出。


会话中切换模型

在任何对话中,你都可以用 /model 命令临时切换:

/model openrouter/anthropic/claude-sonnet-4
/model glm/glm-4-plus
/model custom                    # 自动查询本地端点

切换后会持久化到 config.yaml,重启后仍然生效。


辅助模型(Auxiliary Models)

即使你选了 Nous Portal 或其他提供商,部分工具(视觉、网页摘要、MoA)仍需要一个辅助模型。默认使用 Gemini Flash(通过 OpenRouter)。

设置 OPENROUTER_API_KEY 即可自动启用这些工具。


模型选型指南(2026 年 4 月更新)

使用场景推荐模型原因
日常对话GLM-5.1国内直连,性价比高($0.95/M)
编程开发Claude Sonnet 4.6代码理解力强,1M 上下文
复杂推理GPT-5.4 Pro / Claude Opus 4.6综合能力最强
隐私敏感Qwen3 (本地)数据不出本机
预算有限GPT-5.4 Nano / DeepSeek V3.2极致便宜($0.2-0.26/M)
长文档处理Gemini 2.5 Pro / Qwen3.6 Plus1M 超长上下文
实验探索OpenRouter200+ 模型随意试

📊 完整模型对比和价格一览,请参阅附录 E:模型选型指南

深入阅读


基于 CC BY-NC-SA 4.0 发布 | GitHub