非力なマシンでローカル LLM エージェントをテストする
2026 年 6 月のローカル LLM 非力作業のテスト記録です。
環境
- Windows: 7950X3D、32GB、2080 SUPER (8GB)
- Mac: M3 24GB
とても非力です。しかしこの環境でも最近は比較的まともに会話できるモデルが出ているため、簡単なエージェント操作が手元でもできるのか試すことにしました。モデルは Ollama 経由で使用しました。
テスト 1:シンプルな編集
内容
次の文字列をエージェントに渡して、1 ターンで編集が成功する回数を見ます。
このリポジトリの README.md を読んでください。
その後、README.md の末尾に次の1行を追加してください。
LOCAL_AGENT_TEST_OK
Please read the README.md in this repository.
Then, add the following line at the end of the README.md:
LOCAL_AGENT_TEST_OK
パラメーターはデフォルト設定、推論努力は未指定か「中」で実行します。
バックエンドは Ollama を使います。ツール呼び出しの互換性の問題でモデルの能力が発揮できない場合も、それを現実の性能としてそのまま扱います。
モデルとエージェントの組み合わせごとに 10 回行い、全て成功なら ✅、全て失敗なら ❌、それ以外は成功回数を記載します。
日本語プロンプトの結果
| モデル | Codex | Claude Code | Forge | OpenCode |
|---|---|---|---|---|
| gemma4:e2b-it-qat | 4 | 4 | 4 | 2 |
| gemma4:e4b-it-qat | 9 | ✅ | 4 | 6 |
| gemma4:26b-a4b-it-qat | 8 | 7 | 6 | 2 |
| lfm2.5:8b | 1 | 1 | ❌ | 1 |
| nemotron-3-nano:4b | ❌ | 3 | ❌ | 3 |
| north-mini-code-1.0:q4_K_M | 9 | 9 | 3 | 7 |
| qwen3.5:9b | 8 | 7 | 5 | 6 |
| qwen3.6:35b | ✅ | ✅ | 9 | ✅ |
英語プロンプトの結果
| モデル | Codex | Claude Code | Forge | OpenCode |
|---|---|---|---|---|
| gemma4:e2b-it-qat | 5 | 6 | 3 | 2 |
| gemma4:e4b-it-qat | ✅ | 9 | 7 | 6 |
| gemma4:26b-a4b-it-qat | ✅ | 7 | 4 | 2 |
| lfm2.5:8b | 4 | 2 | ❌ | 1 |
| nemotron-3-nano:4b | 1 | 2 | ❌ | 4 |
| north-mini-code-1.0:q4_K_M | ✅ | 9 | 8 | 7 |
| qwen3.5:9b | ✅ | 6 | 7 | 7 |
| qwen3.6:35b | ✅ | ✅ | ✅ | 9 |
成績と所要時間の優れている順
| 順位 | モデル | エージェント | 言語 | 正答率 | 平均所要時間 |
|---|---|---|---|---|---|
| 1 | qwen3.6:35b | Codex | en | 100.0% (10/10) | 22.0s |
| 2 | gemma4:e4b-it-qat | Codex | en | 100.0% (10/10) | 22.7s |
| 3 | gemma4:e4b-it-qat | Claude Code | ja | 100.0% (10/10) | 32.5s |
| 4 | qwen3.6:35b | Codex | ja | 100.0% (10/10) | 34.5s |
| 5 | north-mini-code-1.0:q4_K_M | Codex | en | 100.0% (10/10) | 45.0s |
観察
- 一見して Codex と Qwen 3.6 が強い。
- Gemma 4 26b より e4b が強いのは意外な印象。テストに問題があるかもしれない。
- 代表的な失敗は、同じ編集を何度も適用してしまう、元の文書を消してしまうなど。
- ツール呼び出しがほぼ成功しないのはエージェントや Ollama とモデルの相性(ツール呼び出し書式が違うなど)もありそう。
- MoE アーキテクチャのモデルは明らかに速い。
総評
こんな非力環境では何もできないだろうと覚悟をしていたので、つついて遊べる程度に動いたのは嬉しい誤算だった。今回成績の良かった Qwen 3.6、Gemma 4、North Mini Code あたりを使ってもう少し複雑な課題も回してみたい。
2026年6月16日