自宅サーバーでOllamaを動かす — ホームラボ分散AI推論基盤の作り方【第1回】

この記事では、自宅の余っているPCにOllamaをインストールし、複数台にAI推論を分散させる基盤の初回構成を解説します。複数PC・複数モデルを使い分けたい方、ローカルLLMの次のステップを探している方向けです。

最近、ローカルLLMを触っていて思ったことがある。

最初は単純に、
「自分のPCでAIが動くの面白い」
くらいの感覚だった。

でも、使っているうちに少しずつ考えが変わってきた。

ローカルLLMの“次”

ローカルLLMは確かに面白い。

ただ、実際に使ってみると色々な問題が見えてくる。

重いモデルはGPUが必要
常時起動すると電気代が気になる
コード生成と会話で向いているモデルが違う
1台のPCですべてを処理するのが苦しい

特に大きかったのは、

「用途によって最適なAIが違う」

という点だった。

軽い雑談なら小型モデルで十分。

でもコード生成や思考系になると、GPUを積んだ重いモデルが欲しくなる。

だったら、

「必要な時だけ、必要なAIを呼び出す」

形にしたほうが良いのでは？

そう考え始めた。

作りたいのは「AIチャット」ではない

今やろうとしているのは、単なるローカルAIチャット環境ではない。

イメージとしては、

複数PCをAI Worker化
AIが適切なWorkerを選択
必要ならGPUマシンを自動起動
軽い処理は省電力ノートPCへ
将来的にはAI同士で協調

という、小さな「家庭内AIクラスタ」のようなもの。

少し大げさに言えば、

“自宅版AIインフラ”

を作ろうとしている。

現在考えている構成

現時点では、手持ちの中古PCやノートPCを利用して構築予定。

管理サーバ

ThinkPad P50

このPCが中央管理役。

Open WebUI
Hyper-V
軽量LLM
Worker管理
タスク振り分け

などを担当する予定。

GPU Worker

RTX 3070 Ti搭載PC

重いモデル専用。

14BクラスLLM
コード生成
推論処理
高負荷タスク

などを担当。

必要な時だけ起動する形を目指している。

Utility Worker

ThinkCentre Ryzen

補助サーバ。

Docker
バックアップ
各種サービス
エージェント補助

などを担当予定。

ESXi検証環境

ThinkPad L590

こちらは実験用。

ESXi
VM検証
Linux実験
ネットワーク確認

など。

やりたいのは「AIがAIを管理する」環境

最終的に目指しているのは、

「AIを使う」ではなく、

「AIが環境そのものを扱う」

世界。

例えば、

AIがWorkerを起動
AIが負荷を見て振り分け
AIが最適なモデルを選択
AIが他のAIへ依頼
AIが障害を検知

みたいな構成。

なぜローカルにこだわるのか

もちろん、クラウドAIは便利。

でも、

自分で制御したい
自由に試したい
コストを抑えたい
仕組みそのものを理解したい

という気持ちが強い。

あと単純に、

「家の中でAIサーバ群が動いている」

というロマンがある。

今後やりたいこと

現時点ではまだ構想段階の部分も多い。

ただ、今後は少しずつ、

Open WebUI連携
Worker自動参加
Docker化
AI同士の協調
自律タスク実行
外部LLM API連携
VM自動操作

なども試していきたい。

このブログでは、その過程や失敗も含めて記録していこうと思う。

正直、どこまで出来るかはまだ分からない。

でも、

「個人でもここまで出来る時代になった」

というワクワク感はかなりある。

→ シリーズ全記事の目次はこちら