「チームメンバーのUbuntuバージョンが違うせいで、同じ手順を実行しても動かない」
そんな悩みを抱えるインフラエンジニアやサーバー管理者は少なくない。Ollamaは単体でも動作するが、本番運用を見据えるとDockerコンテナ化が断然有利だ。この記事では、docker-compose.ymlを使ってOllamaをコンテナとして立ち上げ、GPUパススルー設定・Open WebUI連携・ヘルスチェック・日常運用コマンドまでをステップ順に解説する。Ubuntu Server 22.04 LTS + NVIDIA GPUの構成を基本とするが、GPUなしのCPU運用でも手順はほぼ同じだ。
この記事のポイント
・docker-compose.ymlとNVIDIA Container Toolkitで再現性のある運用環境を構築できる
・GPUパススルー・ヘルスチェック・環境変数の外部化で本番品質の構成に仕上げる手順を解説
・Open WebUIをcomposeに同梱することでチーム共有UIをワンコマンドで起動できる
・よくあるコンテナ間通信エラーとGPU認識エラーの対処法をまとめて紹介
でも安心してください。プロのエンジニアはコマンドを暗記していません。
「現場で使える型」を効率よく使いこなしているだけです。
なぜOllamaをDockerコンテナで動かすべきなのか
ローカルLLMの導入を検討するとき、「まずサーバーに直接インストールしてみる」というアプローチを取る人が多い。実際、Ubuntu ServerでローカルLLMを構築する方法で解説した手順は確かに手早く動作確認できる。ただし、直接インストールには「ライブラリの競合」「Pythonバージョン依存」「移行コスト」という3つの問題が伴う。Dockerを使うと、これらの問題が構造的に解消される。コンテナはホストOSのライブラリに依存せず、docker-compose.ymlという1ファイルで全構成が記述される。チームメンバーがそのファイルを手元に持てば、同じ環境を数分で再現できる。バージョン管理リポジトリにcomposeファイルをコミットすれば、構成変更の履歴も自動で残る。
現場で聞いた話では、検証段階は直接インストールで済ませ、社内展開フェーズでDockerに移行するケースが増えているという。直接インストール版とコンテナ版の主な違いは次のとおりだ。
直接インストール版はセットアップが速い半面、サーバー移行時に「どのバージョンを入れたか」が曖昧になりやすい。一方、Docker版はcomposeファイルが設計書として機能するため、「3ヶ月前の構成をそのまま再現したい」といった場面で威力を発揮する。チームで複数台のサーバーにOllamaを展開する予定があるなら、最初からDockerで構築する価値は高い。
この記事ではその「本番化」のステップを詳しく見ていく。
事前準備|Docker EngineとNVIDIA Container Toolkitを整える
1. Docker Engineのインストール確認
Ubuntu ServerへのDocker Engineのインストールは公式ドキュメントの手順が最も確実だ。既にインストール済みの場合はバージョン確認だけ行う。# Dockerのバージョン確認 $ docker --version Docker version 26.1.4, build 5650f9b # docker compose plugin(V2)の確認 $ docker compose version Docker Compose version v2.27.1
# docker compose plugin(V2)の追加インストール $ sudo apt update $ sudo apt install -y docker-compose-plugin # 一般ユーザーでdockerコマンドを使えるようにグループ追加 $ sudo usermod -aG docker $USER # グループ変更を反映(再ログインが必要) $ newgrp docker
2. NVIDIA Container Toolkitのインストール
GPUを使ってOllamaを動かすには、NVIDIA Container Toolkitが必要だ。これはDockerコンテナからGPUにアクセスするためのランタイムで、ホストOS側にインストールする。CUDAドライバーが既にインストール済みであることを前提とする(`nvidia-smi` コマンドで確認できる。未導入の場合はUbuntu ServerでGPUを使ってローカルLLMを動かす方法を参照してほしい)。
# NVIDIA Container Toolkitのリポジトリ追加 $ curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey \ | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg $ curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \ | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \ | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list $ sudo apt update && sudo apt install -y nvidia-container-toolkit # Dockerランタイムへの登録 $ sudo nvidia-ctk runtime configure --runtime=docker $ sudo systemctl restart docker # 動作確認(コンテナ内でnvidia-smiが正常に動けばOK) $ docker run --rm --runtime=nvidia --gpus all ubuntu nvidia-smi
3. 作業ディレクトリの構成を整える
作業用ディレクトリを作成する。モデルファイルは数GB以上になるため、ストレージ容量が十分なパスに配置する。# 作業ディレクトリを作成 $ mkdir -p ~/ollama-docker/{models,webui-data} $ cd ~/ollama-docker # ディレクトリ構成の確認 $ ls -la drwxr-xr-x 4 ubuntu ubuntu 4096 Jun 28 10:00 . drwxr-xr-x 12 ubuntu ubuntu 4096 Jun 28 10:00 .. drwxr-xr-x 2 ubuntu ubuntu 4096 Jun 28 10:00 models drwxr-xr-x 2 ubuntu ubuntu 4096 Jun 28 10:00 webui-data
Ollamaコンテナを最小構成で起動する方法
1. 最小構成のdocker-compose.ymlを作成する
まずシンプルな1サービス構成から始めて動作を確認する。`~/ollama-docker/` ディレクトリに以下の内容でdocker-compose.ymlを作成する。# ~/ollama-docker/docker-compose.yml(最小構成) services: ollama: image: ollama/ollama:latest container_name: ollama restart: unless-stopped ports: - "11434:11434" volumes: - ./models:/root/.ollama deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu]
GPUを使わないCPUのみの環境では `deploy.resources.reservations` ブロック全体を削除する。CPU運用でも動作するが、推論速度はGPUに比べて大幅に遅くなる(トークン生成速度が10分の1以下になることもある)。
2. コンテナを起動してモデルを取得する
# コンテナをバックグラウンドで起動 $ docker compose up -d # 起動確認(STATUSがUpになればOK) $ docker compose ps NAME IMAGE COMMAND SERVICE CREATED STATUS PORTS ollama ollama/ollama:latest "/bin/ollama serve" ollama 5 seconds ago Up 4 seconds 0.0.0.0:11434->11434/tcp # モデルの取得(コンテナ内でollama pullを実行) $ docker exec -it ollama ollama pull llama3.3:8b-instruct-q4_0 # テスト推論(APIが正常に応答するか確認) $ curl http://localhost:11434/api/generate \ -d '{"model":"llama3.3:8b-instruct-q4_0","prompt":"こんにちは","stream":false}'
docker-compose.ymlで本番構成に仕上げる
1. 環境変数による設定の外部化
本番環境では、設定値を `.env` ファイルに切り出してdocker-compose.ymlから参照する構成が保守しやすい。チームで設定を共有しつつ、サーバーごとの差分は `.env` だけ変更すれば済む。# ~/ollama-docker/.env OLLAMA_HOST=0.0.0.0 OLLAMA_MAX_LOADED_MODELS=2 OLLAMA_NUM_PARALLEL=4 OLLAMA_KEEP_ALIVE=30m
# docker-compose.yml(環境変数追加版) services: ollama: image: ollama/ollama:latest container_name: ollama restart: unless-stopped ports: - "11434:11434" volumes: - ./models:/root/.ollama environment: - OLLAMA_HOST=${OLLAMA_HOST:-0.0.0.0} - OLLAMA_MAX_LOADED_MODELS=${OLLAMA_MAX_LOADED_MODELS:-1} - OLLAMA_NUM_PARALLEL=${OLLAMA_NUM_PARALLEL:-2} - OLLAMA_KEEP_ALIVE=${OLLAMA_KEEP_ALIVE:-10m} deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu]
`OLLAMA_MAX_LOADED_MODELS` はVRAMに同時に展開するモデルの上限数だ。VRAM 8GBの環境では `1` に絞ることを推奨する。`OLLAMA_KEEP_ALIVE` はモデルをVRAMに保持する時間で、頻繁にリクエストが来る環境では長めに設定するとレスポンスが速くなる。設定変更後は `docker compose up -d` で再起動すれば反映される。
2. ヘルスチェックの追加で本番品質に仕上げる
本番環境ではコンテナのヘルスチェックを設定しておく。サービスが応答しなくなったときに自動検知でき、後述するOpen WebUI連携の起動順制御にも使える。# docker-compose.yml(ヘルスチェック追加・最終版) services: ollama: image: ollama/ollama:latest container_name: ollama restart: unless-stopped ports: - "11434:11434" volumes: - ./models:/root/.ollama environment: - OLLAMA_HOST=${OLLAMA_HOST:-0.0.0.0} - OLLAMA_MAX_LOADED_MODELS=${OLLAMA_MAX_LOADED_MODELS:-1} - OLLAMA_KEEP_ALIVE=${OLLAMA_KEEP_ALIVE:-10m} healthcheck: test: ["CMD", "curl", "-f", "http://localhost:11434/"] interval: 30s timeout: 10s retries: 3 start_period: 30s deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu]
Open WebUIを同一composeに追加してチームで使う
1. docker-compose.ymlにOpen WebUIサービスを追加する
OllamaにOpen WebUIを導入する方法でも紹介したOpen WebUIは、同じdocker-composeファイルで一元管理できる。以下の `open-webui` サービスブロックを追加する。# docker-compose.yml(Ollama + Open WebUI完成構成) services: ollama: image: ollama/ollama:latest container_name: ollama restart: unless-stopped volumes: - ./models:/root/.ollama environment: - OLLAMA_HOST=0.0.0.0 - OLLAMA_MAX_LOADED_MODELS=${OLLAMA_MAX_LOADED_MODELS:-1} - OLLAMA_KEEP_ALIVE=${OLLAMA_KEEP_ALIVE:-10m} healthcheck: test: ["CMD", "curl", "-f", "http://localhost:11434/"] interval: 30s timeout: 10s retries: 3 start_period: 30s deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui restart: unless-stopped ports: - "3000:8080" volumes: - ./webui-data:/app/backend/data environment: - OLLAMA_BASE_URL=http://ollama:11434 depends_on: ollama: condition: service_healthy
`depends_on` に `condition: service_healthy` を指定することで、Ollamaのヘルスチェックが通過してからOpen WebUIが起動する。起動順の依存を明示的に制御でき、「OllamaがまだAPIを受け付けていないのにOpen WebUIが先に起動してしまう」という問題を防げる。
2. 起動と動作確認
# 全サービスをまとめて起動 $ docker compose up -d # 全サービスのステータス確認 $ docker compose ps NAME IMAGE STATUS ollama ollama/ollama:latest Up (healthy) open-webui ghcr.io/open-webui/open-webui:main Up # Open WebUIのポートでアクセスできるか確認 $ curl -s -o /dev/null -w "%{http_code}" http://localhost:3000/ 200
チームメンバーに共有する際はサーバーのIPアドレスとポート3000を伝えるだけでいい。composeファイルをgitで管理しておけば、新規サーバーへの展開も `git clone` + `docker compose up -d` の2コマンドで完了する。社内でChatGPTが使えない環境でのローカルLLM活用の背景については、社内でChatGPTが使えないときの代替手段も参照してほしい。
コンテナの日常運用|ログ監視・モデル更新・バックアップ
1. ログの確認方法
# 全サービスのログをリアルタイムで確認 $ docker compose logs -f # Ollamaのログのみ確認(推論状況・エラーはここで把握) $ docker compose logs -f ollama # 過去100行のみ表示 $ docker compose logs --tail=100 ollama # タイムスタンプ付きで表示 $ docker compose logs -f --timestamps ollama
2. モデルの追加・更新手順
# 新しいモデルを追加取得 $ docker exec -it ollama ollama pull mistral:7b-instruct-q8_0 # 現在取得済みのモデル一覧(SIZE列でストレージ使用量を確認) $ docker exec -it ollama ollama list NAME ID SIZE MODIFIED llama3.3:8b-instruct-q4_0 abc123def456 4.9 GB 2 days ago mistral:7b-instruct-q8_0 def456abc789 7.7 GB 1 minute ago # 不要なモデルの削除(ストレージ解放) $ docker exec -it ollama ollama rm phi-4:latest # Ollamaイメージ自体を最新版にアップデート $ docker compose pull ollama $ docker compose up -d ollama
3. バックアップと別サーバーへの移行
composeファイルをgitで管理するのがベストプラクティスだ。モデルデータはOllamaの公式リポジトリから再ダウンロードできるため、基本的にバックアップは不要だ。ただし帯域・時間コストを節約したいなら、`./models` をそのまま別サーバーへ転送できる。# composeファイルをgitで管理(.envはgitignoreに追加する) $ git init $ echo ".env" >> .gitignore $ git add docker-compose.yml .gitignore $ git commit -m "initial ollama docker setup" # モデルデータを別サーバーへrsyncで転送(大容量のため時間がかかる) $ rsync -avz --progress ./models/ user@new-server:~/ollama-docker/models/ # 移行先でcomposeを起動するだけで環境が復元される # (モデルを再ダウンロードする必要がない)
OllamaのREST APIを業務システムに組み込む方法で解説したAPI連携を行う場合、この構成のポート11434をそのまま利用できる。
よくあるトラブルと対処法
Dockerを使ったOllama運用でよく遭遇するトラブルとその対処をまとめる。**「Error response from daemon: could not select device driver "" with capabilities: [[gpu]]」**
NVIDIA Container Toolkitが正しくDockerに登録されていない。`sudo nvidia-ctk runtime configure --runtime=docker` を再実行し、`sudo systemctl restart docker` でDockerを再起動する。それでも解消しない場合は `/etc/docker/daemon.json` に `"default-runtime": "nvidia"` が追記されているか確認する。
**「open-webuiが "Failed to connect to Ollama" と表示される」**
`OLLAMA_BASE_URL` が `http://localhost:11434` になっている場合に発生する。コンテナ間通信では `localhost` はそれぞれのコンテナ自身を指すため、Ollamaには届かない。`http://ollama:11434`(コンテナ名)に変更して `docker compose up -d open-webui` で再起動する。
**「GPUが認識されているのに推論が遅い」**
VRAM不足でモデルが自動的にCPUにオフロードされている可能性がある。`docker compose logs -f ollama` でログを確認し、「offloading N layers to CPU」のメッセージがあればモデルが大きすぎる。量子化レベルを `-q4_0` に下げるか、より小さいパラメータ数のモデルを選ぶ。
**「docker compose up -d が "no space left on device" で失敗する」**
モデルファイルがディスクを埋めている。`df -h` でパーティション使用率を確認し、不要なモデルを `docker exec -it ollama ollama rm モデル名` で削除する。`./models` ディレクトリは `du -sh ./models/` で容量を確認できる。
**「モデルのダウンロード中にコンテナが停止する」**
ネットワークタイムアウトまたはメモリ不足が原因なことが多い。`docker exec -it ollama ollama pull モデル名` を再実行すると途中から再開される。ホストのメモリ使用状況は `free -h` で確認する。
**「docker compose up -d 後にopen-webuiが起動しない」**
Ollamaのヘルスチェックに時間がかかりタイムアウトしている場合がある。`healthcheck.start_period` を `60s` に延長する。また `docker compose ps` でOllamaのSTATUSが `Up (starting)` のままになっていないか確認する。
まとめ
この記事では、OllamaをDockerコンテナで運用するための手順をステップ順に解説した。直接インストールよりも手順は増えるが、一度docker-compose.ymlを整えてしまえば環境の再現・チーム展開・バージョン管理が格段に楽になる。| ステップ | やること | 主要コマンド |
|---|---|---|
| 事前準備 | Docker Engine / NVIDIA Container Toolkit導入 | sudo apt install nvidia-container-toolkit |
| 最小起動 | docker-compose.ymlでOllamaを定義・起動 | docker compose up -d |
| モデル取得 | コンテナ内でollama pullを実行 | docker exec -it ollama ollama pull llama3.3:8b-instruct-q4_0 |
| 本番化 | 環境変数外部化・ヘルスチェック追加 | docker compose up -d(compose修正後) |
| WebUI連携 | Open WebUIをcomposeに追加 | OLLAMA_BASE_URL=http://ollama:11434 |
| 日常運用 | ログ確認・モデル更新・バックアップ | docker compose logs -f ollama |
コンテナ化したOllamaをチームで活用する次のステップとして、業務特化AIアシスタントの構築がある。OllamaのModelfileでカスタムモデルを作る方法を参照して、部門ごとのプロンプト設定をチームで使い回す仕組みを整えてほしい。
Dockerによるコンテナ化は、ローカルLLMを「個人の試験環境」から「チームの業務基盤」へ格上げする実践的な手段だ。composeファイル1枚が、将来的な移行や展開のコストを大幅に下げてくれる。
Docker+OllamaのGPU構築を2日間のハンズオンで体験する
この記事で解説したdocker-compose構成やNVIDIA Container Toolkitの設定、Open WebUI連携を、実機GPU環境で手を動かしながら習得したい方向けに、「ローカルAIマスターセミナー」を開催しています。
少人数(最大8名)ZOOMハンズオン形式で実施しています。
・Ubuntu ServerでローカルLLMを構築する方法|Ollamaで機密データを外に出さず業務AIを動かす完全ガイド
・社内でChatGPTが使えないときの代替手段|機密データを守るローカルLLMという選択肢
・ローカルLLMのモデルを比較する方法|Llama3.3・Mistral・Gemma・Phi-4をUbuntuで使い分けるポイント
3,100名以上が実践した「型」を無料で公開中
プロのエンジニアはコマンドを暗記していません。
「現場で使える型」を効率よく使いこなしているだけです。
その「型」を図解60Pにまとめた入門マニュアルを、完全無料でプレゼントしています。
登録10秒/合わなければ解除3秒 / 詳細はこちら
- 次のページへ:OllamaをNginxリバースプロキシで公開する方法|HTTPS・Basic認証でチームへ安全に提供する
- 前のページへ:OllamaでRAGを構築する方法|社内ドキュメントをローカルLLMで質問応答システムとして活用する
- この記事の属するカテゴリ:ローカルLLMへ戻る

無料メルマガで学習を続ける
Linuxの実践スキルをメールで毎週お届け。
登録は1分、解除もいつでも可。
登録無料・いつでも解除できます