Как развернуть локальный ChatGPT на своём сервере: Ollama + vLLM в 2026

Flow Masters28 июня 2026 г.14 мин

Как развернуть локальный ChatGPT на своём сервере: Ollama + vLLM в 2026

Свой ChatGPT в России разворачивается одной командой: curl -fsSL https://ollama.com/install.sh | sh, затем ollama run qwen2.5:14b. Через 5 минут у вас есть локальные LLM с OpenAI-совместимым API, данные не покидают ваш сервер, нет лимитов и счетов за токены, а платное ПО не нужно. Это ответ на запрос «локальные llm россия свой chatgpt»: бесплатная языковая модель на вашем железе в РФ, законная по 152-ФЗ и независимая от VPN и зарубежных облаков.

В 2026 году открытых моделей уровня GPT-4 стало много: Qwen 2.5 (лучший русский), Llama 3.1, Saiga и T-lite от Т-Банка. Их можно запускать локально через три инструмента — Ollama, vLLM и TGI — на ноутбуке за 0 ₽, на арендованном GPU-сервере или на собственном железе. Мы в Flow Masters используем локальные модели примерно в трети проектов: для ботов под 152-ФЗ, внутренних ассистентов на базе знаний и обработки чувствительных данных. В этой статье — пошаговое руководство: от установки Ollama за 5 минут до подключения локального «ChatGPT» к Telegram-боту и CRM.

Что вы узнаете

  • Зачем бизнесу в России свой локальный ChatGPT: 152-ФЗ, приватность, стоимость.
  • Три способа запуска за разный бюджет: Ollama (ноутбук, 0 ₽), vLLM (production GPU), TGI.
  • Пошаговая установка Ollama и запуск Llama, Qwen и GigaChat от Сбера.
  • Подключение Open WebUI — графического интерфейса как у ChatGPT.
  • Подключение локальной модели к собственному Telegram-боту (Node.js + Python).
  • Реальные сметы 2026 и сравнение с облаком.

Зачем бизнесу локальные LLM в России

152-ФЗ: персональные данные не должны уезжать за рубеж

Федеральный закон 152-ФЗ «О персональных данных» требует хранить и обрабатывать персональные данные россиян на серверах, физически расположенных в РФ, и запрещает трансграничную передачу без согласия субъекта и уведомления Роскомнадзора. Штрафы для юрлиц — до 18 млн ₽, а с 2026 года enforcement усиливается блокировками.

Когда вы шлёте запрос в ChatGPT (OpenAI), Claude (Anthropic) или Gemini (Google), данные летят на серверы в США. Даже без явного имени клиента контекст (телефон, сумма сделки, ИНН, переписка) — это уже персональные данные. Для банка, клиники, госсектора, юрфирмы и любого, кто работает с клиентской базой, это прямой риск. Локальная модель обрабатывает всё на вашем сервере в России — передачи за рубеж нет, 152-ФЗ соблюдён. Подробнее про Compliance в ботах — в отдельном разборе по 152-ФЗ для чат-ботов.

Приватность и независимость от VPN

Зарубежные ИИ-сервисы в РФ доступны только через VPN, который дорог, нестабилен и сам по себе риск. Российские облака (YandexGPT, GigaChat) работают напрямую, но зависят от интернета и тарифов провайдера. Локальная модель работает без интернета вообще — критично для филиалов в регионах, мобильных сотрудников и закрытого контура. Никаких лимитов на запросы и surprise-счетов за перерасход токенов.

Стоимость: окупаемость за 4–6 месяцев

Облако — это подписка навсегда: чем активнее используете, тем больше платите. Локальная модель — разовая инвестиция в железо, дальше почти бесплатно.

Вариант Входные затраты Цена в месяц Через 1 год
ChatGPT Plus / API (зарубеж) + VPN ~0 ₽ ~3 000–15 000 ₽ + VPN 36 000–180 000 ₽
GigaChat / YandexGPT (облако РФ) 0 ₽ 3 000–15 000 ₽ 36 000–180 000 ₽
Свой сервер (RTX 4090) ~250 000 ₽ ~5 000 ₽ ~310 000 ₽, далее ~60 000 ₽/год
Аренда GPU VPS 0 ₽ 35 000 ₽ 420 000 ₽
Ноутбук (Ollama) 0 ₽ 0 ₽ 0 ₽

Своя железка окупается за 4–6 месяцев активного использования и дальше экономит. Для лёгких задач хватит и ноутбука за 0 ₽.

Три способа запуска за разный бюджет

Инструментов для локального вывода несколько. Вот три основных — выбирайте по бюджету и нагрузке.

Способ 1. Ollama — на ноутбуке за 5 минут (0 ₽)

Ollama — самый простой способ. Одна команда ставит движок, вторая — запускает модель. Работает на CPU и GPU, API совместим с OpenAI. Идеален для тестов, разработки и небольших ботов.

Способ 2. vLLM — production на сервере с GPU

vLLM — высокопроизводительный движок для GPU: батчинг запросов, PagedAttention, потоковая генерация. Держит десятки одновременных пользователей на одной карте. Выбор для нагруженного бота или внутреннего ассистента на всю компанию.

Способ 3. TGI — Text Generation Inference от Hugging Face

TGI — production-сервер от Hugging Face. По возможностям близок к vLLM, глубже интегрирован в экосистему HF и Sabi-/HF-Inference. Удобен, если вы уже работаете с Hugging Face Hub.

Сравнение способов

Способ Железо Бюджет старт Время до первого ответа Пропускная способность Кому подходит
Ollama Любой CPU / GPU 0 ₽ 5 мин Низкая–средняя Демо, тесты, малый бизнес, ноутбуки
vLLM NVIDIA GPU (8–80 ГБ) 0 ₽ (ПО) + сервер 30–60 мин Высокая (batching) Production-боты, RAG под нагрузкой
TGI NVIDIA GPU 0 ₽ (ПО) + сервер 30–60 мин Высокая Команды в экосистеме Hugging Face

Правило выбора: начинаете с Ollama (за 5 минут поймёте, устраивает ли качество), а когда бот вырастает до сотен запросов в час — переезжаете на vLLM на том же GPU. API у обоих OpenAI-совместимый, поэтому код менять почти не нужно.

Пошаговая установка Ollama и запуск моделей

Шаг 1. Установка Ollama

На Linux (сервер или VPS) — одной командой:

curl -fsSL https://ollama.com/install.sh | sh

На macOS — через Homebrew или тот же скрипт:

brew install ollama

Проверяем установку:

ollama --version
# ollama version is 0.x.x

Шаг 2. Запуск Llama, Qwen или Saiga

Ollama хранит модели в реестре как Docker-образы. Скачивание и запуск — одной командой:

# Qwen 2.5 — лучший русский из открытых (рекомендуем для бизнеса)
ollama run qwen2.5:14b

# Llama 3.1 от Meta — сильный английский и код
ollama run llama3.1:8b

# Saiga — русскоязычный fine-tune на базе Llama
ollama run saiga:8b

# Тяжёлая модель уровня GPT-4 (нужно 48+ ГБ RAM или GPU)
ollama run qwen2.5:72b

Первый запуск скачает веса (от 5 ГБ для 7B до 40+ ГБ для 72B) и откроет интерактивный чат прямо в терминале. Это уже полноценный локальный ChatGPT.

Шаг 3. Запуск как API-сервер

Чтобы к модели можно было обращаться из бота и веб-интерфейса, запустите Ollama как сервис:

# Демон слушает порт 11434
ollama serve

# Проверка
curl http://localhost:11434/api/tags

Для Linux оформим автозапуск через systemd (/etc/systemd/system/ollama.service):

[Unit]
Description=Ollama LLM Server
After=network.target

[Service]
Type=simple
User=ollama
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=5
Environment=OLLAMA_HOST=0.0.0.0:11434
Environment=OLLAMA_ORIGINS=*

[Install]
WantedBy=multi-user.target
sudo systemctl enable --now ollama

Шаг 4. Первый запрос через OpenAI-совместимый API

Ollama повторяет API OpenAI на порту 11434 — поэтому любой код, написанный под ChatGPT, работает без изменений, меняется только base_url:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5:14b",
    "messages": [
      {"role": "system", "content": "Ты — ассистент службы поддержки. Отвечай кратко."},
      {"role": "user", "content": "Как оформить возврат товара?"}
    ],
    "temperature": 0.3
  }'

Тот же вызов из Python через официальный OpenAI SDK:

from openai import OpenAI

llm = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")  # api_key не нужен, но поле обязательное

resp = llm.chat.completions.create(
    model="qwen2.5:14b",
    messages=[
        {"role": "system", "content": "Ты — финансовый аналитик."},
        {"role": "user", "content": "Посчитай ROI: вложили 500 000 ₽, экономия 80 000 ₽/мес."}
    ],
    temperature=0.3,
)
print(resp.choices[0].message.content)

Шаг 5. GigaChat от Сбера: подключение по API (данные в РФ)

У GigaChat нет открытых весов для самостоятельного хостинга — это облачный сервис Сбера. Но его данные физически хранятся и обрабатываются в России, поэтому по 152-ФЗ он легален, в отличие от ChatGPT/Claude. Это «полулокальный» вариант: модель в облаке РФ, а не на вашей машине.

Получаем access-токен (нужен Authorization Key из кабинета разработчика Сбера):

# 1. Обмен Authorization Key на JWT-токен
ACCESS_TOKEN=$(curl -s -X POST "https://ngw.devices.sberbank.ru:9443/api/v2/oauth" \
  -H "Authorization: Basic $GIGACHAT_AUTH_KEY" \
  -H "RqUID: $(uuidgen)" \
  -H "Content-Type: application/x-www-form-urlencoded" \
  -d "scope=GIGACHAT_API_PERS" | jq -r .access_token)

# 2. Запрос к модели
curl -s "https://gigachat.devices.sberbank.ru/api/v1/chat/completions" \
  -H "Authorization: Bearer $ACCESS_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "GigaChat",
    "messages": [{"role": "user", "content": "Сформулируй оффер для лендинга цветов"}]
  }'

Если вам нужен полностью свой сервер с российской моделью — берите открытые веса: Saiga, T-lite от Т-Банка или ruGPT от Сбера (старая линейка). А сравнение облачных российских моделей — в разборе GigaChat vs YandexGPT.

Своя кастомная модель через Modelfile

Ollama умеет создавать кастомные модели с системным промптом и настройками — как системную инструкцию для вашего бизнеса:

# Modelfile
FROM qwen2.5:14b
SYSTEM "Ты — ассистент магазина цветов 'Роза'. Отвечай вежливо, предлагай букеты из наличия, не выдумывай цены."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192
ollama create shop-bot -f Modelfile
ollama run shop-bot

Теперь по model: "shop-bot" вы получаете бота, заточенного под вашу нишу, без fine-tuning.

Подключение Open WebUI — интерфейс как у ChatGPT

Командная строка удобна для тестов, но пользователям нужен веб-чат. Open WebUI — это open-source интерфейс, похожий на ChatGPT, с историей чатов, ролями, загрузкой документов (RAG) и подключением к Ollama из коробки.

docker-compose.yml: Ollama + Open WebUI за один запуск

services:
  ollama:
    image: ollama/ollama:latest
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
    # Если есть NVIDIA GPU — раскомментируйте блок ниже:
    # deploy:
    #   resources:
    #     reservations:
    #       devices:
    #         - driver: nvidia
    #           count: all
    #           capabilities: [gpu]

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    ports:
      - "3000:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open-webui_data:/app/backend/data
    depends_on:
      - ollama

volumes:
  ollama_data:
  open-webui_data:
docker compose up -d

# Скачиваем модель внутрь контейнера Ollama
docker exec -it $(docker compose ps -q ollama) ollama pull qwen2.5:14b

Открываем http://ваш-сервер:3000, регистрируем первого пользователя (он становится админом), выбираем модель qwen2.5:14b — и получаем собственный ChatGPT с историей, загрузкой PDF и разделением по пользователям. Всё работает внутри вашей инфраструктуры.

Быстрый вариант одной командой

Если Ollama уже запущен на хосте, Open WebUI поднимается так:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Production: vLLM и TGI на сервере с GPU

Когда бот выходит из стадии демо и должен держать десятки одновременных диалогов, Ollama становится узким местом. Тут на сцену выходит vLLM.

vLLM — запуск одной Docker-командой

docker run --gpus all -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --rm vllm/vllm-openai:latest \
  --model Qwen/Qwen2.5-14B-Instruct \
  --tensor-parallel-size 1 \
  --max-model-len 8192 \
  --gpu-memory-utilization 0.9

vLLM сразу поднимает OpenAI-совместимый API на http://localhost:8000/v1. Благодаря PagedAttention и непрерывному батчингу он обрабатывает десятки запросов параллельно на одной GPU — там, где Ollama ставит их в очередь.

TGI — альтернатива от Hugging Face

docker run --gpus all -p 8080:80 \
  -v $PWD/data:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id Qwen/Qwen2.5-7B-Instruct \
  --max-input-length 2048 --max-total-tokens 4096

Оба движка дают одинаковый API, поэтому переключение между Ollama → vLLM → TGI в коде сводится к смене base_url и model. Начните с Ollama, нагрузку держит vLLM.

Сколько нужно железа под vLLM

Модель VRAM минимум Карта Скорость (токенов/сек)
Qwen 2.5 7B 8–10 ГБ RTX 4060 / 3090 60–90
Qwen 2.5 14B 16–20 ГБ RTX 4090 / A10 40–60
Qwen 2.5 32B 40–48 ГБ RTX 4090 ×2 / A100 40ГБ 20–35
Qwen 2.5 72B 80+ ГБ A100 80ГБ / H100 10–20

Подключение локальной LLM к своему Telegram-боту

Самая частая задача — сделать умного бота, который отвечает на вопросы клиентов, без оплаты токенов и с данными в РФ. Ollama даёт API, совместимый с OpenAI, поэтому бот пишется ровно так же, как под ChatGPT.

Вариант на Node.js (Telegraf)

import { Telegraf } from "telegraf";
import OpenAI from "openai";

const bot = new Telegraf(process.env.TG_TOKEN);

const llm = new OpenAI({
  baseURL: "http://localhost:11434/v1", // локальная модель вместо OpenAI
  apiKey: "ollama",                     // заглушка, Ollama ключ не проверяет
});

bot.on("text", async (ctx) => {
  await ctx.sendChatAction("typing");
  const completion = await llm.chat.completions.create({
    model: "qwen2.5:14b",               // или ваш кастомный "shop-bot"
    messages: [
      { role: "system", content: "Ты — помощник интернет-магазина. Отвечай кратко, вежливо, по делу." },
      { role: "user", content: ctx.message.text },
    ],
    temperature: 0.3,
  });
  await ctx.reply(completion.choices[0].message.content);
});

bot.launch();

Вариант на Python (telebot)

import os, telebot
from openai import OpenAI

bot = telebot.TeleBot(os.environ["TG_TOKEN"])
llm = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

@bot.message_handler(func=lambda m: True)
def answer(m):
    r = llm.chat.completions.create(
        model="qwen2.5:14b",
        messages=[
            {"role": "system", "content": "Ты — помощник магазина. Отвечай кратко."},
            {"role": "user", "content": m.text},
        ],
        temperature=0.3,
    )
    bot.reply_to(m, r.choices[0].message.content)

bot.infinity_polling()

Без кода: SaleBot и Chatplace

Не хотите писать код — используйте конструкторы. SaleBot и Chatplace позволяют собрать Telegram-бота визуально и подключить внешнее API: вы указываете http://ваш-сервер:11434/v1/chat/completions в HTTP-блоке, и бот начинает отвечать на вашей локальной модели. Это удобно для воронок продаж, квизов и автосообщений — прямо как с облачной моделью, только бесплатно и без передачи данных за рубеж.

Сквозная связка: бот + оплата + CRM

Локальный «мозг» отлично встраивается в полноценную автоворонку:

Получается замкнутый контур «привлечение → AI-общение → оплата → CRM», и вся переписка с клиентом, включая персональные данные, остаётся на вашем сервере в России.

RAG: научите свой ChatGPT вашей базе знаний

Голая модель не знает ваших регламентов, каталога и FAQ. Добавьте RAG (Retrieval-Augmented Generation): векторная база + поиск релевантных документов + ответ модели на их основе. Всё локально:

from qdrant_client import QdrantClient
from sentence_transformers import SentenceTransformer
from openai import OpenAI

encoder = SentenceTransformer("cointegrated/rubert-tiny2")          # локальные эмбеддинги
qdrant = QdrantClient(host="localhost", port=6333)                   # локальная векторная БД
llm = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") # локальная LLM

query = "Как оформить возврат?"
hits = qdrant.search(
    collection_name="docs",
    query_vector=encoder.encode(query).tolist(),
    limit=3,
)
context = "\n".join([h.payload["text"] for h in hits])

resp = llm.chat.completions.create(
    model="qwen2.5:14b",
    messages=[
        {"role": "system", "content": f"Отвечай строго по контексту:\n{context}"},
        {"role": "user", "content": query},
    ],
)
print(resp.choices[0].message.content)

Документы, эмбеддинги, поиск и генерация — ничего не покидает ваш сервер. Это идеальная основа для внутреннего ассистента по регламентам, базе договоров или каталогу.

Сметы 2026: что реально стоит

Бюджет 0 ₽ — пробуем на ноутбуке

Ollama + Qwen 2.5 7B/14B на MacBook или рабочем ноутбуке с 16 ГБ RAM. Годится для тестов, прототипа бота и оценки качества. Подробнее про выбор модели — в гайде по LLM для бизнеса.

Бюджет ~35 000 ₽/мес — аренда GPU VPS

VPS с RTX 4060/4090 (Timeweb Cloud, Selectel, RuVDS) + vLLM + Qwen 2.5 14B/32B. Держит production-бота для среднего бизнеса.

Бюджет ~250 000 ₽ — свой сервер (разово)

Сервер с одной RTX 4090 (64 ГБ RAM, Ryzen/EPYC). Ollama или vLLM, Qwen 2.5 32B. Дальше — только электричество и администрирование (~5 000 ₽/мес). Окупается за 4–6 месяцев против облачных подписок. Помочь выбрать железо и связку под нагрузку — облачный бот или свой сервер.

Программное обеспечение во всех вариантах бесплатное: Ollama, vLLM, TGI, Open WebUI, Qdrant — open-source. Платите только за железо (или аренду) и электричество.

Когда стоит обращаться к подрядчику

Сама по себе установка Ollama — это 5 минут и нулевой бюджет. Но превратить локальную модель в production-систему (надёжный бот под нагрузкой, RAG на ваших документах, интеграция с amoCRM/Bitrix24, оплата по 54-ФЗ, мониторинг и бэкапы) — это уже инженерная задача на недели. Мы в Flow Masters занимаемся именно этим: подбираем железо под вашу нагрузку, деплоим vLLM/Ollama, подключаем бота, оплаты (Точка, ЮKassa, Prodamus, СБП) и CRM, настраиваем базу знаний. Развернуть первый рабочий контур обычно занимает 1–2 недели. Если интересно — напишите нам.

Итог

Локальные LLM в России в 2026 году — это не сложно и не дорого:

  1. Запуск за 5 минут. curl ... | sh + ollama run qwen2.5:14b — и у вас свой ChatGPT с OpenAI-совместимым API.
  2. Законно по 152-ФЗ. Данные обрабатываются на сервере в РФ, без трансграничной передачи.
  3. Дёшево в перспективе. Ноутбук — 0 ₽, свой GPU-сервер окупается за 4–6 месяцев, дальше почти бесплатно.
  4. Качество на уровне GPT-4. Qwen 2.5 32B/72B отлично работают на русском; GigaChat подключается по API с данными в РФ.
  5. Готово к интеграции. Open WebUI даёт веб-интерфейс, к Ollama/VK API подключается Telegram-бот, оплаты и CRM встают в общую автоворонку.

Начните с малого: поставьте Ollama, запустите Qwen 2.5 14B, прогоните 10 типовых задач. Если качество устроит — масштабируйте на vLLM и свой сервер. Если нужна помощь с деплоем и интеграцией — мы рядом.


📚 Читайте также

💡 Нужна помощь с автоматизацией?

Обсудим ваш проект — консультация бесплатная

Обсудить проект
Все статьи

Начните экономить уже сегодня

Выберите удобный способ связи — ответим за 30 минут

Оставьте заявку

Получите персональный расчёт стоимости

Нажимая кнопку, вы даёте согласие на обработку персональных данных в соответствии с ФЗ-152 «О персональных данных».

Расчёт стоимости

Начните с самого популярного тарифа

Бесплатная консультация
Прототип за 3 дня
Гарантия результата