Как развернуть локальный ChatGPT на своём сервере: Ollama + vLLM в 2026
Свой ChatGPT в России разворачивается одной командой: curl -fsSL https://ollama.com/install.sh | sh, затем ollama run qwen2.5:14b. Через 5 минут у вас есть локальные LLM с OpenAI-совместимым API, данные не покидают ваш сервер, нет лимитов и счетов за токены, а платное ПО не нужно. Это ответ на запрос «локальные llm россия свой chatgpt»: бесплатная языковая модель на вашем железе в РФ, законная по 152-ФЗ и независимая от VPN и зарубежных облаков.
В 2026 году открытых моделей уровня GPT-4 стало много: Qwen 2.5 (лучший русский), Llama 3.1, Saiga и T-lite от Т-Банка. Их можно запускать локально через три инструмента — Ollama, vLLM и TGI — на ноутбуке за 0 ₽, на арендованном GPU-сервере или на собственном железе. Мы в Flow Masters используем локальные модели примерно в трети проектов: для ботов под 152-ФЗ, внутренних ассистентов на базе знаний и обработки чувствительных данных. В этой статье — пошаговое руководство: от установки Ollama за 5 минут до подключения локального «ChatGPT» к Telegram-боту и CRM.
Что вы узнаете
- Зачем бизнесу в России свой локальный ChatGPT: 152-ФЗ, приватность, стоимость.
- Три способа запуска за разный бюджет: Ollama (ноутбук, 0 ₽), vLLM (production GPU), TGI.
- Пошаговая установка Ollama и запуск Llama, Qwen и GigaChat от Сбера.
- Подключение Open WebUI — графического интерфейса как у ChatGPT.
- Подключение локальной модели к собственному Telegram-боту (Node.js + Python).
- Реальные сметы 2026 и сравнение с облаком.
Зачем бизнесу локальные LLM в России
152-ФЗ: персональные данные не должны уезжать за рубеж
Федеральный закон 152-ФЗ «О персональных данных» требует хранить и обрабатывать персональные данные россиян на серверах, физически расположенных в РФ, и запрещает трансграничную передачу без согласия субъекта и уведомления Роскомнадзора. Штрафы для юрлиц — до 18 млн ₽, а с 2026 года enforcement усиливается блокировками.
Когда вы шлёте запрос в ChatGPT (OpenAI), Claude (Anthropic) или Gemini (Google), данные летят на серверы в США. Даже без явного имени клиента контекст (телефон, сумма сделки, ИНН, переписка) — это уже персональные данные. Для банка, клиники, госсектора, юрфирмы и любого, кто работает с клиентской базой, это прямой риск. Локальная модель обрабатывает всё на вашем сервере в России — передачи за рубеж нет, 152-ФЗ соблюдён. Подробнее про Compliance в ботах — в отдельном разборе по 152-ФЗ для чат-ботов.
Приватность и независимость от VPN
Зарубежные ИИ-сервисы в РФ доступны только через VPN, который дорог, нестабилен и сам по себе риск. Российские облака (YandexGPT, GigaChat) работают напрямую, но зависят от интернета и тарифов провайдера. Локальная модель работает без интернета вообще — критично для филиалов в регионах, мобильных сотрудников и закрытого контура. Никаких лимитов на запросы и surprise-счетов за перерасход токенов.
Стоимость: окупаемость за 4–6 месяцев
Облако — это подписка навсегда: чем активнее используете, тем больше платите. Локальная модель — разовая инвестиция в железо, дальше почти бесплатно.
| Вариант | Входные затраты | Цена в месяц | Через 1 год |
|---|---|---|---|
| ChatGPT Plus / API (зарубеж) + VPN | ~0 ₽ | ~3 000–15 000 ₽ + VPN | 36 000–180 000 ₽ |
| GigaChat / YandexGPT (облако РФ) | 0 ₽ | 3 000–15 000 ₽ | 36 000–180 000 ₽ |
| Свой сервер (RTX 4090) | ~250 000 ₽ | ~5 000 ₽ | ~310 000 ₽, далее ~60 000 ₽/год |
| Аренда GPU VPS | 0 ₽ | 35 000 ₽ | 420 000 ₽ |
| Ноутбук (Ollama) | 0 ₽ | 0 ₽ | 0 ₽ |
Своя железка окупается за 4–6 месяцев активного использования и дальше экономит. Для лёгких задач хватит и ноутбука за 0 ₽.
Три способа запуска за разный бюджет
Инструментов для локального вывода несколько. Вот три основных — выбирайте по бюджету и нагрузке.
Способ 1. Ollama — на ноутбуке за 5 минут (0 ₽)
Ollama — самый простой способ. Одна команда ставит движок, вторая — запускает модель. Работает на CPU и GPU, API совместим с OpenAI. Идеален для тестов, разработки и небольших ботов.
Способ 2. vLLM — production на сервере с GPU
vLLM — высокопроизводительный движок для GPU: батчинг запросов, PagedAttention, потоковая генерация. Держит десятки одновременных пользователей на одной карте. Выбор для нагруженного бота или внутреннего ассистента на всю компанию.
Способ 3. TGI — Text Generation Inference от Hugging Face
TGI — production-сервер от Hugging Face. По возможностям близок к vLLM, глубже интегрирован в экосистему HF и Sabi-/HF-Inference. Удобен, если вы уже работаете с Hugging Face Hub.
Сравнение способов
| Способ | Железо | Бюджет старт | Время до первого ответа | Пропускная способность | Кому подходит |
|---|---|---|---|---|---|
| Ollama | Любой CPU / GPU | 0 ₽ | 5 мин | Низкая–средняя | Демо, тесты, малый бизнес, ноутбуки |
| vLLM | NVIDIA GPU (8–80 ГБ) | 0 ₽ (ПО) + сервер | 30–60 мин | Высокая (batching) | Production-боты, RAG под нагрузкой |
| TGI | NVIDIA GPU | 0 ₽ (ПО) + сервер | 30–60 мин | Высокая | Команды в экосистеме Hugging Face |
Правило выбора: начинаете с Ollama (за 5 минут поймёте, устраивает ли качество), а когда бот вырастает до сотен запросов в час — переезжаете на vLLM на том же GPU. API у обоих OpenAI-совместимый, поэтому код менять почти не нужно.
Пошаговая установка Ollama и запуск моделей
Шаг 1. Установка Ollama
На Linux (сервер или VPS) — одной командой:
curl -fsSL https://ollama.com/install.sh | shНа macOS — через Homebrew или тот же скрипт:
brew install ollamaПроверяем установку:
ollama --version
# ollama version is 0.x.xШаг 2. Запуск Llama, Qwen или Saiga
Ollama хранит модели в реестре как Docker-образы. Скачивание и запуск — одной командой:
# Qwen 2.5 — лучший русский из открытых (рекомендуем для бизнеса)
ollama run qwen2.5:14b
# Llama 3.1 от Meta — сильный английский и код
ollama run llama3.1:8b
# Saiga — русскоязычный fine-tune на базе Llama
ollama run saiga:8b
# Тяжёлая модель уровня GPT-4 (нужно 48+ ГБ RAM или GPU)
ollama run qwen2.5:72bПервый запуск скачает веса (от 5 ГБ для 7B до 40+ ГБ для 72B) и откроет интерактивный чат прямо в терминале. Это уже полноценный локальный ChatGPT.
Шаг 3. Запуск как API-сервер
Чтобы к модели можно было обращаться из бота и веб-интерфейса, запустите Ollama как сервис:
# Демон слушает порт 11434
ollama serve
# Проверка
curl http://localhost:11434/api/tagsДля Linux оформим автозапуск через systemd (/etc/systemd/system/ollama.service):
[Unit]
Description=Ollama LLM Server
After=network.target
[Service]
Type=simple
User=ollama
ExecStart=/usr/local/bin/ollama serve
Restart=always
RestartSec=5
Environment=OLLAMA_HOST=0.0.0.0:11434
Environment=OLLAMA_ORIGINS=*
[Install]
WantedBy=multi-user.targetsudo systemctl enable --now ollamaШаг 4. Первый запрос через OpenAI-совместимый API
Ollama повторяет API OpenAI на порту 11434 — поэтому любой код, написанный под ChatGPT, работает без изменений, меняется только base_url:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen2.5:14b",
"messages": [
{"role": "system", "content": "Ты — ассистент службы поддержки. Отвечай кратко."},
{"role": "user", "content": "Как оформить возврат товара?"}
],
"temperature": 0.3
}'Тот же вызов из Python через официальный OpenAI SDK:
from openai import OpenAI
llm = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") # api_key не нужен, но поле обязательное
resp = llm.chat.completions.create(
model="qwen2.5:14b",
messages=[
{"role": "system", "content": "Ты — финансовый аналитик."},
{"role": "user", "content": "Посчитай ROI: вложили 500 000 ₽, экономия 80 000 ₽/мес."}
],
temperature=0.3,
)
print(resp.choices[0].message.content)Шаг 5. GigaChat от Сбера: подключение по API (данные в РФ)
У GigaChat нет открытых весов для самостоятельного хостинга — это облачный сервис Сбера. Но его данные физически хранятся и обрабатываются в России, поэтому по 152-ФЗ он легален, в отличие от ChatGPT/Claude. Это «полулокальный» вариант: модель в облаке РФ, а не на вашей машине.
Получаем access-токен (нужен Authorization Key из кабинета разработчика Сбера):
# 1. Обмен Authorization Key на JWT-токен
ACCESS_TOKEN=$(curl -s -X POST "https://ngw.devices.sberbank.ru:9443/api/v2/oauth" \
-H "Authorization: Basic $GIGACHAT_AUTH_KEY" \
-H "RqUID: $(uuidgen)" \
-H "Content-Type: application/x-www-form-urlencoded" \
-d "scope=GIGACHAT_API_PERS" | jq -r .access_token)
# 2. Запрос к модели
curl -s "https://gigachat.devices.sberbank.ru/api/v1/chat/completions" \
-H "Authorization: Bearer $ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"model": "GigaChat",
"messages": [{"role": "user", "content": "Сформулируй оффер для лендинга цветов"}]
}'Если вам нужен полностью свой сервер с российской моделью — берите открытые веса: Saiga, T-lite от Т-Банка или ruGPT от Сбера (старая линейка). А сравнение облачных российских моделей — в разборе GigaChat vs YandexGPT.
Своя кастомная модель через Modelfile
Ollama умеет создавать кастомные модели с системным промптом и настройками — как системную инструкцию для вашего бизнеса:
# Modelfile
FROM qwen2.5:14b
SYSTEM "Ты — ассистент магазина цветов 'Роза'. Отвечай вежливо, предлагай букеты из наличия, не выдумывай цены."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192ollama create shop-bot -f Modelfile
ollama run shop-botТеперь по model: "shop-bot" вы получаете бота, заточенного под вашу нишу, без fine-tuning.
Подключение Open WebUI — интерфейс как у ChatGPT
Командная строка удобна для тестов, но пользователям нужен веб-чат. Open WebUI — это open-source интерфейс, похожий на ChatGPT, с историей чатов, ролями, загрузкой документов (RAG) и подключением к Ollama из коробки.
docker-compose.yml: Ollama + Open WebUI за один запуск
services:
ollama:
image: ollama/ollama:latest
ports:
- "11434:11434"
volumes:
- ollama_data:/root/.ollama
# Если есть NVIDIA GPU — раскомментируйте блок ниже:
# deploy:
# resources:
# reservations:
# devices:
# - driver: nvidia
# count: all
# capabilities: [gpu]
open-webui:
image: ghcr.io/open-webui/open-webui:main
ports:
- "3000:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- open-webui_data:/app/backend/data
depends_on:
- ollama
volumes:
ollama_data:
open-webui_data:docker compose up -d
# Скачиваем модель внутрь контейнера Ollama
docker exec -it $(docker compose ps -q ollama) ollama pull qwen2.5:14bОткрываем http://ваш-сервер:3000, регистрируем первого пользователя (он становится админом), выбираем модель qwen2.5:14b — и получаем собственный ChatGPT с историей, загрузкой PDF и разделением по пользователям. Всё работает внутри вашей инфраструктуры.
Быстрый вариант одной командой
Если Ollama уже запущен на хосте, Open WebUI поднимается так:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:mainProduction: vLLM и TGI на сервере с GPU
Когда бот выходит из стадии демо и должен держать десятки одновременных диалогов, Ollama становится узким местом. Тут на сцену выходит vLLM.
vLLM — запуск одной Docker-командой
docker run --gpus all -p 8000:8000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--rm vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-14B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 8192 \
--gpu-memory-utilization 0.9vLLM сразу поднимает OpenAI-совместимый API на http://localhost:8000/v1. Благодаря PagedAttention и непрерывному батчингу он обрабатывает десятки запросов параллельно на одной GPU — там, где Ollama ставит их в очередь.
TGI — альтернатива от Hugging Face
docker run --gpus all -p 8080:80 \
-v $PWD/data:/data \
ghcr.io/huggingface/text-generation-inference:latest \
--model-id Qwen/Qwen2.5-7B-Instruct \
--max-input-length 2048 --max-total-tokens 4096Оба движка дают одинаковый API, поэтому переключение между Ollama → vLLM → TGI в коде сводится к смене base_url и model. Начните с Ollama, нагрузку держит vLLM.
Сколько нужно железа под vLLM
| Модель | VRAM минимум | Карта | Скорость (токенов/сек) |
|---|---|---|---|
| Qwen 2.5 7B | 8–10 ГБ | RTX 4060 / 3090 | 60–90 |
| Qwen 2.5 14B | 16–20 ГБ | RTX 4090 / A10 | 40–60 |
| Qwen 2.5 32B | 40–48 ГБ | RTX 4090 ×2 / A100 40ГБ | 20–35 |
| Qwen 2.5 72B | 80+ ГБ | A100 80ГБ / H100 | 10–20 |
Подключение локальной LLM к своему Telegram-боту
Самая частая задача — сделать умного бота, который отвечает на вопросы клиентов, без оплаты токенов и с данными в РФ. Ollama даёт API, совместимый с OpenAI, поэтому бот пишется ровно так же, как под ChatGPT.
Вариант на Node.js (Telegraf)
import { Telegraf } from "telegraf";
import OpenAI from "openai";
const bot = new Telegraf(process.env.TG_TOKEN);
const llm = new OpenAI({
baseURL: "http://localhost:11434/v1", // локальная модель вместо OpenAI
apiKey: "ollama", // заглушка, Ollama ключ не проверяет
});
bot.on("text", async (ctx) => {
await ctx.sendChatAction("typing");
const completion = await llm.chat.completions.create({
model: "qwen2.5:14b", // или ваш кастомный "shop-bot"
messages: [
{ role: "system", content: "Ты — помощник интернет-магазина. Отвечай кратко, вежливо, по делу." },
{ role: "user", content: ctx.message.text },
],
temperature: 0.3,
});
await ctx.reply(completion.choices[0].message.content);
});
bot.launch();Вариант на Python (telebot)
import os, telebot
from openai import OpenAI
bot = telebot.TeleBot(os.environ["TG_TOKEN"])
llm = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
@bot.message_handler(func=lambda m: True)
def answer(m):
r = llm.chat.completions.create(
model="qwen2.5:14b",
messages=[
{"role": "system", "content": "Ты — помощник магазина. Отвечай кратко."},
{"role": "user", "content": m.text},
],
temperature=0.3,
)
bot.reply_to(m, r.choices[0].message.content)
bot.infinity_polling()Без кода: SaleBot и Chatplace
Не хотите писать код — используйте конструкторы. SaleBot и Chatplace позволяют собрать Telegram-бота визуально и подключить внешнее API: вы указываете http://ваш-сервер:11434/v1/chat/completions в HTTP-блоке, и бот начинает отвечать на вашей локальной модели. Это удобно для воронок продаж, квизов и автосообщений — прямо как с облачной моделью, только бесплатно и без передачи данных за рубеж.
Сквозная связка: бот + оплата + CRM
Локальный «мозг» отлично встраивается в полноценную автоворонку:
- Telegram-бот на локальной LLM квалифицирует лида и отвечает 24/7.
- Оплата принимается прямо в боте: ЮKassa (аквайринг ~2,8% для самозанятых/ИП), Точка Банк (от 1,4%), Prodamus (1,7–4%), Robokassa (от 3%) или СБП (0,4–0,7% для бизнеса — самый выгодный вариант). Подробнее — в гайде по эквайрингу для ИП и приёму оплат в боте по 54-ФЗ.
- CRM: сделка автоматически создаётся в amoCRM или Bitrix24, лиды распределяются по менеджерам. Разбор — в интеграции CRM и мессенджеров и боте amoCRM + Telegram.
Получается замкнутый контур «привлечение → AI-общение → оплата → CRM», и вся переписка с клиентом, включая персональные данные, остаётся на вашем сервере в России.
RAG: научите свой ChatGPT вашей базе знаний
Голая модель не знает ваших регламентов, каталога и FAQ. Добавьте RAG (Retrieval-Augmented Generation): векторная база + поиск релевантных документов + ответ модели на их основе. Всё локально:
from qdrant_client import QdrantClient
from sentence_transformers import SentenceTransformer
from openai import OpenAI
encoder = SentenceTransformer("cointegrated/rubert-tiny2") # локальные эмбеддинги
qdrant = QdrantClient(host="localhost", port=6333) # локальная векторная БД
llm = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama") # локальная LLM
query = "Как оформить возврат?"
hits = qdrant.search(
collection_name="docs",
query_vector=encoder.encode(query).tolist(),
limit=3,
)
context = "\n".join([h.payload["text"] for h in hits])
resp = llm.chat.completions.create(
model="qwen2.5:14b",
messages=[
{"role": "system", "content": f"Отвечай строго по контексту:\n{context}"},
{"role": "user", "content": query},
],
)
print(resp.choices[0].message.content)Документы, эмбеддинги, поиск и генерация — ничего не покидает ваш сервер. Это идеальная основа для внутреннего ассистента по регламентам, базе договоров или каталогу.
Сметы 2026: что реально стоит
Бюджет 0 ₽ — пробуем на ноутбуке
Ollama + Qwen 2.5 7B/14B на MacBook или рабочем ноутбуке с 16 ГБ RAM. Годится для тестов, прототипа бота и оценки качества. Подробнее про выбор модели — в гайде по LLM для бизнеса.
Бюджет ~35 000 ₽/мес — аренда GPU VPS
VPS с RTX 4060/4090 (Timeweb Cloud, Selectel, RuVDS) + vLLM + Qwen 2.5 14B/32B. Держит production-бота для среднего бизнеса.
Бюджет ~250 000 ₽ — свой сервер (разово)
Сервер с одной RTX 4090 (64 ГБ RAM, Ryzen/EPYC). Ollama или vLLM, Qwen 2.5 32B. Дальше — только электричество и администрирование (~5 000 ₽/мес). Окупается за 4–6 месяцев против облачных подписок. Помочь выбрать железо и связку под нагрузку — облачный бот или свой сервер.
Программное обеспечение во всех вариантах бесплатное: Ollama, vLLM, TGI, Open WebUI, Qdrant — open-source. Платите только за железо (или аренду) и электричество.
Когда стоит обращаться к подрядчику
Сама по себе установка Ollama — это 5 минут и нулевой бюджет. Но превратить локальную модель в production-систему (надёжный бот под нагрузкой, RAG на ваших документах, интеграция с amoCRM/Bitrix24, оплата по 54-ФЗ, мониторинг и бэкапы) — это уже инженерная задача на недели. Мы в Flow Masters занимаемся именно этим: подбираем железо под вашу нагрузку, деплоим vLLM/Ollama, подключаем бота, оплаты (Точка, ЮKassa, Prodamus, СБП) и CRM, настраиваем базу знаний. Развернуть первый рабочий контур обычно занимает 1–2 недели. Если интересно — напишите нам.
Итог
Локальные LLM в России в 2026 году — это не сложно и не дорого:
- Запуск за 5 минут.
curl ... | sh+ollama run qwen2.5:14b— и у вас свой ChatGPT с OpenAI-совместимым API. - Законно по 152-ФЗ. Данные обрабатываются на сервере в РФ, без трансграничной передачи.
- Дёшево в перспективе. Ноутбук — 0 ₽, свой GPU-сервер окупается за 4–6 месяцев, дальше почти бесплатно.
- Качество на уровне GPT-4. Qwen 2.5 32B/72B отлично работают на русском; GigaChat подключается по API с данными в РФ.
- Готово к интеграции. Open WebUI даёт веб-интерфейс, к Ollama/VK API подключается Telegram-бот, оплаты и CRM встают в общую автоворонку.
Начните с малого: поставьте Ollama, запустите Qwen 2.5 14B, прогоните 10 типовых задач. Если качество устроит — масштабируйте на vLLM и свой сервер. Если нужна помощь с деплоем и интеграцией — мы рядом.
📚 Читайте также
- Локальные LLM в России: свой ChatGPT без интернета — подробный референс — модели, железо, MLX, fine-tuning
- LLM для бизнеса: как выбрать модель
- GigaChat vs YandexGPT — сравнение российских моделей
- Telegram Bot API: руководство
- ИИ-автоматизация бизнеса в России — тренды и кейсы 2026
- Интеграция CRM и мессенджеров
- 152-ФЗ и чат-боты: персональные данные
AI-ассистент для бизнеса (Kit): корпоративный чат-бот без кода (152-ФЗ)
6 готовых system-prompts с переменными компании
Свой ChatGPT: локальный LLM-шлюз и OpenAI-совместимый API (152-ФЗ)
OpenAI-совместимый API на localhost:8080
Приватный RAG-ассистент: чат с вашими документами офлайн (152-ФЗ)
100% офлайн RAG — данные не покидают ваш Mac (152-ФЗ)