Serverless LLM API на GPU — платите только за токены
Выбирайте модели из каталога и подключайте как обычный API. Никаких VM, DevOps и простаивающих GPU — стоимость считается по входным/выходным токенам.
- Модели из каталога → endpoint сразу готов
- Ключи, квоты, лимиты конкуррентности
- Понятная стоимость на нагрузке: токены
Serverless endpoint (pay-per-token)
BASH
# Serverless LLM API (pay-per-token)
# 1) Выберите модель из каталога
# 2) Получите endpoint URL и ключ
# 3) Платите только за токены
curl -X POST https://api.primeway.io/v1/chat/completions \
-H "Authorization: Bearer $PRIMEWAY_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"model":"qwen2.5-72b-instruct",
"messages":[{"role":"user","content":"Привет! Суммируй текст..."}]
}'Идеально для продукта: тестируйте гипотезы, держите бюджет под контролем и подключайте LLM как сервис.
Сценарии
Один продукт — четыре режима работы
Начните с самого простого: serverless модели с оплатой за токены. Если нужно больше контроля — контейнеры, no-code деплой/дообучение или batch-задачи. Везде — автоскейл и понятная экономика.
Готовые LLM как API: подключайте endpoint и платите по факту использования (input/output токены).
- каталог моделей
- квоты/лимиты
- pay-per-token
Разворачивайте кастомные образы и серверы инференса: автоскейл 0→N, таймауты, прогрев, лимиты.
- CLI / API / UI
- скейл до 0 при простое
- оплата за GPU-время
Дообучайте open-source модели на своих данных через UI: параметры, очереди, GPU — всё на стороне платформы.
- no-code запуск обучения
- контроль данных
- результат готов к деплою
Запускайте периодические задачи: генерация данных, оффлайн-скоринг, обработка очередей, эксперименты.
- повторяемые конфиги
- масштабирование под объём
- GPU только когда нужно
Рекомендуемый старт: serverless → потом “углубляйтесь”
Начните с pay-per-token API, чтобы быстро подключить модель в продукт. Если нужен кастомный рантайм или специфические настройки — переходите на контейнеры / no-code / jobs.
Почему это удобнее обычного GPU-облака
В классической модели вы арендуете VM и платите за “жизнь сервера”. Здесь — два удобных тарифа: serverless токены для API-моделей и GPU-время для кастомных контейнеров/задач, плюс автоскейл и scale-to-zero.
Для serverless моделей: интеграция как с обычным LLM API. Платите по факту запроса (токены), без аренды GPU.
- быстрый старт
- квоты и лимиты
- понятная стоимость
Для контейнеров/джоб: ресурсы могут отключаться при простое. Это экономит бюджет при неровной нагрузке.
- idle не оплачивается
- таймауты и расписания
- автоскейл 0→N
Один путь от эксперимента до продакшена: инженерам — YAML/CI, продукту — быстрый запуск через no-code.
- serverless модели (токены)
- no-code deploy/fine-tune
- CLI/API для интеграции
No-code: деплой и дообучение open-source моделей
Когда нужен результат “сейчас”: выбираете модель, настраиваете ресурсы и публикуете endpoint. Нужна адаптация под домен? Запускаете fine-tune в UI и деплоите результат — тоже no-code.
Деплойте open-source модели в пару кликов: GPU, автоскейл, лимиты — и сразу получаете API URL для продукта.
- каталог моделей и шаблоны
- endpoint за минуты
- скейл до 0 при простое
Запускайте дообучение без инфраструктурных задач: подключили данные → выбрали параметры → старт.
- для доменных ассистентов
- для инструкций и качества
- понятные статусы и логи
После fine-tune вы деплоите получившуюся модель тем же no-code способом и сразу отдаёте в продукт как endpoint.
Как это работает
Быстрый старт — serverless API (токены). Нужен кастом — контейнеры/джобы. Нужен UI — no-code. В любом варианте платформа сама управляет ресурсами и масштабированием.
1) Выберите режим
Serverless токены, контейнеры инференса, no-code деплой/дообучение или batch jobs.
2) Настройте лимиты и контроль
Ключи, квоты, конкуррентность, таймауты, расписания — чтобы держать стоимость.
3) Запускайте и масштабируйте
Автоскейл под реальный трафик/очередь, логирование и наблюдаемость.
На выходе
Что именно вы получите
Не «просто GPU». PrimeWay даёт готовый продакшен-артефакт: serverless endpoint с оплатой за токены или воспроизводимую контейнерную джобу/endpoint с автоскейлом.
Готовый URL для интеграции в продукт — за минуты.
Токены/ключи, разделение по проектам и роли.
Конкуррентность, таймауты, квоты — контроль затрат.
Под трафик и очередь задач — включая scale-to-zero.
История запусков и логи контейнеров/эндпоинтов.
Понимание нагрузки/ошибок/latency и затрат (по режиму).
Модели как API: счётчик крутится только на токенах
Это “идеальный вход” в воронку: быстро подключили модель в продукт, померили юнит-экономику, поставили лимиты. Когда потребуется кастомный рантайм — перейдёте к контейнерам и GPU-задачам.
Без аренды GPU по часам — удобно для продукта.
Квоты, конкуррентность, таймауты, лимиты.
Endpoint за минуты — без DevOps и инфраструктуры.
Ключи, роли, изоляция — чтобы безопасно в команду.
Как это выглядит для разработчика
OpenAI-совместимый запрос / привычный формат
POST /v1/chat/completions
Authorization: Bearer $PRIMEWAY_TOKEN
{"model":"qwen2.5-72b-instruct","messages":[...]}Что важно для продукта
- лимитируете конкуррентность и max tokens
- ставите квоты на проект/ключ
- считаете стоимость “на фичу” по токенам
GPU и ориентиры по цене
Ниже — примерная витрина (часть ассортимента). Точные цены и наличие лучше смотреть в кабинете.
RTX 2000 Ada
VRAM: 16 GB
55 ₽/ч
A40
VRAM: 48 GB
90 ₽/ч
RTX 4090
VRAM: 24 GB
130 ₽/ч
RTX 6000 Ada
VRAM: 48 GB
140 ₽/ч
L40S
VRAM: 48 GB
175 ₽/ч
A100 (80 GB)
VRAM: 80 GB
260–299 ₽/ч
H100
VRAM: 80–94 GB
355–399 ₽/ч
H200
VRAM: 143 GB
460 ₽/ч
Для продакшена и команд
Чтобы не превращать деплой модели в «проект на квартал»: наблюдаемость, повторяемость (YAML), контроль ресурсов и быстрый старт через serverless токены — всё в одном месте.
Проекты, ключи, роли и изоляция окружений.
Один конфиг = одинаковый результат для команды и CI.
Модель работает в нужные окна времени.
Автоскейл под трафик/очередь без ручной возни.
FAQ
Самые частые вопросы от ML-инженеров и продуктовых команд.
- PrimeWay — serverless-подход: инфраструктура “прячется”. Для serverless моделей вы получаете API как сервис и платите за токены. Для кастомных контейнеров/джоб — описываете задачу (Docker + GPU + параметры), а платформа сама поднимает ресурсы, масштабируется 0→N и выключает всё при простое.
Запустите первую модель в PrimeWay
Начните с serverless API (оплата за токены) — это самый быстрый путь подключить LLM в продукт. Если нужен кастомный рантайм — контейнеры и GPU-джобы тоже тут.