Pay-per-token • Open-source модели • Endpoint за минуты

Serverless LLM API на GPU — платите только за токены

Выбирайте модели из каталога и подключайте как обычный API. Никаких VM, DevOps и простаивающих GPU — стоимость считается по входным/выходным токенам.

  • Модели из каталога → endpoint сразу готов
  • Ключи, квоты, лимиты конкуррентности
  • Понятная стоимость на нагрузке: токены

Serverless endpoint (pay-per-token)

BASH

# Serverless LLM API (pay-per-token)
# 1) Выберите модель из каталога
# 2) Получите endpoint URL и ключ
# 3) Платите только за токены

curl -X POST https://api.primeway.io/v1/chat/completions \
  -H "Authorization: Bearer $PRIMEWAY_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model":"qwen2.5-72b-instruct",
    "messages":[{"role":"user","content":"Привет! Суммируй текст..."}]
  }'
Token-billing serverless

Идеально для продукта: тестируйте гипотезы, держите бюджет под контролем и подключайте LLM как сервис.

лимитыквотыключиobservability

Сценарии

Один продукт — четыре режима работы

Начните с самого простого: serverless модели с оплатой за токены. Если нужно больше контроля — контейнеры, no-code деплой/дообучение или batch-задачи. Везде — автоскейл и понятная экономика.

Serverless модели (токены)

Готовые LLM как API: подключайте endpoint и платите по факту использования (input/output токены).

  • каталог моделей
  • квоты/лимиты
  • pay-per-token
Inference API (контейнеры)

Разворачивайте кастомные образы и серверы инференса: автоскейл 0→N, таймауты, прогрев, лимиты.

  • CLI / API / UI
  • скейл до 0 при простое
  • оплата за GPU-время
Fine-tune без кода

Дообучайте open-source модели на своих данных через UI: параметры, очереди, GPU — всё на стороне платформы.

  • no-code запуск обучения
  • контроль данных
  • результат готов к деплою
Batch / Jobs

Запускайте периодические задачи: генерация данных, оффлайн-скоринг, обработка очередей, эксперименты.

  • повторяемые конфиги
  • масштабирование под объём
  • GPU только когда нужно

Рекомендуемый старт: serverless → потом “углубляйтесь”

Начните с pay-per-token API, чтобы быстро подключить модель в продукт. Если нужен кастомный рантайм или специфические настройки — переходите на контейнеры / no-code / jobs.

Почему это удобнее обычного GPU-облака

В классической модели вы арендуете VM и платите за “жизнь сервера”. Здесь — два удобных тарифа: serverless токены для API-моделей и GPU-время для кастомных контейнеров/задач, плюс автоскейл и scale-to-zero.

Pay-per-token API

Для serverless моделей: интеграция как с обычным LLM API. Платите по факту запроса (токены), без аренды GPU.

  • быстрый старт
  • квоты и лимиты
  • понятная стоимость
Scale-to-Zero

Для контейнеров/джоб: ресурсы могут отключаться при простое. Это экономит бюджет при неровной нагрузке.

  • idle не оплачивается
  • таймауты и расписания
  • автоскейл 0→N
CLI + No-code + API

Один путь от эксперимента до продакшена: инженерам — YAML/CI, продукту — быстрый запуск через no-code.

  • serverless модели (токены)
  • no-code deploy/fine-tune
  • CLI/API для интеграции
No-code workflow

No-code: деплой и дообучение open-source моделей

Когда нужен результат “сейчас”: выбираете модель, настраиваете ресурсы и публикуете endpoint. Нужна адаптация под домен? Запускаете fine-tune в UI и деплоите результат — тоже no-code.

No-code Deploy

Деплойте open-source модели в пару кликов: GPU, автоскейл, лимиты — и сразу получаете API URL для продукта.

  • каталог моделей и шаблоны
  • endpoint за минуты
  • скейл до 0 при простое
No-code Fine-tune

Запускайте дообучение без инфраструктурных задач: подключили данные → выбрали параметры → старт.

  • для доменных ассистентов
  • для инструкций и качества
  • понятные статусы и логи
Дообучили → задеплоили

После fine-tune вы деплоите получившуюся модель тем же no-code способом и сразу отдаёте в продукт как endpoint.

Как это работает

Быстрый старт — serverless API (токены). Нужен кастом — контейнеры/джобы. Нужен UI — no-code. В любом варианте платформа сама управляет ресурсами и масштабированием.

1) Выберите режим

Serverless токены, контейнеры инференса, no-code деплой/дообучение или batch jobs.

2) Настройте лимиты и контроль

Ключи, квоты, конкуррентность, таймауты, расписания — чтобы держать стоимость.

3) Запускайте и масштабируйте

Автоскейл под реальный трафик/очередь, логирование и наблюдаемость.

На выходе

Что именно вы получите

Не «просто GPU». PrimeWay даёт готовый продакшен-артефакт: serverless endpoint с оплатой за токены или воспроизводимую контейнерную джобу/endpoint с автоскейлом.

API URL / endpoint

Готовый URL для интеграции в продукт — за минуты.

Ключи и доступы

Токены/ключи, разделение по проектам и роли.

Лимиты и квоты

Конкуррентность, таймауты, квоты — контроль затрат.

Автоскейл 0→N

Под трафик и очередь задач — включая scale-to-zero.

Логи и статусы

История запусков и логи контейнеров/эндпоинтов.

Метрики

Понимание нагрузки/ошибок/latency и затрат (по режиму).

Serverless API models

Модели как API: счётчик крутится только на токенах

Это “идеальный вход” в воронку: быстро подключили модель в продукт, померили юнит-экономику, поставили лимиты. Когда потребуется кастомный рантайм — перейдёте к контейнерам и GPU-задачам.

Оплата за токены

Без аренды GPU по часам — удобно для продукта.

Контроль затрат

Квоты, конкуррентность, таймауты, лимиты.

Быстрый старт

Endpoint за минуты — без DevOps и инфраструктуры.

Проекты и доступы

Ключи, роли, изоляция — чтобы безопасно в команду.

Как это выглядит для разработчика

OpenAI-совместимый запрос / привычный формат

POST /v1/chat/completions
Authorization: Bearer $PRIMEWAY_TOKEN

{"model":"qwen2.5-72b-instruct","messages":[...]}

Что важно для продукта

  • лимитируете конкуррентность и max tokens
  • ставите квоты на проект/ключ
  • считаете стоимость “на фичу” по токенам

GPU и ориентиры по цене

Ниже — примерная витрина (часть ассортимента). Точные цены и наличие лучше смотреть в кабинете.

RTX 2000 Ada

VRAM: 16 GB

55 ₽/ч

A40

VRAM: 48 GB

90 ₽/ч

RTX 4090

VRAM: 24 GB

130 ₽/ч

RTX 6000 Ada

VRAM: 48 GB

140 ₽/ч

L40S

VRAM: 48 GB

175 ₽/ч

A100 (80 GB)

VRAM: 80 GB

260–299 ₽/ч

H100

VRAM: 80–94 GB

355–399 ₽/ч

H200

VRAM: 143 GB

460 ₽/ч

Не уверены, какая GPU нужна?

Скажите задачу (serverless / инференс / fine-tune / training) — подберём конфиг и бюджет.

Для продакшена и команд

Чтобы не превращать деплой модели в «проект на квартал»: наблюдаемость, повторяемость (YAML), контроль ресурсов и быстрый старт через serverless токены — всё в одном месте.

Изоляция

Проекты, ключи, роли и изоляция окружений.

Повторяемость

Один конфиг = одинаковый результат для команды и CI.

Расписания

Модель работает в нужные окна времени.

Масштабирование

Автоскейл под трафик/очередь без ручной возни.

FAQ

Самые частые вопросы от ML-инженеров и продуктовых команд.

  • PrimeWay — serverless-подход: инфраструктура “прячется”. Для serverless моделей вы получаете API как сервис и платите за токены. Для кастомных контейнеров/джоб — описываете задачу (Docker + GPU + параметры), а платформа сама поднимает ресурсы, масштабируется 0→N и выключает всё при простое.

Запустите первую модель в PrimeWay

Начните с serverless API (оплата за токены) — это самый быстрый путь подключить LLM в продукт. Если нужен кастомный рантайм — контейнеры и GPU-джобы тоже тут.