Pay-per-token • Open-source модели • Endpoint за минуты

Serverless LLM API на GPU — платите только за токены

Выбирайте модели из каталога и подключайте как обычный API. Никаких VM, DevOps и простаивающих GPU — стоимость считается по входным/выходным токенам.

Модели из каталога → endpoint сразу готов
Ключи, квоты, лимиты конкуррентности
Понятная стоимость на нагрузке: токены

Перейти в платформу Связаться

Serverless endpoint (pay-per-token)

BASH

# Serverless LLM API (pay-per-token)
# 1) Выберите модель из каталога
# 2) Получите endpoint URL и ключ
# 3) Платите только за токены

curl -X POST https://api.primeway.io/v1/chat/completions \
  -H "Authorization: Bearer $PRIMEWAY_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{
    "model":"qwen2.5-72b-instruct",
    "messages":[{"role":"user","content":"Привет! Суммируй текст..."}]
  }'

Token-billing serverless

Идеально для продукта: тестируйте гипотезы, держите бюджет под контролем и подключайте LLM как сервис.

лимитыквотыключиobservability

Сценарии

Один продукт — четыре режима работы

Начните с самого простого: serverless модели с оплатой за токены. Если нужно больше контроля — контейнеры, no-code деплой/дообучение или batch-задачи. Везде — автоскейл и понятная экономика.

Serverless модели (токены)

Готовые LLM как API: подключайте endpoint и платите по факту использования (input/output токены).

каталог моделей
квоты/лимиты
pay-per-token

Inference API (контейнеры)

Разворачивайте кастомные образы и серверы инференса: автоскейл 0→N, таймауты, прогрев, лимиты.

CLI / API / UI
скейл до 0 при простое
оплата за GPU-время

Fine-tune без кода

Дообучайте open-source модели на своих данных через UI: параметры, очереди, GPU — всё на стороне платформы.

no-code запуск обучения
контроль данных
результат готов к деплою

Batch / Jobs

Запускайте периодические задачи: генерация данных, оффлайн-скоринг, обработка очередей, эксперименты.

повторяемые конфиги
масштабирование под объём
GPU только когда нужно

Рекомендуемый старт: serverless → потом “углубляйтесь”

Начните с pay-per-token API, чтобы быстро подключить модель в продукт. Если нужен кастомный рантайм или специфические настройки — переходите на контейнеры / no-code / jobs.

Почему это удобнее обычного GPU-облака

В классической модели вы арендуете VM и платите за “жизнь сервера”. Здесь — два удобных тарифа: serverless токены для API-моделей и GPU-время для кастомных контейнеров/задач, плюс автоскейл и scale-to-zero.

Pay-per-token API

Для serverless моделей: интеграция как с обычным LLM API. Платите по факту запроса (токены), без аренды GPU.

быстрый старт
квоты и лимиты
понятная стоимость

Scale-to-Zero

Для контейнеров/джоб: ресурсы могут отключаться при простое. Это экономит бюджет при неровной нагрузке.

idle не оплачивается
таймауты и расписания
автоскейл 0→N

CLI + No-code + API

Один путь от эксперимента до продакшена: инженерам — YAML/CI, продукту — быстрый запуск через no-code.

serverless модели (токены)
no-code deploy/fine-tune
CLI/API для интеграции

No-code workflow

No-code: деплой и дообучение open-source моделей

Когда нужен результат “сейчас”: выбираете модель, настраиваете ресурсы и публикуете endpoint. Нужна адаптация под домен? Запускаете fine-tune в UI и деплоите результат — тоже no-code.

Перейти в платформу Связаться

No-code Deploy

Деплойте open-source модели в пару кликов: GPU, автоскейл, лимиты — и сразу получаете API URL для продукта.

каталог моделей и шаблоны
endpoint за минуты
скейл до 0 при простое

No-code Fine-tune

Запускайте дообучение без инфраструктурных задач: подключили данные → выбрали параметры → старт.

для доменных ассистентов
для инструкций и качества
понятные статусы и логи

Дообучили → задеплоили

После fine-tune вы деплоите получившуюся модель тем же no-code способом и сразу отдаёте в продукт как endpoint.

Как это работает

Быстрый старт — serverless API (токены). Нужен кастом — контейнеры/джобы. Нужен UI — no-code. В любом варианте платформа сама управляет ресурсами и масштабированием.

1) Выберите режим

Serverless токены, контейнеры инференса, no-code деплой/дообучение или batch jobs.

2) Настройте лимиты и контроль

Ключи, квоты, конкуррентность, таймауты, расписания — чтобы держать стоимость.

3) Запускайте и масштабируйте

Автоскейл под реальный трафик/очередь, логирование и наблюдаемость.

На выходе

Что именно вы получите

Не «просто GPU». PrimeWay даёт готовый продакшен-артефакт: serverless endpoint с оплатой за токены или воспроизводимую контейнерную джобу/endpoint с автоскейлом.

API URL / endpoint

Готовый URL для интеграции в продукт — за минуты.

Ключи и доступы

Токены/ключи, разделение по проектам и роли.

Лимиты и квоты

Конкуррентность, таймауты, квоты — контроль затрат.

Автоскейл 0→N

Под трафик и очередь задач — включая scale-to-zero.

Логи и статусы

История запусков и логи контейнеров/эндпоинтов.

Метрики

Понимание нагрузки/ошибок/latency и затрат (по режиму).

Serverless API models

Модели как API: счётчик крутится только на токенах

Это “идеальный вход” в воронку: быстро подключили модель в продукт, померили юнит-экономику, поставили лимиты. Когда потребуется кастомный рантайм — перейдёте к контейнерам и GPU-задачам.

Оплата за токены

Без аренды GPU по часам — удобно для продукта.

Контроль затрат

Квоты, конкуррентность, таймауты, лимиты.

Быстрый старт

Endpoint за минуты — без DevOps и инфраструктуры.

Проекты и доступы

Ключи, роли, изоляция — чтобы безопасно в команду.

Как это выглядит для разработчика

OpenAI-совместимый запрос / привычный формат

POST /v1/chat/completions
Authorization: Bearer $PRIMEWAY_TOKEN

{"model":"qwen2.5-72b-instruct","messages":[...]}

Что важно для продукта

лимитируете конкуррентность и max tokens
ставите квоты на проект/ключ
считаете стоимость “на фичу” по токенам

Открыть платформу Связаться

GPU и ориентиры по цене

Ниже — примерная витрина (часть ассортимента). Точные цены и наличие лучше смотреть в кабинете.

RTX 2000 Ada

VRAM: 16 GB

55 ₽/ч

A40

VRAM: 48 GB

90 ₽/ч

RTX 4090

VRAM: 24 GB

130 ₽/ч

RTX 6000 Ada

VRAM: 48 GB

140 ₽/ч

L40S

VRAM: 48 GB

175 ₽/ч

A100 (80 GB)

VRAM: 80 GB

260–299 ₽/ч

H100

VRAM: 80–94 GB

355–399 ₽/ч

H200

VRAM: 143 GB

460 ₽/ч

Не уверены, какая GPU нужна?

Скажите задачу (serverless / инференс / fine-tune / training) — подберём конфиг и бюджет.

В кабинет Связаться

Для продакшена и команд

Чтобы не превращать деплой модели в «проект на квартал»: наблюдаемость, повторяемость (YAML), контроль ресурсов и быстрый старт через serverless токены — всё в одном месте.

Изоляция

Проекты, ключи, роли и изоляция окружений.

Повторяемость

Один конфиг = одинаковый результат для команды и CI.

Расписания

Модель работает в нужные окна времени.

Масштабирование

Автоскейл под трафик/очередь без ручной возни.

Перейти в платформу Связаться Посмотреть API

FAQ

Самые частые вопросы от ML-инженеров и продуктовых команд.

PrimeWay — serverless-подход: инфраструктура “прячется”. Для serverless моделей вы получаете API как сервис и платите за токены. Для кастомных контейнеров/джоб — описываете задачу (Docker + GPU + параметры), а платформа сама поднимает ресурсы, масштабируется 0→N и выключает всё при простое.
Для serverless моделей из каталога — оплата за токены (как в LLM API). Для кастомных контейнеров / jobs / fine-tune — за фактическое время работы GPU. При простое можно скейлить до 0, чтобы не платить.
Это готовые open-source модели как API: вы выбираете модель, получаете endpoint и ключ, настраиваете лимиты/квоты — и платите по факту использования (вход/выход токены), без аренды GPU по часам.
Вы выбираете модель из каталога, задаёте параметры endpoint (GPU, автоскейл, лимиты) и публикуете — без YAML и без ручной настройки инфраструктуры.
Да: запускаете дообучение из UI, после завершения выбираете получившийся артефакт и деплоите его так же no-code — получая endpoint/API.
Нет: самый быстрый путь — serverless модели (токены). Если вы инженер — CLI + YAML. Если нужен быстрый результат без инфраструктуры — no-code сценарии: деплой моделей и дообучение в пару шагов.

Запустите первую модель в PrimeWay

Начните с serverless API (оплата за токены) — это самый быстрый путь подключить LLM в продукт. Если нужен кастомный рантайм — контейнеры и GPU-джобы тоже тут.

Перейти в платформу Связаться