Перейти к содержимому

Локальные AI-модели: Ollama, LM Studio

Локальный запуск LLM даёт:

  • Приватность — данные не покидают компьютер
  • Отсутствие цензуры — нет модерации ответов
  • Бесплатно — без подписок и платы за токены
  • Offline — работает без интернета

Минусы:

  • Нужна мощная GPU (VRAM 8GB+ для хороших моделей)
  • Модели слабее облачных GPT-4o и Claude
  • Нет веб-поиска, плагинов и экосистемы

  • Тип: CLI + API для запуска LLM
  • Платформы: macOS, Linux, Windows
  • Ключевые фичи:
    • Простая установка (brew install ollama)
    • Огромная библиотека моделей (Llama 4, Mistral, DeepSeek, Qwen, Gemma, Phi)
    • REST API (совместим с OpenAI API)
    • Modelfile — кастомизация системного промпта
    • Поддержка GPU (Metal на Mac, CUDA на NVIDIA)
  • Плюсы: простота, богатая библиотека, API
  • Цена: бесплатно, open-source
Окно терминала
# Установка
brew install ollama
# Запуск модели
ollama run llama4
ollama run deepseek-r1
ollama run mistral
  • Тип: GUI-приложение для запуска LLM
  • Платформы: macOS, Windows, Linux
  • Ключевые фичи:
    • Графический интерфейс для скачивания и запуска моделей
    • Чат-интерфейс
    • Локальный сервер (OpenAI-совместимый API)
    • Автоматический подбор квантизации под VRAM
    • Поддержка GPU-ускорения
  • Плюсы: простой GUI, не нужен терминал
  • Минусы: не open-source, проприетарный
  • Цена: бесплатно
  • Тип: веб-интерфейс для Ollama и OpenAI API
  • Платформы: Docker (любая OS)
  • Ключевые фичи:
    • Чат-интерфейс как у ChatGPT
    • Множественные модели
    • RAG (загрузка документов)
    • Сохранение истории
    • Multi-user (для компаний)
  • Плюсы: лучший интерфейс для локальных моделей
  • Цена: бесплатно, open-source
  • Тип: C/C++ библиотека для инференса LLM
  • Платформы: macOS, Linux, Windows
  • Ключевые фичи:
    • Максимальная производительность на CPU и GPU
    • Квантизация (1-8 бит)
    • Минимальные зависимости
  • Плюсы: работает на любом железе, основа большинства локальных решений
  • Цена: бесплатно, open-source

Популярные модели для локального запуска (2026)

Заголовок раздела «Популярные модели для локального запуска (2026)»
МодельРазмерVRAMКачествоДля чего
Llama 4 Scout17B (109B MoE)8-16 GB★★★★Универсальная
Llama 4 Maverick17B (400B MoE)16-24 GB★★★★★Сложные задачи
Mistral Large123B24+ GB★★★★★Анализ, код
Qwen 3 32B32B16-24 GB★★★★Кодинг, рассуждения
Phi-414B8 GB★★★Быстрый, на слабом железе
Gemma 3 27B27B16 GB★★★★Универсальная
DeepSeek-R1 Distill7-70B4-32 GB★★★★Reasoning
VRAMЧто запустится
4 GBPhi-4, Gemma 3 4B, Qwen 3 7B (q4)
8 GBLlama 4 Scout (q4), Qwen 3 14B (q4)
16 GBLlama 4 Scout, Mistral Small, Gemma 3 27B
24 GBLlama 4 Maverick, Mistral Large (q4)
32+ GBВсё, включая большие квантизации

Apple Silicon Mac (M1-M4) с unified memory особенно хороши для локального запуска — можно использовать почти всю RAM как VRAM.

Окно терминала
# 1. Ollama + Open WebUI (рекомендуемый стек)
brew install ollama
ollama serve &
ollama pull llama4-scout
ollama pull deepseek-r1:7b
# Docker для Open WebUI
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
# 2. Открыть http://localhost:3000
ЗадачаРекомендация
Первый запускLM Studio — простой GUI
Разработка, APIOllama + Open WebUI
Слабое железоPhi-4 (4GB VRAM)
КодингDeepSeek-R1, Qwen 3
Анализ документовLlama 4 Scout
Приватный чат для командыOpen WebUI (multi-user)
Максимальное качествоLlama 4 Maverick (24GB+)