Ответы

Проблема с запуском нейросети на ollama

Я через ollama попробовал запустить llava:34b-q4_K_M (на Colorful X15 AT 22). Оперативку естественно она на 100% загрузила, а потом она вместо видеокарты решила использовать SSD и тоже на 100. Хотя таже llama3 ресурсы распределяет нормально и не насилует мой SSD. Как это исправить?

По дате
По рейтингу
Аватар пользователя
Мудрец
Изменено

Модель весит 20ГБ, плюс контекст.
Сколько у тебя оперативной памяти?

Да и вообще лучше используй напрямую llama.cpp, а не пользуйся посредником в виде ollama или другого, там более детальные настройки, можно часть работы (или всю) на GPU перекинуть. Для большего удобства можно использовать llama-swap которая управляет конфигурациями llama.cpp и позволяет легко переключатся между несколькими разными моделями и их конфигурациями.

Аватар пользователя
Мыслитель

Почему так происходит

  1. Модель слишком большая для VRAM

    • llava:34b-q4_K_M — это 34 B параметров, даже в 4‑битной версии она требует очень много видеопамяти.

    • Если видеопамяти на GPU не хватает, Ollama автоматически свопит часть данных на SSD (disk offloading) — отсюда 100% загрузка SSD.

  2. LLaMA3 работает иначе

    • LLaMA3 меньше или оптимизирована для GPU, поэтому не идёт своп на SSD и ресурсы распределяются «нормально».

  3. Colorful X15 AT 22

    • Это ноутбук/ПК с ограниченной VRAM и, вероятно, слабым GPU. Для моделей >13 B параметры графической карты уже критичны.

Как это исправить

1️⃣ Ограничить использование модели

  • Вместо llava:34b-q4_K_M используй меньшую версию: например llava:13b-q4_K_M или llava:7b — они проще, не свопят на SSD и работают быстрее.

2️⃣ Явно задать использование GPU

  • Проверь флаг в Ollama:

    12
    ollama run llava:34b-q4_K_M --gpu
    
  • Если Ollama не видит видеокарту, часть модели уходит на CPU/SSD.

  • Убедись, что драйверы GPU и CUDA актуальны, и Ollama их видит:

    12
    ollama info
    

    Там должно быть что-то вроде GPU: available.

3️⃣ Использовать offload параметры аккуратно

  • Ollama позволяет контролировать disk offloading:

    • Можно отключить частичный своп на диск, чтобы модель падала сразу при нехватке VRAM, а не грузила SSD.

    • Пример конфигурации в Ollama YAML или командной строке:

      123
      offload: none
      gpu: true
      
  • Это позволит сразу понять, что модель не помещается в память.

4️⃣ Увеличить GPU память или использовать облако

  • Для 34B моделей реально нужен топовый GPU (>=24 GB VRAM).

  • На ноутбуках с ограниченной памятью лучше запускать облачные решения через Ollama Cloud или другие LLaVA‑сервисы.

5️⃣ Следить за параметрами batch size

  • Если у Ollama есть параметры батча или seq_len, уменьшение их уменьшает нагрузку на SSD/CPU.