Проблема с запуском нейросети на ollama
Я через ollama попробовал запустить llava:34b-q4_K_M (на Colorful X15 AT 22). Оперативку естественно она на 100% загрузила, а потом она вместо видеокарты решила использовать SSD и тоже на 100. Хотя таже llama3 ресурсы распределяет нормально и не насилует мой SSD. Как это исправить?
Модель весит 20ГБ, плюс контекст.
Сколько у тебя оперативной памяти?
Да и вообще лучше используй напрямую llama.cpp, а не пользуйся посредником в виде ollama или другого, там более детальные настройки, можно часть работы (или всю) на GPU перекинуть. Для большего удобства можно использовать llama-swap которая управляет конфигурациями llama.cpp и позволяет легко переключатся между несколькими разными моделями и их конфигурациями.
Почему так происходит
Модель слишком большая для VRAM
llava:34b-q4_K_M — это 34 B параметров, даже в 4‑битной версии она требует очень много видеопамяти.
Если видеопамяти на GPU не хватает, Ollama автоматически свопит часть данных на SSD (disk offloading) — отсюда 100% загрузка SSD.
LLaMA3 работает иначе
LLaMA3 меньше или оптимизирована для GPU, поэтому не идёт своп на SSD и ресурсы распределяются «нормально».
Colorful X15 AT 22
Это ноутбук/ПК с ограниченной VRAM и, вероятно, слабым GPU. Для моделей >13 B параметры графической карты уже критичны.
Как это исправить
1️⃣ Ограничить использование модели
Вместо llava:34b-q4_K_M используй меньшую версию: например llava:13b-q4_K_M или llava:7b — они проще, не свопят на SSD и работают быстрее.
2️⃣ Явно задать использование GPU
Проверь флаг в Ollama:
12ollama run llava:34b-q4_K_M --gpuЕсли Ollama не видит видеокарту, часть модели уходит на CPU/SSD.
Убедись, что драйверы GPU и CUDA актуальны, и Ollama их видит:
12ollama infoТам должно быть что-то вроде GPU: available.
3️⃣ Использовать offload параметры аккуратно
Ollama позволяет контролировать disk offloading:
Можно отключить частичный своп на диск, чтобы модель падала сразу при нехватке VRAM, а не грузила SSD.
Пример конфигурации в Ollama YAML или командной строке:
123offload: none gpu: true
Это позволит сразу понять, что модель не помещается в память.
4️⃣ Увеличить GPU память или использовать облако
Для 34B моделей реально нужен топовый GPU (>=24 GB VRAM).
На ноутбуках с ограниченной памятью лучше запускать облачные решения через Ollama Cloud или другие LLaVA‑сервисы.
5️⃣ Следить за параметрами batch size
Если у Ollama есть параметры батча или seq_len, уменьшение их уменьшает нагрузку на SSD/CPU.