Top.Mail.Ru
Ответы
Аватар пользователя
4мес
Аватар пользователя
Аватар пользователя
Аватар пользователя
Информационные технологии
+4

Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?

Всем привет!

Меня зовут Яна, я программист (веб), увлекаюсь играми и недавно — стримами, например, на YouTube.

Увлечение стримами породило ещё одно увлечение — нейросети.
Раньше пользовалась только ChatGPT, потом стала использовать сервисы, которые рисуют изображения по промту за деньги. Сейчас работаю с ChatGPT 4o, DeepSeek R1, DeepSeek R1 (локально), Stable Diffusion Forge (локально).

Недавно у меня появилась мечта: сгенерировать LoRA своего персонажа. Например, чтобы делать классные аватарки или превьюшки для видео. А LoRA — лучший способ.

Но, к сожалению, я столкнулась с непреодолимыми трудностями. Информации мало, нейросети не помогают, нужные данные закрыты на Patreon, а у меня нет возможности их купить.
Из-за безысходности я пишу это сообщение. Помогите мне, пожалуйста! Я расскажу обо всём максимально подробно.

💻 Мой компьютер:

Процессор: AMD Ryzen 7 7700X
Материнка: GIGABYTE B650E AORUS MASTER
Видеокарта: GIGABYTE RTX 4080 AORUS MASTER (Game Ready Driver)
ОЗУ: Team Group T-Force Delta RGB DDR5 32Gb
SSD: GIGABYTE AORUS NVMe Gen4 SSD 2Tb
ОС: Windows 11 Pro (лицензия)

🎨 Чем я генерирую изображения:

Stable Diffusion Forge и только Flux-модели.
Чаще всего использую доработанные чекпоинты. Генерирую 16:9 (ландшафт), качество устраивает, скорость приемлемая.
🛑 Проблемы с обучением LoRA

Я искала способ рисовать изображения по примеру стиля и лица в SD Forge, но нашла, что LoRA — лучший вариант. Думала, что обучить LoRA — быстро и просто (пара часов), но это оказалось не так…

Я подготовила датасет 199 фотографий (1024x1024) за 2 года и скачала Kohya SS GUI.
Проблема #1: У меня был неподходящий Python, долго мучилась с установкой.
Проблема #2: Какая базовая модель нужна? Flux-модели не работали. Выбрала stable-diffusion-xl-base-1.0 с сомнением.

Запустила обучение на ночь → утром прогресс почти нулевой, очень медленно.
Решила начать заново: уменьшила датасет до 20 фото (лучших), добавила описания (WD14 + ChatGPT), уменьшала разрешение до 512x512 (со скрипом).

Включила Kohya SS GUI (ветка sd3-flux.1). Теперь работала Flux-модель!
Но: не хватало VRAM. Скачала clip_l, ae, t5xxl (10 ГБ).

Проблема #3: Даже с минимальными параметрами 1 шаг = 200-300 секунд (слишком долго).
Проблема #4: Попробовала Fluxgym (через StabilityMatrix) → GPU не используется, всё идёт на CPU.

Решила вернуться к Kohya SS GUI и попробовать:

Найти Flux-модель меньшего размера (не запустились).
Подобрать параметры (не помогло).

В итоге: 7% за 7,5 часов, avr_loss = nan 😢

📌 Вопросы:

  1. Какую модель использовать для обучения LoRA (Flux-совместимую)?

  2. Какая базовая модель нужна?

  3. Какой VAE-файл использовать?

  4. Какой CLIP-L нужен?

  5. Какой T5XXL?

  6. Какие параметры использовать (Learning Rate, Network Dim, Network Alpha и др.)?

  7. Сколько шагов нужно на 1 фото (если они в папке 10_me — по 10 раз на фото)?

  8. Можно ли повысить разрешение хотя бы до 768x768 или 1024x1024?

  9. Как правильно продолжить обучение с сохранённого состояния?


Очень жду вашей помощи! 🙏

По дате
По рейтингу
Аватар пользователя
Ученик
2мес

Я тренировал на SDXL, но может будет полезно. По поводу скорости обучения: в Kohya ss во вкладке Lora в разделе Parameters -> подраздел Advanced есть такая галочка Gradient checkpointing. При ее включении будет использоваться только видеопамять не выходя в оперативную. Для меня на RTX 3060 12Гб это увеличило скорость обучения почти в 4 раза, с 5:20 часов до 1:30.

Обучал на таких параметрах:
57 изображений разрешением: 1024х1024
Repeats: 10
Epoch: 4
57*10*4= 2280 steps
LR Scheduler: constant
Optimizer: Adafactor
Learning rate: 0,0004
Text Encoder learning rate: 0,0004
Unet learning rate: 0,0004
Вкл Cache latents to disk
Вкл No half VAE
Вкл Gradient checkpointing
Вкл Shuffle caption

Опыта у меня немного. Еще пока разбираюсь в тонкостях всего этого. Но получившиеся лоры мне нравятся

Аватар пользователя
Профи
4мес

- **Базовая модель**: Stable Diffusion 1.5/2.1 или улучшенные версии.
- **VAE**: vae-ft-mse-840000-ema-pruned.ckpt (если не встроен).
- **CLIP**: CLIP-L для SD 1.5, OpenCLIP для SD 2.1.
- **Параметры**: Learning Rate 1e-4, Network Dim 128, Network Alpha 64.
- **Шаги**: 100–200 на фото (10 повторений = 1000–2000 шагов).
- **Разрешение**: 512x512 (можно повысить, но требует больше ресурсов).
- **Продолжение обучения**: Используйте --resume с сохранённым состоянием.

Аватар пользователя
Ученик
4мес

Привет, Яна! Здорово, что ты увлекаешься нейросетями и стримингом. Для обучения LoRA рекомендую использовать базовые модели, такие как "stable-diffusion-1.5" или "stable-diffusion-2.1", они совместимы с Flux. Используй VAE, например, "vae-ft-mse-840000-ema-pruned". Для CLIP-L подойдут "clip-vit-base-patch16". Параметры: Learning Rate - 0.0001, Network Dim - 128, Network Alpha - 16. Начни с 1000 шагов на фото, разрешение лучше оставить на 512x512 для стабильности. Удачи!