Face lock в Nano Banana Pro, Seedream и Flux: какая нейросеть удерживает одно лицо в серии портретов
Если задача звучит как «одно лицо в десяти образах с минимумом итераций», расклад между тремя моделями получается жёсткий. Nano Banana Pro лидирует по face lock и консистентности лица в серии (по данным WaveSpeedAI), но цена доходит до $0.24 за 4K-изображение. Seedream 4.5/5.0 за $0.035–0.04 даёт самую честную кожу с веснушками и микротекстурой, но любит дописывать в кадр текст, которого вы не просили. Flux Klein 9B стоит $0.01 за генерацию, безупречно инпейнтит и рендерит логотипы, однако в портретной задаче скатывается в «пластилин». Дальше – конкретные параметры, цены и сценарии.
Что такое face lock и почему он ломается
Face lock – это удержание черт лица по фото-референсу при смене позы, эмоции, освещения или стиля. Технически модель берёт референс, кодирует его в латент и подмешивает в каждый шаг диффузии с весом, который вы задаёте через параметр strength или denoising.
Лицо «плывёт» по трём предсказуемым причинам. Первая: сильный поворот головы. Энкодер референса видит фронтальное лицо, а целевая поза требует профиля – модель достраивает скулы и подбородок «по среднему», и сходство уходит. Вторая: смена стиля. Перевод фотореференса в аниме или ноар сжимает дистрибуцию текстур кожи, и тонкие черты (форма века, ширина переносицы) теряются раньше крупных. Третья и самая частая: слишком высокий denoising strength. На значениях ниже 0.7 модель «забывает» референс уже на первых шагах.
Рабочий диапазон strength для жёсткого сохранения черт лица – 0.85–0.95 (по практике с dtf.ru). Ниже 0.85 лицо начинает уплывать в сторону «среднего человека из датасета», выше 0.95 модель копирует и шум референса, что выглядит грязно.
Параллельно крутите CFG scale: для Nano Banana держите 3–5, для Flux 2.5–4.5. Это диапазоны, при которых модель ещё слышит промпт, но не начинает «пересаливать» в сторону клишейного фотолука.
Методология теста: одно лицо, три модели, одинаковые условия
Чтобы сравнение было честным, на вход всех трёх моделей шёл один и тот же фото-референс женского лица в три четверти и идентичный промпт «fashion editorial, studio lighting, 35mm portrait». Различались только бэкенды моделей и их собственные настройки CFG/strength в рекомендованных диапазонах.
Тест проводился через API агрегатора WaveSpeedAI: это убирает разницу в SDK, лимитах и регионах. В тесте участвовали Nano Banana Pro (Gemini 3.1 Flash), Seedream 4.5 и Seedream 5.0, Flux Klein 9B и Flux Kontext Pro.
Оценивалось шесть критериев:
- точность черт лица относительно референса (face lock)
- консистентность в серии из пяти образов с фиксированным seed
- передача эмоций (нейтральная, улыбка, серьёзная, удивление, грусть)
- фотореализм кожи: поры, веснушки, отражение света
- скорость одной генерации в секундах
- стоимость серии из 20 портретов с тремя итерациями каждый
Nano Banana Pro: лучший face lock, но дорого
Nano Banana Pro (на базе Gemini 3.1 Flash) – лидер по face lock и консистентности лица в серии среди сравниваемых моделей (источник: WaveSpeedAI). На пяти образах одного персонажа с фиксированным seed сходство держится без заметной деформации скул и линии рта.
Скорость – вторая причина брать Nano Banana Pro под коммерческую задачу. Стандартная генерация занимает 5–10 секунд, рендер в 4K (до 4096x4096) – 10–30 секунд (данные WaveSpeedAI и habr.com). Это сопоставимо с временем превью в фотошопе и позволяет крутить итерации в диалоге с заказчиком.
К детализации текстур претензий нет: модель тянет поры, ткани и отражения на стекле и металле лучше двух конкурентов. Inpainting и зеркальные отражения – ещё одна сильная сторона: при правке очков или серёжки модель не разрушает геометрию лица вокруг маски.
Что мешает. Цена $0.14 за 2K и $0.24 за 4K делает любую серию ощутимо дорогой (см. расчёт ниже). Корпоративные фильтры Google режут NSFW и пограничные позы – для рекламы это нормально, для арт-проектов больно. На каждом изображении ставится встроенная маркировка SynthID от Google: бесшумная для глаза, но детектируемая. Кириллица на изображениях рендерится с орфографическими ошибками, так что для русских надписей берите другой инструмент.
Из комментариев под обзорами: Pro-версия иногда удлиняет лицо и плодит баги с пальцами. Если на ваших промптах появляется этот артефакт, попробуйте обычную Nano Banana без Pro – часть пользователей считает, что она держит лица стабильнее именно в портретной задаче.
Seedream 4.5 / 5.0: лучшая детализация кожи, но излишняя инициатива
Seedream от ByteDance выигрывает там, где Nano Banana проигрывает: микротекстура кожи, веснушки, поры на скулах, тонкие волоски бровей (по данным WaveSpeedAI). Лица выглядят живыми, без той гладкой «рекламной» обработки, которой грешат массовые модели.
Идентичность персонажа в вариациях тоже сильная: смените стиль с editorial на noir – и черты остаются узнаваемыми, хотя стабильность в длинной серии чуть ниже, чем у Nano Banana Pro. Multi-reference workflow позволяет назначать роли разным референсам (лицо, поза, одежда, фон), что критично для дизайн-итераций. Seedream 5.0 добавляет real-time веб-поиск для актуализации контекста: единственная из трёх моделей, которая умеет подтянуть свежий референс из сети при генерации.
По разрешению версия 4.5 ограничена 2048x2048 (gptunnel.ru), 5.0-Preview уходит до 4096x4096 (WaveSpeedAI). Цена: $0.04 за изображение у 4.5 и $0.035 у 5.0 lite через WaveSpeedAI.
Болевые точки две, и обе системные. Seedream систематически игнорирует запрет на текст в промпте: пишете «no text, no captions» – модель всё равно подкладывает в кадр надпись на свитере или плакат на фоне (gptunnel.ru). И вторая: при редактировании она «улучшает» больше, чем вы просили. Заказали поменять цвет шарфа – заодно подвинется причёска и появится новая брошь. Для итеративного дизайна это иногда удача, для строгого face lock серии – риск.
Зеркальные отражения Seedream рисует слабее Nano Banana: в кадре с витриной или зеркалом ждите расхождений между лицом и его отражением.
Flux 2 / Kontext Pro: скорость и открытый код, но «пластилиновые» лица
Flux построен на латентном трансформере с 32 миллиардами параметров и технологии flow matching (gptunnel.ru). Архитектура заточена под структурную точность, и это видно по сильным сторонам: лучший среди трёх результат в inpainting (точное бесшовное удаление объектов, по данным gptunnel.ru) и безупречный рендеринг текста и логотипов. Если задача – вырезать лишнее со снимка или вписать кириллический заголовок прямо в макет, Flux вне конкуренции.
Открытые веса – ещё одна причина выбрать Flux. Можно поднять локально на собственной GPU, дообучить LoRA под конкретное лицо и получить face lock, недоступный через API. Flux Klein 9B держит до 2048x2048, FLUX.1 Schnell генерит за 1–4 шага, что делает прототипирование почти моментальным.
Теперь честно про портретную задачу. Flux чрезмерно прорисовывает текстуры кожи: по отзывам пользователей лица получаются «пластилиновыми» (gptunnel.ru). В fashion-сценах модель скатывается в клише и выдаёт «безжизненные» картинки – особенно заметно при попытке передать эмоцию, отличную от нейтральной. Зеркальные отражения Flux рисует слабее Nano Banana, а логику макета в рекламных баннерах путает (текст ставит в правильное место, но композицию вокруг ломает). Flux Pro платный и требует мощных облачных GPU, так что преимущество «локального деплоя» полностью раскрывается только у Klein-варианта.
Цена через WaveSpeedAI – $0.01 за изображение у Flux Klein 9B по фиксированному тарифу. Это минимальная планка среди всех протестированных моделей: 14–24-кратная разница с Nano Banana Pro.
Сравнительная таблица: face lock, скорость, цена, разрешение
| Параметр | Nano Banana Pro | Seedream 4.5 | Seedream 5.0 lite | Flux Klein 9B |
|---|---|---|---|---|
| Face lock и консистентность | Лидер | Сильно, чуть ниже лидера | Сильно | Слабо («пластилин») |
| Детализация кожи | Высокая | Лучшая среди трёх | Лучшая среди трёх | Чрезмерная, неестественная |
| Цена за изображение | $0.14 (2K) / $0.24 (4K) | $0.04 | $0.035 | $0.01 (flat) |
| Скорость генерации | 5–10 сек (4K: 10–30 сек) | Сопоставимо со средним | Сопоставимо со средним | 1–4 шага у Schnell |
| Максимальное разрешение | до 4096x4096 | 2048x2048 | до 4096x4096 | до 2048x2048 |
| Inpainting | Сильный | Меняет лишнее | Меняет лишнее | Лучший среди трёх |
| Кириллица на изображениях | Орфографические ошибки | Хорошо | Хорошо | Безупречно |
| Серия 20 портретов × 3 итерации | $8.40 (2K) / $14.40 (4K) | $2.40 | $2.10 | $0.60 |
Расчёт серии прямой: 20 готовых портретов × 3 итерации на каждый = 60 генераций. У Flux это $0.60. У Seedream 5.0 lite – $2.10, у 4.5 – $2.40. У Nano Banana Pro в 2K – $8.40, в 4K – $14.40. Если из 20 кадров три-четыре требуют пересборки с нуля, итерационный коэффициент уйдёт выше трёх и расклад только усилится.
Какую модель выбрать под свой сценарий
Сценарий 1: коммерческая реклама, нейрофотосессия, портретная серия с жёстким face lock. Берите Nano Banana Pro. Платите за стабильность лица в десяти образах, скорость 4K и точное следование сложному промпту. Бюджет $14.40 за 60 генераций отбивается одним коммерческим заказом.
Сценарий 2: стилизованные визуалы, fashion с акцентом на кожу, итеративный дизайн с подменой деталей. Ваш выбор – Seedream 4.5 или 5.0. Микротекстура и веснушки делают кадр живым; multi-reference workflow удобен на этапе моудбордов. Помните про привычку модели дописывать текст и подмену соседних деталей: проверяйте каждый кадр глазами.
Сценарий 3: точечные правки inpainting, рендеринг текста и логотипов, бюджетные генерации, локальный деплой с LoRA. Это Flux. Не пытайтесь делать на нём портретные серии без LoRA – получите безжизненные лица. Зато на инпейнтинге, тексте и баннерах он делает то, что Nano Banana и Seedream делают хуже.
Бюджетный расклад одной строкой: Flux $0.01 → Seedream 5.0 lite $0.035 → Seedream 4.5 $0.04 → Nano Banana Pro $0.14–0.24. Между крайними точками – 14–24-кратная разница. Если бюджет жёсткий и face lock не первый приоритет, начинайте с Seedream и поднимайтесь до Nano Banana только на финальных кадрах.
Предупреждение из практики: часть пользователей сообщает, что обычная Nano Banana (не Pro) переносит лица стабильнее Pro-версии в ряде сценариев – особенно с выраженной этничностью или нестандартной геометрией черепа. Если Pro даёт удлинённое лицо или странные пальцы, протестируйте обычную версию на двух кадрах прежде, чем диагностировать промпт.
Практические советы: как выжать максимум из face lock
Базовая настройка одинаковая для всех трёх моделей: strength или denoising 0.85–0.95 (dtf.ru). Точку входа берите в середине диапазона (0.90), и двигайтесь по реакции картинки. Если лицо узнаваемо, но кадр выглядит «грязным» – опускайте до 0.87. Если лицо уплывает в среднестатистическое – поднимайте до 0.93.
CFG scale разный по моделям: Nano Banana держите в 3–5, Flux в 2.5–4.5 (dtf.ru). Выше этих диапазонов промпт начинает «пересаливать» картинку, ниже – модель ослабляет сцепку с текстовым описанием.
Загрузка фото-референса в WaveSpeedAI устроена через поле image_url или upload в зависимости от модели. Для Nano Banana Pro и Seedream поле принимает прямую ссылку на JPG/PNG; Flux требует загрузки на CDN или передачи base64 в payload. Перед стартом серии прогоните один тестовый кадр на каждой модели и убедитесь, что URL отдаётся без 403 – самая частая причина «модель проигнорировала референс» в комментариях.
Типичные ошибки и что с ними делать:
- Strength 0.5–0.7: лицо «по среднему», узнаваемости нет. Поднимайте до 0.85 минимум.
- Strength 0.97+: модель копирует шум и артефакты референса. Снижайте до 0.92.
- Лицо уплывает только при смене ракурса: добавьте в промпт явное описание позы и используйте multi-reference (Seedream) с отдельным референсом на позу.
- Лицо стабильно, но эмоция не считывается: понижайте CFG на 0.5 и описывайте эмоцию через мимику (приподнятая бровь, уголок рта), а не через слово «happy».
- На WaveSpeedAI лицо не меняется по референсу: проверьте размер маски (он должен совпадать с исходным изображением до пикселя – распространённая ошибка из комментариев), доступность URL и значение strength: на 0.3–0.5 эффект референса почти незаметен.
Один практический ритуал, который экономит часы: до запуска серии из 20 портретов сделайте сетку 2×2 на одной модели с фиксированным seed и strength 0.90. Если в этой сетке лицо стабильно во всех четырёх кадрах – серия пойдёт. Если плывёт хотя бы в одном – меняйте модель или донастраивайте промпт, не запускайте серию вслепую.