Diffusion Single File
comfyui

Lora character training

#162
by Shadyman961 - opened

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

You should probably stop using Prodigy as it's very likely using an LR that's way too high when Anima doesn't really want high LR in the first place (Prodigy almost always overshoots LR anyways and overfits hard). You should use AdamW/AdamW8bit instead

You should probably stop using Prodigy as it's very likely using an LR that's way too high when Anima doesn't really want high LR in the first place (Prodigy almost always overshoots LR anyways and overfits hard). You should use AdamW/AdamW8bit instead

Yes, I tried with AdamW/AdamW8bit, there was also such a problem, there was a white background and occasionally the right background skipped, also I do not understand a little bit if the markup of the dataset of characters differs from SDXL, I got used to training on prodigy/cosine and also the dataset by the usual habitual solution I cleaned from the background, is it considered an error?

I applied the markup based on a recommendation from a neural network based on comments from Reddit, without the clutter of Sdxl:
Perstest, 1girl, perstestOutf, long hair, blue eyes, large breasts, brown hair, long sleeves, hair ornament, cleavage, very long hair, pointy ears, star pointy earrings, blue choker, virtual youtuber, beads hairclip, beads necklace, white kneehighs, red bow, clothing cutout, thigh strap, blue dress, white socks, short dress, frilled dress, cleavage cutout, single thighhigh, puffy long sleeves, blue nails, dragon horns, asymmetrical legwear, star hair ornament, dragon tail, bridal garter, uneven legwear, single sock, frilled kneehighs, demon wings, low wings, heart ahoge, heart-shaped pupils, criss-cross straps, criss-cross halter, blue skirt, plaid skirt, frilled skirt, pleated skirt, white thighhighs, cowboy shot,

I applied the markup based on a recommendation from a neural network based on comments from Reddit, without the clutter of Sdxl:
Perstest, 1girl, perstestOutf, long hair, blue eyes, large breasts, brown hair, long sleeves, hair ornament, cleavage, very long hair, pointy ears, star pointy earrings, blue choker, virtual youtuber, beads hairclip, beads necklace, white kneehighs, red bow, clothing cutout, thigh strap, blue dress, white socks, short dress, frilled dress, cleavage cutout, single thighhigh, puffy long sleeves, blue nails, dragon horns, asymmetrical legwear, star hair ornament, dragon tail, bridal garter, uneven legwear, single sock, frilled kneehighs, demon wings, low wings, heart ahoge, heart-shaped pupils, criss-cross straps, criss-cross halter, blue skirt, plaid skirt, frilled skirt, pleated skirt, white thighhighs, cowboy shot,

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

Use English natural language to tag the characters in the images for the training set of an anime-specialized LoRA model. The specific rules are as follows:

  1. [Clothing Description] Each piece of clothing corresponds to only one independent tag, separated by English commas (e.g., white blouse, black pleated skirt, knee-high socks). Prohibit the use of wearing verbs such as "wearing", "dressed in", or "putting on"; instead, use noun phrases or prepositional phrases for direct descriptions (e.g., red scarf around neck, gloves on hands). Avoid general terms (like shoes, clothes) and use precise descriptions instead (like white platform sneakers, sheer stockings). Keep only the most appropriate one among synonymous tags for the same type of clothing, without repetition. One piece of clothing/accessory corresponds to exactly one prompt word. As long as it is a piece of clothing, it corresponds to only one prompt word. Do not use different prompt words just because the perspective changes while the clothing itself hasn't changed (do not change the prompt word for a specific piece of clothing, but also do not forcefully apply the complete prompt words to images where the corresponding clothing does not appear; adjust according to the visual cropping of the image).
  2. [Directional Description] Allow the use of spatial directional words for auxiliary positioning, such as on the left arm, around the waist, on the right wrist, etc.
  3. [Other Content] Retain tags describing character features (hair color, hairstyle, eye color, pupil shape, etc.), actions, and backgrounds. Describe actions using natural language. Add "@lhcx" at the very beginning of the prompt. Use natural language to describe the art style (do not use vague descriptions like "anime" or "exquisite anime illustration"; describe the style, painting method, and brushstrokes in detail). Keep only the most accurate synonym for character features. If the uploaded tags do not match the image or there are omissions, supplement or correct them based on the image content. When summarizing the character's face shape, put it in the "Others" category.
    Use natural language to describe the character's actions in detail.
  4. The prompt format should be: Art style, a XXX picture of a girl named XXX, a girl named XXX has XXX appearance, a girl named XXX has XXX clothing, a girl named XXX performs XXX action. Replace XXX with the character's name and append the "(soul tide)" suffix. Include this suffix in the summary as well. Prioritize following the user's new instructions.
  5. [Summary] After completing the above organization, gather and arrange all clothing-related tags together.

IMPORTANT: Please strictly maintain the following format for your reply. Do not change the file name marker, and place it in a code block to prevent the '#' symbol from being swallowed, so that I can write it back to the file via a script:

FILE: filename.txt

tag1, tag2, tag3...

Output the tagging/modification logic first, then output the prompt words, and finally summarize the character and clothing features in the following format:
Character Features:
Clothing Features:
Props (leave blank if none):
Others:

Place the modified tags in a code block, and output the summary directly.
Note that classifications like expressions should be placed in "Others". Check to ensure the tags in the Plaintext are consistent with those in the summary, avoiding situations where tags exist in the summary but not in the Plaintext, or vice versa.
When tagging, use natural language to describe the character's appearance and clothing in detail. The character features in the summary should not include perspective. Expressions (eye color belongs to Character Features, while closed eyes belongs to Others) should be placed in "Others", breast size should be placed in "Others", and traits like a mole on the breast should be placed in "Character Features".
When summarizing, the character, clothing, and props should not carry the prefix "a girl named XXX"; only place the character's name at the beginning of the character summary.

I applied the markup based on a recommendation from a neural network based on comments from Reddit, without the clutter of Sdxl:
Perstest, 1girl, perstestOutf, long hair, blue eyes, large breasts, brown hair, long sleeves, hair ornament, cleavage, very long hair, pointy ears, star pointy earrings, blue choker, virtual youtuber, beads hairclip, beads necklace, white kneehighs, red bow, clothing cutout, thigh strap, blue dress, white socks, short dress, frilled dress, cleavage cutout, single thighhigh, puffy long sleeves, blue nails, dragon horns, asymmetrical legwear, star hair ornament, dragon tail, bridal garter, uneven legwear, single sock, frilled kneehighs, demon wings, low wings, heart ahoge, heart-shaped pupils, criss-cross straps, criss-cross halter, blue skirt, plaid skirt, frilled skirt, pleated skirt, white thighhighs, cowboy shot,

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

Use English natural language to tag the characters in the images for the training set of an anime-specialized LoRA model. The specific rules are as follows:

  1. [Clothing Description] Each piece of clothing corresponds to only one independent tag, separated by English commas (e.g., white blouse, black pleated skirt, knee-high socks). Prohibit the use of wearing verbs such as "wearing", "dressed in", or "putting on"; instead, use noun phrases or prepositional phrases for direct descriptions (e.g., red scarf around neck, gloves on hands). Avoid general terms (like shoes, clothes) and use precise descriptions instead (like white platform sneakers, sheer stockings). Keep only the most appropriate one among synonymous tags for the same type of clothing, without repetition. One piece of clothing/accessory corresponds to exactly one prompt word. As long as it is a piece of clothing, it corresponds to only one prompt word. Do not use different prompt words just because the perspective changes while the clothing itself hasn't changed (do not change the prompt word for a specific piece of clothing, but also do not forcefully apply the complete prompt words to images where the corresponding clothing does not appear; adjust according to the visual cropping of the image).
  2. [Directional Description] Allow the use of spatial directional words for auxiliary positioning, such as on the left arm, around the waist, on the right wrist, etc.
  3. [Other Content] Retain tags describing character features (hair color, hairstyle, eye color, pupil shape, etc.), actions, and backgrounds. Describe actions using natural language. Add "@lhcx" at the very beginning of the prompt. Use natural language to describe the art style (do not use vague descriptions like "anime" or "exquisite anime illustration"; describe the style, painting method, and brushstrokes in detail). Keep only the most accurate synonym for character features. If the uploaded tags do not match the image or there are omissions, supplement or correct them based on the image content. When summarizing the character's face shape, put it in the "Others" category.
    Use natural language to describe the character's actions in detail.
  4. The prompt format should be: Art style, a XXX picture of a girl named XXX, a girl named XXX has XXX appearance, a girl named XXX has XXX clothing, a girl named XXX performs XXX action. Replace XXX with the character's name and append the "(soul tide)" suffix. Include this suffix in the summary as well. Prioritize following the user's new instructions.
  5. [Summary] After completing the above organization, gather and arrange all clothing-related tags together.

IMPORTANT: Please strictly maintain the following format for your reply. Do not change the file name marker, and place it in a code block to prevent the '#' symbol from being swallowed, so that I can write it back to the file via a script:

FILE: filename.txt

tag1, tag2, tag3...

Output the tagging/modification logic first, then output the prompt words, and finally summarize the character and clothing features in the following format:
Character Features:
Clothing Features:
Props (leave blank if none):
Others:

Place the modified tags in a code block, and output the summary directly.
Note that classifications like expressions should be placed in "Others". Check to ensure the tags in the Plaintext are consistent with those in the summary, avoiding situations where tags exist in the summary but not in the Plaintext, or vice versa.
When tagging, use natural language to describe the character's appearance and clothing in detail. The character features in the summary should not include perspective. Expressions (eye color belongs to Character Features, while closed eyes belongs to Others) should be placed in "Others", breast size should be placed in "Others", and traits like a mole on the breast should be placed in "Character Features".
When summarizing, the character, clothing, and props should not carry the prefix "a girl named XXX"; only place the character's name at the beginning of the character summary.

Thanks for the reply. I'll try to rework my training approach, but I still don't understand the tag description. Was it a prompt for "labeling" or a guide on how to label a dataset yourself?
I'm still trying to find training parameters, as I've got transfer results so far, but things like "jewelry" often transfer incorrectly. I'm also still having problems with the transfer itself: the background behind the character stubbornly doesn't change, even when I specify something like "girl standing in bathroom." It often makes the background white or partially changes, mixing in a plain background. I've also encountered a problem I'm trying to solve: clothing sticking to the character. For example, my character has three poses: naked, in a dress, and in a sweater. During subsequent generations, the character is generated in the correct pose, but now wearing clothing that shouldn't be there according to the prompt. I also can't understand why the Anima model stubbornly pushes any censorship on my picture. Even if I write, for example, "the character changes clothes in the shower," it pushes censorship on my chest... and it would be fine if this happened on a woman's chest, but sometimes it also covers a man's chest with a haze HD, so I don't yet know how to deal with the censorship and the problem with training.

The part I provided is a prompt intended for Large Language Models. You can send that prompt along with your images to Gemini or other multimodal models with vision capabilities, and retrain using the tags generated by the LLM. This should solve the background and clothing overfitting issues you are encountering. Adding tags like "nsfw" and "uncensored" and increasing their weights to 2-8 should help avoid the issue of constantly getting censored images. Alternatively, you could try changing the reference artist. Constantly generating censored images is usually caused by overfitting, which happens when all of the artist's works in the dataset are censored.

I applied the markup based on a recommendation from a neural network based on comments from Reddit, without the clutter of Sdxl:
Perstest, 1girl, perstestOutf, long hair, blue eyes, large breasts, brown hair, long sleeves, hair ornament, cleavage, very long hair, pointy ears, star pointy earrings, blue choker, virtual youtuber, beads hairclip, beads necklace, white kneehighs, red bow, clothing cutout, thigh strap, blue dress, white socks, short dress, frilled dress, cleavage cutout, single thighhigh, puffy long sleeves, blue nails, dragon horns, asymmetrical legwear, star hair ornament, dragon tail, bridal garter, uneven legwear, single sock, frilled kneehighs, demon wings, low wings, heart ahoge, heart-shaped pupils, criss-cross straps, criss-cross halter, blue skirt, plaid skirt, frilled skirt, pleated skirt, white thighhighs, cowboy shot,

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

Use English natural language to tag the characters in the images for the training set of an anime-specialized LoRA model. The specific rules are as follows:

  1. [Clothing Description] Each piece of clothing corresponds to only one independent tag, separated by English commas (e.g., white blouse, black pleated skirt, knee-high socks). Prohibit the use of wearing verbs such as "wearing", "dressed in", or "putting on"; instead, use noun phrases or prepositional phrases for direct descriptions (e.g., red scarf around neck, gloves on hands). Avoid general terms (like shoes, clothes) and use precise descriptions instead (like white platform sneakers, sheer stockings). Keep only the most appropriate one among synonymous tags for the same type of clothing, without repetition. One piece of clothing/accessory corresponds to exactly one prompt word. As long as it is a piece of clothing, it corresponds to only one prompt word. Do not use different prompt words just because the perspective changes while the clothing itself hasn't changed (do not change the prompt word for a specific piece of clothing, but also do not forcefully apply the complete prompt words to images where the corresponding clothing does not appear; adjust according to the visual cropping of the image).
  2. [Directional Description] Allow the use of spatial directional words for auxiliary positioning, such as on the left arm, around the waist, on the right wrist, etc.
  3. [Other Content] Retain tags describing character features (hair color, hairstyle, eye color, pupil shape, etc.), actions, and backgrounds. Describe actions using natural language. Add "@lhcx" at the very beginning of the prompt. Use natural language to describe the art style (do not use vague descriptions like "anime" or "exquisite anime illustration"; describe the style, painting method, and brushstrokes in detail). Keep only the most accurate synonym for character features. If the uploaded tags do not match the image or there are omissions, supplement or correct them based on the image content. When summarizing the character's face shape, put it in the "Others" category.
    Use natural language to describe the character's actions in detail.
  4. The prompt format should be: Art style, a XXX picture of a girl named XXX, a girl named XXX has XXX appearance, a girl named XXX has XXX clothing, a girl named XXX performs XXX action. Replace XXX with the character's name and append the "(soul tide)" suffix. Include this suffix in the summary as well. Prioritize following the user's new instructions.
  5. [Summary] After completing the above organization, gather and arrange all clothing-related tags together.

IMPORTANT: Please strictly maintain the following format for your reply. Do not change the file name marker, and place it in a code block to prevent the '#' symbol from being swallowed, so that I can write it back to the file via a script:

FILE: filename.txt

tag1, tag2, tag3...

Output the tagging/modification logic first, then output the prompt words, and finally summarize the character and clothing features in the following format:
Character Features:
Clothing Features:
Props (leave blank if none):
Others:

Place the modified tags in a code block, and output the summary directly.
Note that classifications like expressions should be placed in "Others". Check to ensure the tags in the Plaintext are consistent with those in the summary, avoiding situations where tags exist in the summary but not in the Plaintext, or vice versa.
When tagging, use natural language to describe the character's appearance and clothing in detail. The character features in the summary should not include perspective. Expressions (eye color belongs to Character Features, while closed eyes belongs to Others) should be placed in "Others", breast size should be placed in "Others", and traits like a mole on the breast should be placed in "Character Features".
When summarizing, the character, clothing, and props should not carry the prefix "a girl named XXX"; only place the character's name at the beginning of the character summary.

Thanks for the reply. I'll try to rework my training approach, but I still don't understand the tag description. Was it a prompt for "labeling" or a guide on how to label a dataset yourself?
I'm still trying to find training parameters, as I've got transfer results so far, but things like "jewelry" often transfer incorrectly. I'm also still having problems with the transfer itself: the background behind the character stubbornly doesn't change, even when I specify something like "girl standing in bathroom." It often makes the background white or partially changes, mixing in a plain background. I've also encountered a problem I'm trying to solve: clothing sticking to the character. For example, my character has three poses: naked, in a dress, and in a sweater. During subsequent generations, the character is generated in the correct pose, but now wearing clothing that shouldn't be there according to the prompt. I also can't understand why the Anima model stubbornly pushes any censorship on my picture. Even if I write, for example, "the character changes clothes in the shower," it pushes censorship on my chest... and it would be fine if this happened on a woman's chest, but sometimes it also covers a man's chest with a haze HD, so I don't yet know how to deal with the censorship and the problem with training.

QQ20260521-111956
You can try using a large language model for natural language tagging (the @lhcx at the beginning is not required).

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Yes, based on my experience with SDXL/Illustrious/Noobai, I always clean the dataset from the background, i.e. all my images have a transparent background.

I applied the markup based on a recommendation from a neural network based on comments from Reddit, without the clutter of Sdxl:
Perstest, 1girl, perstestOutf, long hair, blue eyes, large breasts, brown hair, long sleeves, hair ornament, cleavage, very long hair, pointy ears, star pointy earrings, blue choker, virtual youtuber, beads hairclip, beads necklace, white kneehighs, red bow, clothing cutout, thigh strap, blue dress, white socks, short dress, frilled dress, cleavage cutout, single thighhigh, puffy long sleeves, blue nails, dragon horns, asymmetrical legwear, star hair ornament, dragon tail, bridal garter, uneven legwear, single sock, frilled kneehighs, demon wings, low wings, heart ahoge, heart-shaped pupils, criss-cross straps, criss-cross halter, blue skirt, plaid skirt, frilled skirt, pleated skirt, white thighhighs, cowboy shot,

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

Use English natural language to tag the characters in the images for the training set of an anime-specialized LoRA model. The specific rules are as follows:

  1. [Clothing Description] Each piece of clothing corresponds to only one independent tag, separated by English commas (e.g., white blouse, black pleated skirt, knee-high socks). Prohibit the use of wearing verbs such as "wearing", "dressed in", or "putting on"; instead, use noun phrases or prepositional phrases for direct descriptions (e.g., red scarf around neck, gloves on hands). Avoid general terms (like shoes, clothes) and use precise descriptions instead (like white platform sneakers, sheer stockings). Keep only the most appropriate one among synonymous tags for the same type of clothing, without repetition. One piece of clothing/accessory corresponds to exactly one prompt word. As long as it is a piece of clothing, it corresponds to only one prompt word. Do not use different prompt words just because the perspective changes while the clothing itself hasn't changed (do not change the prompt word for a specific piece of clothing, but also do not forcefully apply the complete prompt words to images where the corresponding clothing does not appear; adjust according to the visual cropping of the image).
  2. [Directional Description] Allow the use of spatial directional words for auxiliary positioning, such as on the left arm, around the waist, on the right wrist, etc.
  3. [Other Content] Retain tags describing character features (hair color, hairstyle, eye color, pupil shape, etc.), actions, and backgrounds. Describe actions using natural language. Add "@lhcx" at the very beginning of the prompt. Use natural language to describe the art style (do not use vague descriptions like "anime" or "exquisite anime illustration"; describe the style, painting method, and brushstrokes in detail). Keep only the most accurate synonym for character features. If the uploaded tags do not match the image or there are omissions, supplement or correct them based on the image content. When summarizing the character's face shape, put it in the "Others" category.
    Use natural language to describe the character's actions in detail.
  4. The prompt format should be: Art style, a XXX picture of a girl named XXX, a girl named XXX has XXX appearance, a girl named XXX has XXX clothing, a girl named XXX performs XXX action. Replace XXX with the character's name and append the "(soul tide)" suffix. Include this suffix in the summary as well. Prioritize following the user's new instructions.
  5. [Summary] After completing the above organization, gather and arrange all clothing-related tags together.

IMPORTANT: Please strictly maintain the following format for your reply. Do not change the file name marker, and place it in a code block to prevent the '#' symbol from being swallowed, so that I can write it back to the file via a script:

FILE: filename.txt

tag1, tag2, tag3...

Output the tagging/modification logic first, then output the prompt words, and finally summarize the character and clothing features in the following format:
Character Features:
Clothing Features:
Props (leave blank if none):
Others:

Place the modified tags in a code block, and output the summary directly.
Note that classifications like expressions should be placed in "Others". Check to ensure the tags in the Plaintext are consistent with those in the summary, avoiding situations where tags exist in the summary but not in the Plaintext, or vice versa.
When tagging, use natural language to describe the character's appearance and clothing in detail. The character features in the summary should not include perspective. Expressions (eye color belongs to Character Features, while closed eyes belongs to Others) should be placed in "Others", breast size should be placed in "Others", and traits like a mole on the breast should be placed in "Character Features".
When summarizing, the character, clothing, and props should not carry the prefix "a girl named XXX"; only place the character's name at the beginning of the character summary.

Thanks for the reply. I'll try to rework my training approach, but I still don't understand the tag description. Was it a prompt for "labeling" or a guide on how to label a dataset yourself?
I'm still trying to find training parameters, as I've got transfer results so far, but things like "jewelry" often transfer incorrectly. I'm also still having problems with the transfer itself: the background behind the character stubbornly doesn't change, even when I specify something like "girl standing in bathroom." It often makes the background white or partially changes, mixing in a plain background. I've also encountered a problem I'm trying to solve: clothing sticking to the character. For example, my character has three poses: naked, in a dress, and in a sweater. During subsequent generations, the character is generated in the correct pose, but now wearing clothing that shouldn't be there according to the prompt. I also can't understand why the Anima model stubbornly pushes any censorship on my picture. Even if I write, for example, "the character changes clothes in the shower," it pushes censorship on my chest... and it would be fine if this happened on a woman's chest, but sometimes it also covers a man's chest with a haze HD, so I don't yet know how to deal with the censorship and the problem with training.

QQ20260521-111956
You can try using a large language model for natural language tagging (the @lhcx at the beginning is not required).

What neural network would you recommend for dataset labeling? I use online neural networks and have LM Studio on my computer, but so far, none of the ones I've tried have the functionality to label data.

I applied the markup based on a recommendation from a neural network based on comments from Reddit, without the clutter of Sdxl:
Perstest, 1girl, perstestOutf, long hair, blue eyes, large breasts, brown hair, long sleeves, hair ornament, cleavage, very long hair, pointy ears, star pointy earrings, blue choker, virtual youtuber, beads hairclip, beads necklace, white kneehighs, red bow, clothing cutout, thigh strap, blue dress, white socks, short dress, frilled dress, cleavage cutout, single thighhigh, puffy long sleeves, blue nails, dragon horns, asymmetrical legwear, star hair ornament, dragon tail, bridal garter, uneven legwear, single sock, frilled kneehighs, demon wings, low wings, heart ahoge, heart-shaped pupils, criss-cross straps, criss-cross halter, blue skirt, plaid skirt, frilled skirt, pleated skirt, white thighhighs, cowboy shot,

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

Use English natural language to tag the characters in the images for the training set of an anime-specialized LoRA model. The specific rules are as follows:

  1. [Clothing Description] Each piece of clothing corresponds to only one independent tag, separated by English commas (e.g., white blouse, black pleated skirt, knee-high socks). Prohibit the use of wearing verbs such as "wearing", "dressed in", or "putting on"; instead, use noun phrases or prepositional phrases for direct descriptions (e.g., red scarf around neck, gloves on hands). Avoid general terms (like shoes, clothes) and use precise descriptions instead (like white platform sneakers, sheer stockings). Keep only the most appropriate one among synonymous tags for the same type of clothing, without repetition. One piece of clothing/accessory corresponds to exactly one prompt word. As long as it is a piece of clothing, it corresponds to only one prompt word. Do not use different prompt words just because the perspective changes while the clothing itself hasn't changed (do not change the prompt word for a specific piece of clothing, but also do not forcefully apply the complete prompt words to images where the corresponding clothing does not appear; adjust according to the visual cropping of the image).
  2. [Directional Description] Allow the use of spatial directional words for auxiliary positioning, such as on the left arm, around the waist, on the right wrist, etc.
  3. [Other Content] Retain tags describing character features (hair color, hairstyle, eye color, pupil shape, etc.), actions, and backgrounds. Describe actions using natural language. Add "@lhcx" at the very beginning of the prompt. Use natural language to describe the art style (do not use vague descriptions like "anime" or "exquisite anime illustration"; describe the style, painting method, and brushstrokes in detail). Keep only the most accurate synonym for character features. If the uploaded tags do not match the image or there are omissions, supplement or correct them based on the image content. When summarizing the character's face shape, put it in the "Others" category.
    Use natural language to describe the character's actions in detail.
  4. The prompt format should be: Art style, a XXX picture of a girl named XXX, a girl named XXX has XXX appearance, a girl named XXX has XXX clothing, a girl named XXX performs XXX action. Replace XXX with the character's name and append the "(soul tide)" suffix. Include this suffix in the summary as well. Prioritize following the user's new instructions.
  5. [Summary] After completing the above organization, gather and arrange all clothing-related tags together.

IMPORTANT: Please strictly maintain the following format for your reply. Do not change the file name marker, and place it in a code block to prevent the '#' symbol from being swallowed, so that I can write it back to the file via a script:

FILE: filename.txt

tag1, tag2, tag3...

Output the tagging/modification logic first, then output the prompt words, and finally summarize the character and clothing features in the following format:
Character Features:
Clothing Features:
Props (leave blank if none):
Others:

Place the modified tags in a code block, and output the summary directly.
Note that classifications like expressions should be placed in "Others". Check to ensure the tags in the Plaintext are consistent with those in the summary, avoiding situations where tags exist in the summary but not in the Plaintext, or vice versa.
When tagging, use natural language to describe the character's appearance and clothing in detail. The character features in the summary should not include perspective. Expressions (eye color belongs to Character Features, while closed eyes belongs to Others) should be placed in "Others", breast size should be placed in "Others", and traits like a mole on the breast should be placed in "Character Features".
When summarizing, the character, clothing, and props should not carry the prefix "a girl named XXX"; only place the character's name at the beginning of the character summary.

Thanks for the reply. I'll try to rework my training approach, but I still don't understand the tag description. Was it a prompt for "labeling" or a guide on how to label a dataset yourself?
I'm still trying to find training parameters, as I've got transfer results so far, but things like "jewelry" often transfer incorrectly. I'm also still having problems with the transfer itself: the background behind the character stubbornly doesn't change, even when I specify something like "girl standing in bathroom." It often makes the background white or partially changes, mixing in a plain background. I've also encountered a problem I'm trying to solve: clothing sticking to the character. For example, my character has three poses: naked, in a dress, and in a sweater. During subsequent generations, the character is generated in the correct pose, but now wearing clothing that shouldn't be there according to the prompt. I also can't understand why the Anima model stubbornly pushes any censorship on my picture. Even if I write, for example, "the character changes clothes in the shower," it pushes censorship on my chest... and it would be fine if this happened on a woman's chest, but sometimes it also covers a man's chest with a haze HD, so I don't yet know how to deal with the censorship and the problem with training.

QQ20260521-111956
You can try using a large language model for natural language tagging (the @lhcx at the beginning is not required).

What neural network would you recommend for dataset labeling? I use online neural networks and have LM Studio on my computer, but so far, none of the ones I've tried have the functionality to label data.

I directly used the Gemini web interface for image tagging, and then ran a script to save the model's output to a file. (If any edits are needed, you can simply ask the LLM to make them. I also highly recommend uploading only the front, side, and back full-body portraits first, and then bulk uploading the rest of the images in the next round of conversation. Limiting the initial input to just 1-4 images helps the model focus and yields much better tagging results.)

You can get the script from my Hugging Face repository: kongbai-84/soultide_lora. The file is named 整合.pwy. Since I'm Chinese, the script's interface is in Chinese, but you can easily ask an LLM to translate the UI into English for your convenience.

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Yes, based on my experience with SDXL/Illustrious/Noobai, I always clean the dataset from the background, i.e. all my images have a transparent background.

My apologies, I didn't express myself clearly. To clarify, you actually need to completely remove the alpha channel (transparency) from your images, rather than keeping the background transparent. The Anima model itself and its VAE cannot directly process alpha channels; if left in, the transparency will be interpreted as weird artifacts. The script I shared includes a background-filling feature, so you can just use that to process your training dataset.

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Yes, based on my experience with SDXL/Illustrious/Noobai, I always clean the dataset from the background, i.e. all my images have a transparent background.

My apologies, I didn't express myself clearly. To clarify, you actually need to completely remove the alpha channel (transparency) from your images, rather than keeping the background transparent. The Anima model itself and its VAE cannot directly process alpha channels; if left in, the transparency will be interpreted as weird artifacts. The script I shared includes a background-filling feature, so you can just use that to process your training dataset.

No problem, I'm using a translator because I'm Russian and will be translating xD directly into my own language. Regarding the dataset, am I correct in understanding that it will be enough for me to add a simple background to the dataset and mark it, and then there will be fewer artifacts during generation?

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Yes, based on my experience with SDXL/Illustrious/Noobai, I always clean the dataset from the background, i.e. all my images have a transparent background.

My apologies, I didn't express myself clearly. To clarify, you actually need to completely remove the alpha channel (transparency) from your images, rather than keeping the background transparent. The Anima model itself and its VAE cannot directly process alpha channels; if left in, the transparency will be interpreted as weird artifacts. The script I shared includes a background-filling feature, so you can just use that to process your training dataset.

No problem, I'm using a translator because I'm Russian and will be translating xD directly into my own language. Regarding the dataset, am I correct in understanding that it will be enough for me to add a simple background to the dataset and mark it, and then there will be fewer artifacts during generation?

Да, всё верно! Вот что именно нужно сделать:

Удали альфа-канал (прозрачность) из изображений, сделав фон сплошным (например, чисто белым).

Затем добавь в теги (prompts) такие слова, как simple background, white background или transparent background.

Это поможет модели понять, что белый цвет — это просто фон, а не часть одежды или тела персонажа. Такой подход значительно уменьшит появление артефактов и решит проблему, когда при генерации фон всегда получается только белым.

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Yes, based on my experience with SDXL/Illustrious/Noobai, I always clean the dataset from the background, i.e. all my images have a transparent background.

My apologies, I didn't express myself clearly. To clarify, you actually need to completely remove the alpha channel (transparency) from your images, rather than keeping the background transparent. The Anima model itself and its VAE cannot directly process alpha channels; if left in, the transparency will be interpreted as weird artifacts. The script I shared includes a background-filling feature, so you can just use that to process your training dataset.

No problem, I'm using a translator because I'm Russian and will be translating xD directly into my own language. Regarding the dataset, am I correct in understanding that it will be enough for me to add a simple background to the dataset and mark it, and then there will be fewer artifacts during generation?

Проще говоря, во время обучения LoRA модель пытается изучить все визуальные элементы на изображении и привязать их к предоставленным текстовым тегам.

Проблема привязки тегов (Смешивание концепций): Если для какого-то элемента (например, фона) нет конкретного тега, модель начинает путаться. Она не знает автоматически, что это просто фон. Вместо этого она вынужденно привязывает эти особенности фона к другим доступным тегам (обычно к чертам самого персонажа).

Проблема прозрачности (Альфа-канал) и VAE: Кроме того, базовые модели (такие как Anima) изначально не обучались на изображениях с прозрачным фоном (альфа-каналом). Модель в принципе не понимает, что такое прозрачность. На этапе кодирования VAE эта нераспознанная прозрачность принудительно искажается и превращается в грубые визуальные артефакты (например, чёрные пиксели или шум). В результате модель учится на изображениях, где фон полностью покрыт этим визуальным мусором, и перенимает эти ошибки.

Good afternoon, I've encountered a problem. I'm training Lora character with different characters, and I've been training it on Illustrious/noobai, but yesterday I started trying to train Lora on the Anima standalone trainer, and I've encountered issues: the white background of the character doesn't disappear even if I increase the power of the promt, and if I increase it too much, it causes a problem similar to the one in the picture. Can anyone help me understand the issue? The training parameters were as follows:
gpu_ids = "0"

[training_arguments]
output_name = "Training_test_lora"
save_model_as = "safetensors"
max_train_epochs = 7
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 1
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = false
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
disable_bucket_shuffle = true
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 24
network_alpha = 12
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-19 182452

By the way, you should also check if the PNG images in your training set still have their alpha channels. The background in your sample images looks exactly like the kind of artifacting caused by training a model on images without stripping the transparency channel first.

Yes, based on my experience with SDXL/Illustrious/Noobai, I always clean the dataset from the background, i.e. all my images have a transparent background.

My apologies, I didn't express myself clearly. To clarify, you actually need to completely remove the alpha channel (transparency) from your images, rather than keeping the background transparent. The Anima model itself and its VAE cannot directly process alpha channels; if left in, the transparency will be interpreted as weird artifacts. The script I shared includes a background-filling feature, so you can just use that to process your training dataset.

No problem, I'm using a translator because I'm Russian and will be translating xD directly into my own language. Regarding the dataset, am I correct in understanding that it will be enough for me to add a simple background to the dataset and mark it, and then there will be fewer artifacts during generation?

Проще говоря, во время обучения LoRA модель пытается изучить все визуальные элементы на изображении и привязать их к предоставленным текстовым тегам.

Проблема привязки тегов (Смешивание концепций): Если для какого-то элемента (например, фона) нет конкретного тега, модель начинает путаться. Она не знает автоматически, что это просто фон. Вместо этого она вынужденно привязывает эти особенности фона к другим доступным тегам (обычно к чертам самого персонажа).

Проблема прозрачности (Альфа-канал) и VAE: Кроме того, базовые модели (такие как Anima) изначально не обучались на изображениях с прозрачным фоном (альфа-каналом). Модель в принципе не понимает, что такое прозрачность. На этапе кодирования VAE эта нераспознанная прозрачность принудительно искажается и превращается в грубые визуальные артефакты (например, чёрные пиксели или шум). В результате модель учится на изображениях, где фон полностью покрыт этим визуальным мусором, и перенимает эти ошибки.

Ого спасибо за такое подробное объяснение

Shadyman961 changed discussion status to closed
Shadyman961 changed discussion status to open

Проще говоря, во время обучения LoRA модель пытается изучить все визуальные элементы на изображении и привязать их к предоставленным текстовым тегам.

Проблема привязки тегов (Смешивание концепций): Если для какого-то элемента (например, фона) нет конкретного тега, модель начинает путаться. Она не знает автоматически, что это просто фон. Вместо этого она вынужденно привязывает эти особенности фона к другим доступным тегам (обычно к чертам самого персонажа).

Проблема прозрачности (Альфа-канал) и VAE: Кроме того, базовые модели (такие как Anima) изначально не обучались на изображениях с прозрачным фоном (альфа-каналом). Модель в принципе не понимает, что такое прозрачность. На этапе кодирования VAE эта нераспознанная прозрачность принудительно искажается и превращается в грубые визуальные артефакты (например, чёрные пиксели или шум). В результате модель учится на изображениях, где фон полностью покрыт этим визуальным мусором, и перенимает эти ошибки.

попробовал добавить фон и попробовал обучить теперь меня смущает что результатом моего обучения стали очень зернистые арты и текстуры, а если я начинаю использовать допустим стили художников из списка стилей то получаются артефачные арты, не говоря уже о том что персонаж максимально не запомнился, я попробовал на разных параметрах, и вот самый удачный и близкий к оригиналу
Снимок экрана 2026-05-22 214926
gpu_ids = "0"

[training_arguments]
output_name = "MissMalinaAnimaV1"
save_model_as = "safetensors"
max_train_epochs = 8
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 0
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 16
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 5
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-22 215744

вот что получается при генерации, а вот что было в оригинале на ушке и чокере, получается максимально не точно и полностью артефачно, я уже молчу про то что он делает непонятное животное рядом с девушкой хотя явно он не прописан, в общем я полностью непонимаю что делаю не правильно...

image

image

Проще говоря, во время обучения LoRA модель пытается изучить все визуальные элементы на изображении и привязать их к предоставленным текстовым тегам.

Проблема привязки тегов (Смешивание концепций): Если для какого-то элемента (например, фона) нет конкретного тега, модель начинает путаться. Она не знает автоматически, что это просто фон. Вместо этого она вынужденно привязывает эти особенности фона к другим доступным тегам (обычно к чертам самого персонажа).

Проблема прозрачности (Альфа-канал) и VAE: Кроме того, базовые модели (такие как Anima) изначально не обучались на изображениях с прозрачным фоном (альфа-каналом). Модель в принципе не понимает, что такое прозрачность. На этапе кодирования VAE эта нераспознанная прозрачность принудительно искажается и превращается в грубые визуальные артефакты (например, чёрные пиксели или шум). В результате модель учится на изображениях, где фон полностью покрыт этим визуальным мусором, и перенимает эти ошибки.

попробовал добавить фон и попробовал обучить теперь меня смущает что результатом моего обучения стали очень зернистые арты и текстуры, а если я начинаю использовать допустим стили художников из списка стилей то получаются артефачные арты, не говоря уже о том что персонаж максимально не запомнился, я попробовал на разных параметрах, и вот самый удачный и близкий к оригиналу
Снимок экрана 2026-05-22 214926
gpu_ids = "0"

[training_arguments]
output_name = "MissMalinaAnimaV1"
save_model_as = "safetensors"
max_train_epochs = 8
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 0
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 16
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 5
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-22 215744

вот что получается при генерации, а вот что было в оригинале на ушке и чокере, получается максимально не точно и полностью артефачно, я уже молчу про то что он делает непонятное животное рядом с девушкой хотя явно он не прописан, в общем я полностью непонимаю что делаю не правильно...

image

image

Вам следует изменить оптимизатор на AdamW или AdamW8bit, а также снизить скорость обучения до 0.00002–0.00005. Модель Anima не подходит для использования с Prodigy, так как это приводит к слишком высокой скорости обучения, из-за чего LoRA сильно переобучается. Ваша LoRA явно переобучена.

Проще говоря, во время обучения LoRA модель пытается изучить все визуальные элементы на изображении и привязать их к предоставленным текстовым тегам.

Проблема привязки тегов (Смешивание концепций): Если для какого-то элемента (например, фона) нет конкретного тега, модель начинает путаться. Она не знает автоматически, что это просто фон. Вместо этого она вынужденно привязывает эти особенности фона к другим доступным тегам (обычно к чертам самого персонажа).

Проблема прозрачности (Альфа-канал) и VAE: Кроме того, базовые модели (такие как Anima) изначально не обучались на изображениях с прозрачным фоном (альфа-каналом). Модель в принципе не понимает, что такое прозрачность. На этапе кодирования VAE эта нераспознанная прозрачность принудительно искажается и превращается в грубые визуальные артефакты (например, чёрные пиксели или шум). В результате модель учится на изображениях, где фон полностью покрыт этим визуальным мусором, и перенимает эти ошибки.

попробовал добавить фон и попробовал обучить теперь меня смущает что результатом моего обучения стали очень зернистые арты и текстуры, а если я начинаю использовать допустим стили художников из списка стилей то получаются артефачные арты, не говоря уже о том что персонаж максимально не запомнился, я попробовал на разных параметрах, и вот самый удачный и близкий к оригиналу
Снимок экрана 2026-05-22 214926
gpu_ids = "0"

[training_arguments]
output_name = "MissMalinaAnimaV1"
save_model_as = "safetensors"
max_train_epochs = 8
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 1
text_encoder_lr = 0
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 0
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 16
network_train_unet_only = true
network_dropout = 0.05
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 5
weighting_scheme = "logit_normal"

Снимок экрана 2026-05-22 215744

вот что получается при генерации, а вот что было в оригинале на ушке и чокере, получается максимально не точно и полностью артефачно, я уже молчу про то что он делает непонятное животное рядом с девушкой хотя явно он не прописан, в общем я полностью непонимаю что делаю не правильно...

image

image

Если после смены оптимизатора и скорости обучения вам удастся получить рабочий LoRA, вы можете попробовать послойную настройку скорости обучения (если ваш трейнер это поддерживает).

Блоки 0-9 — это начальные слои, они в основном контролируют позу и композицию. Блоки 10-18 — средние слои, отвечающие за внешность персонажа, одежду и подобные детали. Блоки 19-27 — глубокие слои, которые в основном влияют на стиль рисовки и освещение.

Вы можете использовать нормальную скорость обучения для слоев 10-18 и пониженную для 0-9 и 19-27. Это поможет снизить переобучение стиля и уменьшить вероятность искажения пальцев (анатомии) при использовании LoRA.

Если же после изменения оптимизатора и скорости обучения проблема сохранится, значит, дело в самом датасете. Вы можете показать мне вашу обучающую выборку, чтобы я мог посмотреть.

Если после смены оптимизатора и скорости обучения вам удастся получить рабочий LoRA, вы можете попробовать послойную настройку скорости обучения (если ваш трейнер это поддерживает).

Блоки 0-9 — это начальные слои, они в основном контролируют позу и композицию. Блоки 10-18 — средние слои, отвечающие за внешность персонажа, одежду и подобные детали. Блоки 19-27 — глубокие слои, которые в основном влияют на стиль рисовки и освещение.

Вы можете использовать нормальную скорость обучения для слоев 10-18 и пониженную для 0-9 и 19-27. Это поможет снизить переобучение стиля и уменьшить вероятность искажения пальцев (анатомии) при использовании LoRA.

Если же после изменения оптимизатора и скорости обучения проблема сохранится, значит, дело в самом датасете. Вы можете показать мне вашу обучающую выборку, чтобы я мог посмотреть.

Я работаю в основном с переносом моделей с малым-средним датасетом, в моем наборе были от 4 картинок до 156, на Illustrious он нормально запоминал расположение деталей, но сами детали мазались, но даже с этим я смог преуспеть поменяв подход и обучающий генератор, теперь они сохраняют форму но без узора. Хочу и на Anima научиться делать детальные лоры персонажей, в основном по тестам в Anima Standalone Trainer (место где в настоящий момент обучаю) AdamW и AdamW8Bit частенько теряли консистенцию персонажа, общую рисовку или же детали персонажа. Сегодня как освобожусь попробую перенастроить на AdamW или AdamW8bit, но пока не знаю какой лучше что бы сохранить максимум деталей, и надо ли как в Illustrious дробить датасет на папки по принципу "важные детали для запоминания в отдельных папках крупным планом"... Я так же обычно дробил датасет на отдельные костюмы и если персонаж поддерживал в оригинале голые версии что бы лучше запоминалась анатомия

Если после смены оптимизатора и скорости обучения вам удастся получить рабочий LoRA, вы можете попробовать послойную настройку скорости обучения (если ваш трейнер это поддерживает).

Блоки 0-9 — это начальные слои, они в основном контролируют позу и композицию. Блоки 10-18 — средние слои, отвечающие за внешность персонажа, одежду и подобные детали. Блоки 19-27 — глубокие слои, которые в основном влияют на стиль рисовки и освещение.

Вы можете использовать нормальную скорость обучения для слоев 10-18 и пониженную для 0-9 и 19-27. Это поможет снизить переобучение стиля и уменьшить вероятность искажения пальцев (анатомии) при использовании LoRA.

Если же после изменения оптимизатора и скорости обучения проблема сохранится, значит, дело в самом датасете. Вы можете показать мне вашу обучающую выборку, чтобы я мог посмотреть.

Я работаю в основном с переносом моделей с малым-средним датасетом, в моем наборе были от 4 картинок до 156, на Illustrious он нормально запоминал расположение деталей, но сами детали мазались, но даже с этим я смог преуспеть поменяв подход и обучающий генератор, теперь они сохраняют форму но без узора. Хочу и на Anima научиться делать детальные лоры персонажей, в основном по тестам в Anima Standalone Trainer (место где в настоящий момент обучаю) AdamW и AdamW8Bit частенько теряли консистенцию персонажа, общую рисовку или же детали персонажа. Сегодня как освобожусь попробую перенастроить на AdamW или AdamW8bit, но пока не знаю какой лучше что бы сохранить максимум деталей, и надо ли как в Illustrious дробить датасет на папки по принципу "важные детали для запоминания в отдельных папках крупным планом"... Я так же обычно дробил датасет на отдельные костюмы и если персонаж поддерживал в оригинале голые версии что бы лучше запоминалась анатомия

Размещение деталей, которые модель должна запомнить, в отдельной папке с установкой более высокого количества повторений (repeats) действительно помогает модели лучше их усвоить. Если позволяет разрешение вашего датасета, попробуйте тренировать на 1024 или 1536. Если при использовании оптимизатора AdamW некоторые детали не усваиваются, необходимо увеличить скорость обучения (learning rate) или добавить больше эпох (epochs) обучения.

Что касается тегирования (разметки) датасета: использование подробных и точных описаний позволяет модели лучше изучать детали. На мой взгляд, качество ваших предыдущих тегов было не очень высоким — там присутствовали дублирующиеся смыслы. Я обычно объединяю теги после первоначальной разметки. Например, «один носок» (single sock), «белый носок» (white sock) и «белые гольфы» (white knee-high socks) лучше объединить в «белый гольф на одной ноге» (white knee-high sock on one leg). Кроме того, Anima поддерживает естественный язык (natural language), поэтому вы можете напрямую добавлять такие уточнения, как «слева» (left) и «справа» (right).

Также вы можете использовать мультимодальные модели, такие как Gemini, для автоматического тегирования. Просто отправьте модели изображения из датасета вместе со следующим промптом (отредактированным под ваши нужды). Затем вы можете использовать скрипт для автоматической записи ответов модели в соответствующие .txt файлы. Скрипт можно скачать из репозитория kongbai-84/soultide_lora в ветке main, файл называется (整合.pyw).

[Промпт для ИИ]:
Используй английский естественный язык для тегирования персонажа на изображении. Это датасет для обучения LoRA аниме-модели. Строгие правила:

  1. [Описание одежды]: Каждому элементу одежды соответствует только один уникальный тег. Разделяй теги запятыми (например: white blouse, black pleated skirt, knee-high socks). Запрещено использовать глаголы ношения (wearing, dressed in, putting on), используй существительные или предложные фразы (например: red scarf around neck, gloves on hands). Избегай общих слов (shoes, clothes), используй точные описания (white platform sneakers, sheer stockings). Из синонимов для одного элемента одежды оставляй только самый точный, без повторений. Одному предмету одежды/аксессуару соответствует строго один промпт. Не меняй тег предмета одежды только из-за смены ракурса (но адаптируй теги под визуальное кадрирование изображения, не добавляй полные теги одежды, если её не видно в кадре).
  2. [Описание положения]: Разрешено использовать слова для пространственной ориентации (например: on the left arm, around the waist, on the right wrist).
  3. [Прочее]: Сохраняй теги характеристик персонажа (цвет волос, прическа, цвет и форма зрачков и т.д.), действий и фона. Описывай действия естественным языком. Добавь @lhcx в самое начало промпта. Описывай стиль рисовки естественным языком (не используй общие фразы вроде "anime" или "beautiful anime illustration", подробно опиши стиль, технику, мазки). Для характеристик персонажа оставляй только один, самый точный тег из синонимов. Если загруженные теги не соответствуют изображению или есть упущения, исправь/дополни их на основе изображения. При сводке характеристик форму лица относи к категории "Прочее" (Other). Подробно описывай действия персонажа естественным языком.
  4. Формат промпта: [Стиль рисовки], a [XXX] image of a girl named [XXX], a girl named [XXX] has [внешность], a girl named [XXX] has [одежда], a girl named [XXX] does [действия]. Замените XXX на имя персонажа и добавьте суффикс (soul tide). В сводке также используйте этот суффикс. Приоритетно следуйте новым инструкциям пользователя.
  5. [Сводка]: После выполнения вышеуказанного, сгруппируйте все теги, связанные с одеждой, вместе.

ВАЖНО: Строго соблюдай следующий формат ответа, не меняй маркер имени файла. Помести это в блок кода, чтобы символ # не исчез, так мой скрипт сможет записать это в файл:

FILE: ИмяФайла.txt

tag1, tag2, tag3...

Сначала выведи логику тегирования/изменений, затем сами промпты, и в конце выведи сводку характеристик в следующем формате:
Характеристики персонажа:
Характеристики одежды:
Реквизит (оставить пустым, если нет):
Прочее:

Измененные теги помести в блок кода, а сводку выведи обычным текстом.
Внимание: ракурсы, эмоции (цвет глаз — это характеристика персонажа, а "закрытые глаза" — это прочее) и размер груди помещай в "Прочее". А вот родинка на груди — это "Характеристика персонажа". Убедись, что теги в блоке кода (Plaintext) и в Сводке полностью совпадают.
При составлении сводки для персонажа, одежды и реквизита не используй префикс "a girl named XXX", просто укажи имя персонажа первым в списке характеристик персонажа.

Если после смены оптимизатора и скорости обучения вам удастся получить рабочий LoRA, вы можете попробовать послойную настройку скорости обучения (если ваш трейнер это поддерживает).

Блоки 0-9 — это начальные слои, они в основном контролируют позу и композицию. Блоки 10-18 — средние слои, отвечающие за внешность персонажа, одежду и подобные детали. Блоки 19-27 — глубокие слои, которые в основном влияют на стиль рисовки и освещение.

Вы можете использовать нормальную скорость обучения для слоев 10-18 и пониженную для 0-9 и 19-27. Это поможет снизить переобучение стиля и уменьшить вероятность искажения пальцев (анатомии) при использовании LoRA.

Если же после изменения оптимизатора и скорости обучения проблема сохранится, значит, дело в самом датасете. Вы можете показать мне вашу обучающую выборку, чтобы я мог посмотреть.

Я работаю в основном с переносом моделей с малым-средним датасетом, в моем наборе были от 4 картинок до 156, на Illustrious он нормально запоминал расположение деталей, но сами детали мазались, но даже с этим я смог преуспеть поменяв подход и обучающий генератор, теперь они сохраняют форму но без узора. Хочу и на Anima научиться делать детальные лоры персонажей, в основном по тестам в Anima Standalone Trainer (место где в настоящий момент обучаю) AdamW и AdamW8Bit частенько теряли консистенцию персонажа, общую рисовку или же детали персонажа. Сегодня как освобожусь попробую перенастроить на AdamW или AdamW8bit, но пока не знаю какой лучше что бы сохранить максимум деталей, и надо ли как в Illustrious дробить датасет на папки по принципу "важные детали для запоминания в отдельных папках крупным планом"... Я так же обычно дробил датасет на отдельные костюмы и если персонаж поддерживал в оригинале голые версии что бы лучше запоминалась анатомия

Размещение деталей, которые модель должна запомнить, в отдельной папке с установкой более высокого количества повторений (repeats) действительно помогает модели лучше их усвоить. Если позволяет разрешение вашего датасета, попробуйте тренировать на 1024 или 1536. Если при использовании оптимизатора AdamW некоторые детали не усваиваются, необходимо увеличить скорость обучения (learning rate) или добавить больше эпох (epochs) обучения.

Что касается тегирования (разметки) датасета: использование подробных и точных описаний позволяет модели лучше изучать детали. На мой взгляд, качество ваших предыдущих тегов было не очень высоким — там присутствовали дублирующиеся смыслы. Я обычно объединяю теги после первоначальной разметки. Например, «один носок» (single sock), «белый носок» (white sock) и «белые гольфы» (white knee-high socks) лучше объединить в «белый гольф на одной ноге» (white knee-high sock on one leg). Кроме того, Anima поддерживает естественный язык (natural language), поэтому вы можете напрямую добавлять такие уточнения, как «слева» (left) и «справа» (right).

Также вы можете использовать мультимодальные модели, такие как Gemini, для автоматического тегирования. Просто отправьте модели изображения из датасета вместе со следующим промптом (отредактированным под ваши нужды). Затем вы можете использовать скрипт для автоматической записи ответов модели в соответствующие .txt файлы. Скрипт можно скачать из репозитория kongbai-84/soultide_lora в ветке main, файл называется (整合.pyw).

[Промпт для ИИ]:
Используй английский естественный язык для тегирования персонажа на изображении. Это датасет для обучения LoRA аниме-модели. Строгие правила:

  1. [Описание одежды]: Каждому элементу одежды соответствует только один уникальный тег. Разделяй теги запятыми (например: white blouse, black pleated skirt, knee-high socks). Запрещено использовать глаголы ношения (wearing, dressed in, putting on), используй существительные или предложные фразы (например: red scarf around neck, gloves on hands). Избегай общих слов (shoes, clothes), используй точные описания (white platform sneakers, sheer stockings). Из синонимов для одного элемента одежды оставляй только самый точный, без повторений. Одному предмету одежды/аксессуару соответствует строго один промпт. Не меняй тег предмета одежды только из-за смены ракурса (но адаптируй теги под визуальное кадрирование изображения, не добавляй полные теги одежды, если её не видно в кадре).
  2. [Описание положения]: Разрешено использовать слова для пространственной ориентации (например: on the left arm, around the waist, on the right wrist).
  3. [Прочее]: Сохраняй теги характеристик персонажа (цвет волос, прическа, цвет и форма зрачков и т.д.), действий и фона. Описывай действия естественным языком. Добавь @lhcx в самое начало промпта. Описывай стиль рисовки естественным языком (не используй общие фразы вроде "anime" или "beautiful anime illustration", подробно опиши стиль, технику, мазки). Для характеристик персонажа оставляй только один, самый точный тег из синонимов. Если загруженные теги не соответствуют изображению или есть упущения, исправь/дополни их на основе изображения. При сводке характеристик форму лица относи к категории "Прочее" (Other). Подробно описывай действия персонажа естественным языком.
  4. Формат промпта: [Стиль рисовки], a [XXX] image of a girl named [XXX], a girl named [XXX] has [внешность], a girl named [XXX] has [одежда], a girl named [XXX] does [действия]. Замените XXX на имя персонажа и добавьте суффикс (soul tide). В сводке также используйте этот суффикс. Приоритетно следуйте новым инструкциям пользователя.
  5. [Сводка]: После выполнения вышеуказанного, сгруппируйте все теги, связанные с одеждой, вместе.

ВАЖНО: Строго соблюдай следующий формат ответа, не меняй маркер имени файла. Помести это в блок кода, чтобы символ # не исчез, так мой скрипт сможет записать это в файл:

FILE: ИмяФайла.txt

tag1, tag2, tag3...

Сначала выведи логику тегирования/изменений, затем сами промпты, и в конце выведи сводку характеристик в следующем формате:
Характеристики персонажа:
Характеристики одежды:
Реквизит (оставить пустым, если нет):
Прочее:

Измененные теги помести в блок кода, а сводку выведи обычным текстом.
Внимание: ракурсы, эмоции (цвет глаз — это характеристика персонажа, а "закрытые глаза" — это прочее) и размер груди помещай в "Прочее". А вот родинка на груди — это "Характеристика персонажа". Убедись, что теги в блоке кода (Plaintext) и в Сводке полностью совпадают.
При составлении сводки для персонажа, одежды и реквизита не используй префикс "a girl named XXX", просто укажи имя персонажа первым в списке характеристик персонажа.

У меня возник вопрос, а нету ли в настоящее время аналога Anima standalone trainer? или где вы обучаете Lora?

Если после смены оптимизатора и скорости обучения вам удастся получить рабочий LoRA, вы можете попробовать послойную настройку скорости обучения (если ваш трейнер это поддерживает).

Блоки 0-9 — это начальные слои, они в основном контролируют позу и композицию. Блоки 10-18 — средние слои, отвечающие за внешность персонажа, одежду и подобные детали. Блоки 19-27 — глубокие слои, которые в основном влияют на стиль рисовки и освещение.

Вы можете использовать нормальную скорость обучения для слоев 10-18 и пониженную для 0-9 и 19-27. Это поможет снизить переобучение стиля и уменьшить вероятность искажения пальцев (анатомии) при использовании LoRA.

Если же после изменения оптимизатора и скорости обучения проблема сохранится, значит, дело в самом датасете. Вы можете показать мне вашу обучающую выборку, чтобы я мог посмотреть.

Я работаю в основном с переносом моделей с малым-средним датасетом, в моем наборе были от 4 картинок до 156, на Illustrious он нормально запоминал расположение деталей, но сами детали мазались, но даже с этим я смог преуспеть поменяв подход и обучающий генератор, теперь они сохраняют форму но без узора. Хочу и на Anima научиться делать детальные лоры персонажей, в основном по тестам в Anima Standalone Trainer (место где в настоящий момент обучаю) AdamW и AdamW8Bit частенько теряли консистенцию персонажа, общую рисовку или же детали персонажа. Сегодня как освобожусь попробую перенастроить на AdamW или AdamW8bit, но пока не знаю какой лучше что бы сохранить максимум деталей, и надо ли как в Illustrious дробить датасет на папки по принципу "важные детали для запоминания в отдельных папках крупным планом"... Я так же обычно дробил датасет на отдельные костюмы и если персонаж поддерживал в оригинале голые версии что бы лучше запоминалась анатомия

Размещение деталей, которые модель должна запомнить, в отдельной папке с установкой более высокого количества повторений (repeats) действительно помогает модели лучше их усвоить. Если позволяет разрешение вашего датасета, попробуйте тренировать на 1024 или 1536. Если при использовании оптимизатора AdamW некоторые детали не усваиваются, необходимо увеличить скорость обучения (learning rate) или добавить больше эпох (epochs) обучения.

Что касается тегирования (разметки) датасета: использование подробных и точных описаний позволяет модели лучше изучать детали. На мой взгляд, качество ваших предыдущих тегов было не очень высоким — там присутствовали дублирующиеся смыслы. Я обычно объединяю теги после первоначальной разметки. Например, «один носок» (single sock), «белый носок» (white sock) и «белые гольфы» (white knee-high socks) лучше объединить в «белый гольф на одной ноге» (white knee-high sock on one leg). Кроме того, Anima поддерживает естественный язык (natural language), поэтому вы можете напрямую добавлять такие уточнения, как «слева» (left) и «справа» (right).

Также вы можете использовать мультимодальные модели, такие как Gemini, для автоматического тегирования. Просто отправьте модели изображения из датасета вместе со следующим промптом (отредактированным под ваши нужды). Затем вы можете использовать скрипт для автоматической записи ответов модели в соответствующие .txt файлы. Скрипт можно скачать из репозитория kongbai-84/soultide_lora в ветке main, файл называется (整合.pyw).

[Промпт для ИИ]:
Используй английский естественный язык для тегирования персонажа на изображении. Это датасет для обучения LoRA аниме-модели. Строгие правила:

  1. [Описание одежды]: Каждому элементу одежды соответствует только один уникальный тег. Разделяй теги запятыми (например: white blouse, black pleated skirt, knee-high socks). Запрещено использовать глаголы ношения (wearing, dressed in, putting on), используй существительные или предложные фразы (например: red scarf around neck, gloves on hands). Избегай общих слов (shoes, clothes), используй точные описания (white platform sneakers, sheer stockings). Из синонимов для одного элемента одежды оставляй только самый точный, без повторений. Одному предмету одежды/аксессуару соответствует строго один промпт. Не меняй тег предмета одежды только из-за смены ракурса (но адаптируй теги под визуальное кадрирование изображения, не добавляй полные теги одежды, если её не видно в кадре).
  2. [Описание положения]: Разрешено использовать слова для пространственной ориентации (например: on the left arm, around the waist, on the right wrist).
  3. [Прочее]: Сохраняй теги характеристик персонажа (цвет волос, прическа, цвет и форма зрачков и т.д.), действий и фона. Описывай действия естественным языком. Добавь @lhcx в самое начало промпта. Описывай стиль рисовки естественным языком (не используй общие фразы вроде "anime" или "beautiful anime illustration", подробно опиши стиль, технику, мазки). Для характеристик персонажа оставляй только один, самый точный тег из синонимов. Если загруженные теги не соответствуют изображению или есть упущения, исправь/дополни их на основе изображения. При сводке характеристик форму лица относи к категории "Прочее" (Other). Подробно описывай действия персонажа естественным языком.
  4. Формат промпта: [Стиль рисовки], a [XXX] image of a girl named [XXX], a girl named [XXX] has [внешность], a girl named [XXX] has [одежда], a girl named [XXX] does [действия]. Замените XXX на имя персонажа и добавьте суффикс (soul tide). В сводке также используйте этот суффикс. Приоритетно следуйте новым инструкциям пользователя.
  5. [Сводка]: После выполнения вышеуказанного, сгруппируйте все теги, связанные с одеждой, вместе.

ВАЖНО: Строго соблюдай следующий формат ответа, не меняй маркер имени файла. Помести это в блок кода, чтобы символ # не исчез, так мой скрипт сможет записать это в файл:

FILE: ИмяФайла.txt

tag1, tag2, tag3...

Сначала выведи логику тегирования/изменений, затем сами промпты, и в конце выведи сводку характеристик в следующем формате:
Характеристики персонажа:
Характеристики одежды:
Реквизит (оставить пустым, если нет):
Прочее:

Измененные теги помести в блок кода, а сводку выведи обычным текстом.
Внимание: ракурсы, эмоции (цвет глаз — это характеристика персонажа, а "закрытые глаза" — это прочее) и размер груди помещай в "Прочее". А вот родинка на груди — это "Характеристика персонажа". Убедись, что теги в блоке кода (Plaintext) и в Сводке полностью совпадают.
При составлении сводки для персонажа, одежды и реквизита не используй префикс "a girl named XXX", просто укажи имя персонажа первым в списке характеристик персонажа.

У меня возник вопрос, а нету ли в настоящее время аналога Anima standalone trainer? или где вы обучаете Lora?

https://github.com/wochenlong/lora-scripts-next/releases/tag/v2.0.0

https://github.com/wochenlong/lora-scripts-next/releases/tag/v2.0.0

попробовал обучить с Adamw8bit и Cosine with restart, обучение прошло успешно, но баги остались примерно такими же , моделька теряет детальки и сережки не запоминает, паарметры обучения использовал такие:
gpu_ids = "0"

[training_arguments]
output_name = "MissMalinkaaltv3"
save_model_as = "safetensors"
max_train_epochs = 8
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 0.000025
text_encoder_lr = 0
optimizer_type = "AdamW8bit"
optimizer_args = [ "weight_decay=0.01" ]
lr_scheduler = "cosine_with_restarts"
lr_scheduler_num_cycles = 1
lr_warmup_steps = 5
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 16
network_train_unet_only = true
network_dropout = 0.03
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 5
weighting_scheme = "logit_normal"

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

https://github.com/wochenlong/lora-scripts-next/releases/tag/v2.0.0

попробовал обучить с Adamw8bit и Cosine with restart, обучение прошло успешно, но баги остались примерно такими же , моделька теряет детальки и сережки не запоминает, паарметры обучения использовал такие:
gpu_ids = "0"

[training_arguments]
output_name = "MissMalinkaaltv3"
save_model_as = "safetensors"
max_train_epochs = 8
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 0.000025
text_encoder_lr = 0
optimizer_type = "AdamW8bit"
optimizer_args = [ "weight_decay=0.01" ]
lr_scheduler = "cosine_with_restarts"
lr_scheduler_num_cycles = 1
lr_warmup_steps = 5
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 2
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 16
network_train_unet_only = true
network_dropout = 0.03
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 5
weighting_scheme = "logit_normal"

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

Не мог бы ты поделиться своим датасетом? Я могу попробовать заново разметить (тегировать) его и провести тестовую тренировку. После этого я отправлю тебе датасет с моими тегами, параметры обучения и получившийся LoRA в качестве примера.

Ты можешь скинуть файлы через Яндекс Диск или любой другой облачный сервис, где нет строгих ограничений по региону и обязательной регистрации.

Мне кажется, проблема заключается именно в разметке датасета. Обычно проблем с тем, что модель не может выучить аксессуары, не возникает. И еще один момент: нужно ли сделать так, чтобы этот LoRA на персонажа не влиял на общий стиль генерации (style bleed)? Это важно, так как от этого будет зависеть, как именно я настрою параметры обучения.

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

Не мог бы ты поделиться своим датасетом? Я могу попробовать заново разметить (тегировать) его и провести тестовую тренировку. После этого я отправлю тебе датасет с моими тегами, параметры обучения и получившийся LoRA в качестве примера.

Ты можешь скинуть файлы через Яндекс Диск или любой другой облачный сервис, где нет строгих ограничений по региону и обязательной регистрации.

Мне кажется, проблема заключается именно в разметке датасета. Обычно проблем с тем, что модель не может выучить аксессуары, не возникает. И еще один момент: нужно ли сделать так, чтобы этот LoRA на персонажа не влиял на общий стиль генерации (style bleed)? Это важно, так как от этого будет зависеть, как именно я настрою параметры обучения.

Я не могу передать его т.к. не имею доступа к серверу где он хранится, могу сказать соотношения артов по костюмам, сколько костюмов, касательно стиля, не знаю на Illustrious у меня был свой собранный стиль, и я всегда хотел что бы персонажи не тянули мой стиль, а брали стили художников или их смешения, так что хотелось бы что бы они свободно меняли стили.

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

Не мог бы ты поделиться своим датасетом? Я могу попробовать заново разметить (тегировать) его и провести тестовую тренировку. После этого я отправлю тебе датасет с моими тегами, параметры обучения и получившийся LoRA в качестве примера.

Ты можешь скинуть файлы через Яндекс Диск или любой другой облачный сервис, где нет строгих ограничений по региону и обязательной регистрации.

Мне кажется, проблема заключается именно в разметке датасета. Обычно проблем с тем, что модель не может выучить аксессуары, не возникает. И еще один момент: нужно ли сделать так, чтобы этот LoRA на персонажа не влиял на общий стиль генерации (style bleed)? Это важно, так как от этого будет зависеть, как именно я настрою параметры обучения.

Я не могу передать его т.к. не имею доступа к серверу где он хранится, могу сказать соотношения артов по костюмам, сколько костюмов, касательно стиля, не знаю на Illustrious у меня был свой собранный стиль, и я всегда хотел что бы персонажи не тянули мой стиль, а брали стили художников или их смешения, так что хотелось бы что бы они свободно меняли стили.

Датасет содержит 46 изображений с прозрачным фоном: 9 cowboy изображений. 14 upper body. 6 full body. 5 lower body.1 close-up body. разбиение по папкам и костюмам:

  1. Костюм свитер (29 изображений)

image

  1. Голая модель 18 изображений

  2. модель в платье красном (6 картинок)

image

все картинки были сгенерированы мной на illustrious с максимальной похожестью к датасету

Могу еще показать интерфейс Anima standalone trainer с параметрами, и был бы признателен, если расскажешь теорию по параметрам и какой за что отвечает, а то я обычно спрашиваю и корректирую параметры с помощью ChatGPT, Grok, DeepSeek, Perplexity, но они не всегда дают рабочие параметры сразу правильные и приходится тратить время на "утверждение" некоторых моментов по модельке

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

Не мог бы ты поделиться своим датасетом? Я могу попробовать заново разметить (тегировать) его и провести тестовую тренировку. После этого я отправлю тебе датасет с моими тегами, параметры обучения и получившийся LoRA в качестве примера.

Ты можешь скинуть файлы через Яндекс Диск или любой другой облачный сервис, где нет строгих ограничений по региону и обязательной регистрации.

Мне кажется, проблема заключается именно в разметке датасета. Обычно проблем с тем, что модель не может выучить аксессуары, не возникает. И еще один момент: нужно ли сделать так, чтобы этот LoRA на персонажа не влиял на общий стиль генерации (style bleed)? Это важно, так как от этого будет зависеть, как именно я настрою параметры обучения.

Я не могу передать его т.к. не имею доступа к серверу где он хранится, могу сказать соотношения артов по костюмам, сколько костюмов, касательно стиля, не знаю на Illustrious у меня был свой собранный стиль, и я всегда хотел что бы персонажи не тянули мой стиль, а брали стили художников или их смешения, так что хотелось бы что бы они свободно меняли стили.

Датасет содержит 46 изображений с прозрачным фоном: 9 cowboy изображений. 14 upper body. 6 full body. 5 lower body.1 close-up body. разбиение по папкам и костюмам:

  1. Костюм свитер (29 изображений)

image

  1. Голая модель 18 изображений

  2. модель в платье красном (6 картинок)

image

все картинки были сгенерированы мной на illustrious с максимальной похожестью к датасету

Вы можете использовать следующие параметры для справки: слои 0-9 модели Anima отвечают за композицию, слои 10-18 отвечают за черты персонажа, а слои 19-27 отвечают за стиль рисовки и детали. Можно задать разную скорость обучения (learning rate) для каждого слоя, сделав скорость обучения для слоёв 19-27 более низкой, чтобы снизить переобучение стилю.
model_train_type = "anima-lora"
lora_type = "lora"
pretrained_model_name_or_path = "/mnt/d/Ai/sd-webui-forge-neo/models/Stable-diffusion/anima-base-v1.0.safetensors"
vae = "/mnt/d/Ai/sd-webui-forge-neo/models/VAE/qwen_image_vae.safetensors"
qwen3 = "/mnt/d/Ai/sd-webui-forge-neo/models/text_encoder/qwen_3_06b_base.safetensors"
qwen3_max_token_length = 1024
t5_max_token_length = 1024
timestep_sampling = "shift"
sigmoid_scale = 1
discrete_flow_shift = 3
weighting_scheme = "uniform"
attn_mode = ""
split_attn = false
vae_disable_cache = false
unsloth_offload_checkpointing = false
train_data_dir = "/home/kongbai/shujuji"
prior_loss_weight = 1
resolution = "1024,1024"
enable_bucket = true
min_bucket_reso = 256
max_bucket_reso = 2304
bucket_reso_steps = 64
bucket_no_upscale = true
output_name = "清新画风"
output_dir = "./output"
save_model_as = "safetensors"
save_precision = "bf16"
save_every_n_epochs = 1
save_state = true
save_last_n_epochs_state = 1
max_train_epochs = 10
train_batch_size = 5
gradient_checkpointing = true
gradient_accumulation_steps = 2
network_train_unet_only = true
network_train_text_encoder_only = false
learning_rate = 0.0001
unet_lr = 0.00002
text_encoder_lr = 0.00001
lr_scheduler = "cosine_with_restarts"
lr_warmup_steps = 500
lr_scheduler_num_cycles = 1
optimizer_type = "AdamW8bit"
network_dim = 32
network_alpha = 32
dim_from_weights = false
network_module = "networks.lora_anima"
pissa_init = false
log_with = "tensorboard"
logging_dir = "./logs"
caption_extension = ".txt"
shuffle_caption = false
keep_tokens = 0
prefer_json_caption = true
seed = 1337
clip_skip = 2
mixed_precision = "bf16"
torch_compile = true
torch_compile_preset = "max-autotune"
dynamo_backend = "inductor"
lowram = true
cache_latents = true
cache_latents_to_disk = true
cache_text_encoder_outputs = true
cache_text_encoder_outputs_to_disk = true
persistent_data_loader_workers = false
fp8_base = false
fp8_base_unet = false
max_data_loader_n_workers = 6
disable_mmap_load_safetensors = true
cpu_offload_checkpointing = false
enable_debug_options = false
tlora_min_rank = 8
use_scalar = true
use_cp = true
network_args = [
"network_reg_lrs=blocks\.(?:[0-9]|1[0-8])\..=2e-5,blocks\.(?:1[9]|2[0-7])\..=8e-6",
"rank_dropout=0.03",
" module_dropout=0.02",
" verbose=True"
]

В качестве примера для тегирования ориентируйтесь на следующее:

nRyYprJlEXtkH31Uae1mF
A detailed digital painting with soft shading and glossy textures, a full-body picture of a girl named daiding (soul tide), a girl named daiding (soul tide) has short pink hair, pink and white animal ears, purple eyes, narrow pupils, and purple nail polish, a girl named daiding (soul tide) has an earring with a strawberry pendant on the left animal ear, a black choker with a strawberry pendant around the neck, a red halter top, a black waist corset with front lacing, a large red bow on the front waist, a red and black layered high-low skirt with a starry pattern on the inside, black lace-trimmed thigh-high stockings, and black garter straps, a girl named daiding (soul tide) makes a standing pose with arms relaxed at her sides, sharp chin, large breasts, cleavage, looking at viewer, simple dark background.

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

Не мог бы ты поделиться своим датасетом? Я могу попробовать заново разметить (тегировать) его и провести тестовую тренировку. После этого я отправлю тебе датасет с моими тегами, параметры обучения и получившийся LoRA в качестве примера.

Ты можешь скинуть файлы через Яндекс Диск или любой другой облачный сервис, где нет строгих ограничений по региону и обязательной регистрации.

Мне кажется, проблема заключается именно в разметке датасета. Обычно проблем с тем, что модель не может выучить аксессуары, не возникает. И еще один момент: нужно ли сделать так, чтобы этот LoRA на персонажа не влиял на общий стиль генерации (style bleed)? Это важно, так как от этого будет зависеть, как именно я настрою параметры обучения.

Я не могу передать его т.к. не имею доступа к серверу где он хранится, могу сказать соотношения артов по костюмам, сколько костюмов, касательно стиля, не знаю на Illustrious у меня был свой собранный стиль, и я всегда хотел что бы персонажи не тянули мой стиль, а брали стили художников или их смешения, так что хотелось бы что бы они свободно меняли стили.

Датасет содержит 46 изображений с прозрачным фоном: 9 cowboy изображений. 14 upper body. 6 full body. 5 lower body.1 close-up body. разбиение по папкам и костюмам:

  1. Костюм свитер (29 изображений)

image

  1. Голая модель 18 изображений

  2. модель в платье красном (6 картинок)

image

все картинки были сгенерированы мной на illustrious с максимальной похожестью к датасету

Вы можете использовать следующие параметры для справки: слои 0-9 модели Anima отвечают за композицию, слои 10-18 отвечают за черты персонажа, а слои 19-27 отвечают за стиль рисовки и детали. Можно задать разную скорость обучения (learning rate) для каждого слоя, сделав скорость обучения для слоёв 19-27 более низкой, чтобы снизить переобучение стилю.
model_train_type = "anima-lora"
lora_type = "lora"
pretrained_model_name_or_path = "/mnt/d/Ai/sd-webui-forge-neo/models/Stable-diffusion/anima-base-v1.0.safetensors"
vae = "/mnt/d/Ai/sd-webui-forge-neo/models/VAE/qwen_image_vae.safetensors"
qwen3 = "/mnt/d/Ai/sd-webui-forge-neo/models/text_encoder/qwen_3_06b_base.safetensors"
qwen3_max_token_length = 1024
t5_max_token_length = 1024
timestep_sampling = "shift"
sigmoid_scale = 1
discrete_flow_shift = 3
weighting_scheme = "uniform"
attn_mode = ""
split_attn = false
vae_disable_cache = false
unsloth_offload_checkpointing = false
train_data_dir = "/home/kongbai/shujuji"
prior_loss_weight = 1
resolution = "1024,1024"
enable_bucket = true
min_bucket_reso = 256
max_bucket_reso = 2304
bucket_reso_steps = 64
bucket_no_upscale = true
output_name = "清新画风"
output_dir = "./output"
save_model_as = "safetensors"
save_precision = "bf16"
save_every_n_epochs = 1
save_state = true
save_last_n_epochs_state = 1
max_train_epochs = 10
train_batch_size = 5
gradient_checkpointing = true
gradient_accumulation_steps = 2
network_train_unet_only = true
network_train_text_encoder_only = false
learning_rate = 0.0001
unet_lr = 0.00002
text_encoder_lr = 0.00001
lr_scheduler = "cosine_with_restarts"
lr_warmup_steps = 500
lr_scheduler_num_cycles = 1
optimizer_type = "AdamW8bit"
network_dim = 32
network_alpha = 32
dim_from_weights = false
network_module = "networks.lora_anima"
pissa_init = false
log_with = "tensorboard"
logging_dir = "./logs"
caption_extension = ".txt"
shuffle_caption = false
keep_tokens = 0
prefer_json_caption = true
seed = 1337
clip_skip = 2
mixed_precision = "bf16"
torch_compile = true
torch_compile_preset = "max-autotune"
dynamo_backend = "inductor"
lowram = true
cache_latents = true
cache_latents_to_disk = true
cache_text_encoder_outputs = true
cache_text_encoder_outputs_to_disk = true
persistent_data_loader_workers = false
fp8_base = false
fp8_base_unet = false
max_data_loader_n_workers = 6
disable_mmap_load_safetensors = true
cpu_offload_checkpointing = false
enable_debug_options = false
tlora_min_rank = 8
use_scalar = true
use_cp = true
network_args = [
"network_reg_lrs=blocks\.(?:[0-9]|1[0-8])\..=2e-5,blocks\.(?:1[9]|2[0-7])\..=8e-6",
"rank_dropout=0.03",
" module_dropout=0.02",
" verbose=True"
]

В качестве примера для тегирования ориентируйтесь на следующее:

nRyYprJlEXtkH31Uae1mF
A detailed digital painting with soft shading and glossy textures, a full-body picture of a girl named daiding (soul tide), a girl named daiding (soul tide) has short pink hair, pink and white animal ears, purple eyes, narrow pupils, and purple nail polish, a girl named daiding (soul tide) has an earring with a strawberry pendant on the left animal ear, a black choker with a strawberry pendant around the neck, a red halter top, a black waist corset with front lacing, a large red bow on the front waist, a red and black layered high-low skirt with a starry pattern on the inside, black lace-trimmed thigh-high stockings, and black garter straps, a girl named daiding (soul tide) makes a standing pose with arms relaxed at her sides, sharp chin, large breasts, cleavage, looking at viewer, simple dark background.

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

я попробовал обучать в 1 папке все костюмы, (костюма + голое тело персонажа), и остаются такие проблемки, но с версиями ниже 8 иногда работает нормально, но есть проблемы с сережками и чокерами, я не понимаю как надо обучать мелкие детали, раньше sdxl подхватывал нормально, а Anima не может подхватить почему то даже если отдельно показывал крупным образом голову.

image

image

Не мог бы ты поделиться своим датасетом? Я могу попробовать заново разметить (тегировать) его и провести тестовую тренировку. После этого я отправлю тебе датасет с моими тегами, параметры обучения и получившийся LoRA в качестве примера.

Ты можешь скинуть файлы через Яндекс Диск или любой другой облачный сервис, где нет строгих ограничений по региону и обязательной регистрации.

Мне кажется, проблема заключается именно в разметке датасета. Обычно проблем с тем, что модель не может выучить аксессуары, не возникает. И еще один момент: нужно ли сделать так, чтобы этот LoRA на персонажа не влиял на общий стиль генерации (style bleed)? Это важно, так как от этого будет зависеть, как именно я настрою параметры обучения.

Я не могу передать его т.к. не имею доступа к серверу где он хранится, могу сказать соотношения артов по костюмам, сколько костюмов, касательно стиля, не знаю на Illustrious у меня был свой собранный стиль, и я всегда хотел что бы персонажи не тянули мой стиль, а брали стили художников или их смешения, так что хотелось бы что бы они свободно меняли стили.

Датасет содержит 46 изображений с прозрачным фоном: 9 cowboy изображений. 14 upper body. 6 full body. 5 lower body.1 close-up body. разбиение по папкам и костюмам:

  1. Костюм свитер (29 изображений)

image

  1. Голая модель 18 изображений

  2. модель в платье красном (6 картинок)

image

все картинки были сгенерированы мной на illustrious с максимальной похожестью к датасету

Вы можете использовать следующие параметры для справки: слои 0-9 модели Anima отвечают за композицию, слои 10-18 отвечают за черты персонажа, а слои 19-27 отвечают за стиль рисовки и детали. Можно задать разную скорость обучения (learning rate) для каждого слоя, сделав скорость обучения для слоёв 19-27 более низкой, чтобы снизить переобучение стилю.
model_train_type = "anima-lora"
lora_type = "lora"
pretrained_model_name_or_path = "/mnt/d/Ai/sd-webui-forge-neo/models/Stable-diffusion/anima-base-v1.0.safetensors"
vae = "/mnt/d/Ai/sd-webui-forge-neo/models/VAE/qwen_image_vae.safetensors"
qwen3 = "/mnt/d/Ai/sd-webui-forge-neo/models/text_encoder/qwen_3_06b_base.safetensors"
qwen3_max_token_length = 1024
t5_max_token_length = 1024
timestep_sampling = "shift"
sigmoid_scale = 1
discrete_flow_shift = 3
weighting_scheme = "uniform"
attn_mode = ""
split_attn = false
vae_disable_cache = false
unsloth_offload_checkpointing = false
train_data_dir = "/home/kongbai/shujuji"
prior_loss_weight = 1
resolution = "1024,1024"
enable_bucket = true
min_bucket_reso = 256
max_bucket_reso = 2304
bucket_reso_steps = 64
bucket_no_upscale = true
output_name = "清新画风"
output_dir = "./output"
save_model_as = "safetensors"
save_precision = "bf16"
save_every_n_epochs = 1
save_state = true
save_last_n_epochs_state = 1
max_train_epochs = 10
train_batch_size = 5
gradient_checkpointing = true
gradient_accumulation_steps = 2
network_train_unet_only = true
network_train_text_encoder_only = false
learning_rate = 0.0001
unet_lr = 0.00002
text_encoder_lr = 0.00001
lr_scheduler = "cosine_with_restarts"
lr_warmup_steps = 500
lr_scheduler_num_cycles = 1
optimizer_type = "AdamW8bit"
network_dim = 32
network_alpha = 32
dim_from_weights = false
network_module = "networks.lora_anima"
pissa_init = false
log_with = "tensorboard"
logging_dir = "./logs"
caption_extension = ".txt"
shuffle_caption = false
keep_tokens = 0
prefer_json_caption = true
seed = 1337
clip_skip = 2
mixed_precision = "bf16"
torch_compile = true
torch_compile_preset = "max-autotune"
dynamo_backend = "inductor"
lowram = true
cache_latents = true
cache_latents_to_disk = true
cache_text_encoder_outputs = true
cache_text_encoder_outputs_to_disk = true
persistent_data_loader_workers = false
fp8_base = false
fp8_base_unet = false
max_data_loader_n_workers = 6
disable_mmap_load_safetensors = true
cpu_offload_checkpointing = false
enable_debug_options = false
tlora_min_rank = 8
use_scalar = true
use_cp = true
network_args = [
"network_reg_lrs=blocks\.(?:[0-9]|1[0-8])\..=2e-5,blocks\.(?:1[9]|2[0-7])\..=8e-6",
"rank_dropout=0.03",
" module_dropout=0.02",
" verbose=True"
]

В качестве примера для тегирования ориентируйтесь на следующее:

nRyYprJlEXtkH31Uae1mF
A detailed digital painting with soft shading and glossy textures, a full-body picture of a girl named daiding (soul tide), a girl named daiding (soul tide) has short pink hair, pink and white animal ears, purple eyes, narrow pupils, and purple nail polish, a girl named daiding (soul tide) has an earring with a strawberry pendant on the left animal ear, a black choker with a strawberry pendant around the neck, a red halter top, a black waist corset with front lacing, a large red bow on the front waist, a red and black layered high-low skirt with a starry pattern on the inside, black lace-trimmed thigh-high stockings, and black garter straps, a girl named daiding (soul tide) makes a standing pose with arms relaxed at her sides, sharp chin, large breasts, cleavage, looking at viewer, simple dark background.

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Если есть возможность, старайтесь использовать модели с большим количеством параметров, а затем уделите немного больше времени ручной проверке. Вы можете сделать разметку для одного изображения персонажа в полный рост в определенном наряде и вручную откорректировать текст. Затем используйте эти проверенные описания одежды и внешности в качестве референса, попросив модель описывать только позы и фон на остальных картинках (особое внимание уделяйте портретам: следите за тем, чтобы модель не описывала детали, которые оказались обрезаны и не попали в кадр). Этот подход сэкономит вам массу сил.

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Если есть возможность, старайтесь использовать модели с большим количеством параметров, а затем уделите немного больше времени ручной проверке. Вы можете сделать разметку для одного изображения персонажа в полный рост в определенном наряде и вручную откорректировать текст. Затем используйте эти проверенные описания одежды и внешности в качестве референса, попросив модель описывать только позы и фон на остальных картинках (особое внимание уделяйте портретам: следите за тем, чтобы модель не описывала детали, которые оказались обрезаны и не попали в кадр). Этот подход сэкономит вам массу сил.

Понял, попробую сделать пока что из того что могу отметить машина не тянет 9b параметров версию, попробую перед сном 4b параметров, и если что отпишусь о результате

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Если есть возможность, старайтесь использовать модели с большим количеством параметров, а затем уделите немного больше времени ручной проверке. Вы можете сделать разметку для одного изображения персонажа в полный рост в определенном наряде и вручную откорректировать текст. Затем используйте эти проверенные описания одежды и внешности в качестве референса, попросив модель описывать только позы и фон на остальных картинках (особое внимание уделяйте портретам: следите за тем, чтобы модель не описывала детали, которые оказались обрезаны и не попали в кадр). Этот подход сэкономит вам массу сил.

Попробовал 4B параметров и вот такой промт он мне выдал для картинки в сером свитере:
@lhcx, digital painting, soft lighting, clean lines, cel shading, vibrant colors, a MissPink picture of a girl named MissPink, a girl named MissPink has pink short hair, purple eyes, round face, C cup breasts, a girl named MissPink has grey off-shoulder sweater dress, black fishnet stockings with diamond pattern, grey flat shoes, choker with red pendant around neck, pink fox ears on head, large pink and white fluffy fox tail behind back, a girl named MissPink performs standing still with arms slightly out to sides.

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Если есть возможность, старайтесь использовать модели с большим количеством параметров, а затем уделите немного больше времени ручной проверке. Вы можете сделать разметку для одного изображения персонажа в полный рост в определенном наряде и вручную откорректировать текст. Затем используйте эти проверенные описания одежды и внешности в качестве референса, попросив модель описывать только позы и фон на остальных картинках (особое внимание уделяйте портретам: следите за тем, чтобы модель не описывала детали, которые оказались обрезаны и не попали в кадр). Этот подход сэкономит вам массу сил.

Попробовал 4B параметров и вот такой промт он мне выдал для картинки в сером свитере:
@lhcx, digital painting, soft lighting, clean lines, cel shading, vibrant colors, a MissPink picture of a girl named MissPink, a girl named MissPink has pink short hair, purple eyes, round face, C cup breasts, a girl named MissPink has grey off-shoulder sweater dress, black fishnet stockings with diamond pattern, grey flat shoes, choker with red pendant around neck, pink fox ears on head, large pink and white fluffy fox tail behind back, a girl named MissPink performs standing still with arms slightly out to sides.

С форматом всё в порядке. Единственное, что нужно изменить — сделайте так, чтобы модель использовала такие слова, как «маленькая, средняя, большая, огромная грудь» (small, medium, large, huge breasts), и избегала описаний через размеры чашечек. Также нужно добавить описание фона. После этого вам останется только провести ручную проверку, чтобы убедиться, что нет ошибок или упущенных деталей — этого будет достаточно.

Что касается тега @lhcx в самом начале, теоретически он должен немного снизить переобучение стилю (style overfitting), но на практике от него не так много пользы. Вы можете убрать его или оставить — на ваше усмотрение.

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Если есть возможность, старайтесь использовать модели с большим количеством параметров, а затем уделите немного больше времени ручной проверке. Вы можете сделать разметку для одного изображения персонажа в полный рост в определенном наряде и вручную откорректировать текст. Затем используйте эти проверенные описания одежды и внешности в качестве референса, попросив модель описывать только позы и фон на остальных картинках (особое внимание уделяйте портретам: следите за тем, чтобы модель не описывала детали, которые оказались обрезаны и не попали в кадр). Этот подход сэкономит вам массу сил.

Попробовал 4B параметров и вот такой промт он мне выдал для картинки в сером свитере:
@lhcx, digital painting, soft lighting, clean lines, cel shading, vibrant colors, a MissPink picture of a girl named MissPink, a girl named MissPink has pink short hair, purple eyes, round face, C cup breasts, a girl named MissPink has grey off-shoulder sweater dress, black fishnet stockings with diamond pattern, grey flat shoes, choker with red pendant around neck, pink fox ears on head, large pink and white fluffy fox tail behind back, a girl named MissPink performs standing still with arms slightly out to sides.

С форматом всё в порядке. Единственное, что нужно изменить — сделайте так, чтобы модель использовала такие слова, как «маленькая, средняя, большая, огромная грудь» (small, medium, large, huge breasts), и избегала описаний через размеры чашечек. Также нужно добавить описание фона. После этого вам останется только провести ручную проверку, чтобы убедиться, что нет ошибок или упущенных деталей — этого будет достаточно.

Что касается тега @lhcx в самом начале, теоретически он должен немного снизить переобучение стилю (style overfitting), но на практике от него не так много пользы. Вы можете убрать его или оставить — на ваше усмотрение.

Доброго времени суток, а каким образом достигается избегание привязки стиля при обучении, и есть ли где нибудь описание параметров и их влияние?

Еще возник вопрос,а на какой силе Lora лучше использовать, я на Illustrious обычно использовал не выше 0.7-0.8 силы лоры для персонажа, имеет ли смысл так же снижать силу или лучше как раньше не выше 0.8?

От 0.6 до 0.8 вполне подойдет, это нужно пробовать самому, стандартного ответа нет.

Еще у меня возник вопрос, я правильно понимаю, что ранее Illustrious выучивала особенности по принципу "тег = особенность из датасета лоры", а Анима обучается по принципу "описание персонажа = особенности за keep tokens"?

Поскольку модель Anima поддерживает как систему тегов, так и естественный язык, при разметке датасета естественным языком визуальные черты привязываются одновременно и к триггерному слову (имени персонажа), и к самому описанию.

LoRA выдаст результат, максимально близкий к обучающей выборке, при одновременном использовании триггерного слова и описания. При этом, если вы разобьете особенности на классические теги, модель также без проблем сгенерирует нужный контент из датасета.

Проще говоря: триггерное слово сообщает модели о том, что такой персонаж существует, а описание дает понять, как именно его нужно нарисовать.

Благодаря использованию LLM в качестве текстового энкодера и обновленной архитектуре, Anima практически не склонна к переобучению (overfitting) на конкретных чертах или стандартной одежде персонажа. Это позволяет очень легко менять наряды, прически и другие детали (при условии, что сама LoRA не была перетренирована).

Попробую после сна скачать в Lm Studio версию Qwen3.5-9B-Uncensored-HauhauCS-Aggressive-BF16.gguf для разметки и заставить размечать датасет по твоей инструкции ;)

Вы можете попробовать использовать закрытые модели, такие как GPT. Их производительность значительно превосходит небольшие open-source модели с малым количеством параметров. Маленькие модели с высокой вероятностью упускают детали или генерируют их неверно. Если использовать небольшие модели, объем ручной работы по проверке и исправлению будет гораздо больше.

Проблема вся в том что у меня есть модели и с наготой, и не всегда будет удобно размечать с помощью онлайн моделей, т.к. некоторые зацензурированы и так же могут использовать мои запросы в будущем для обучения, а мне не хотелось бы ухода информации в третьи руки... в этом основная загвоздка, т.к. мы командой работаем локально, мы даже к себе не загружаем датасеты все происходит в одном месте, разметка ---> правки ---> обучение ---> тестирование ---> генерации, поэтому я хочу сделать все локально без лишних звений куда может утечь информация

Если есть возможность, старайтесь использовать модели с большим количеством параметров, а затем уделите немного больше времени ручной проверке. Вы можете сделать разметку для одного изображения персонажа в полный рост в определенном наряде и вручную откорректировать текст. Затем используйте эти проверенные описания одежды и внешности в качестве референса, попросив модель описывать только позы и фон на остальных картинках (особое внимание уделяйте портретам: следите за тем, чтобы модель не описывала детали, которые оказались обрезаны и не попали в кадр). Этот подход сэкономит вам массу сил.

Попробовал 4B параметров и вот такой промт он мне выдал для картинки в сером свитере:
@lhcx, digital painting, soft lighting, clean lines, cel shading, vibrant colors, a MissPink picture of a girl named MissPink, a girl named MissPink has pink short hair, purple eyes, round face, C cup breasts, a girl named MissPink has grey off-shoulder sweater dress, black fishnet stockings with diamond pattern, grey flat shoes, choker with red pendant around neck, pink fox ears on head, large pink and white fluffy fox tail behind back, a girl named MissPink performs standing still with arms slightly out to sides.

С форматом всё в порядке. Единственное, что нужно изменить — сделайте так, чтобы модель использовала такие слова, как «маленькая, средняя, большая, огромная грудь» (small, medium, large, huge breasts), и избегала описаний через размеры чашечек. Также нужно добавить описание фона. После этого вам останется только провести ручную проверку, чтобы убедиться, что нет ошибок или упущенных деталей — этого будет достаточно.

Что касается тега @lhcx в самом начале, теоретически он должен немного снизить переобучение стилю (style overfitting), но на практике от него не так много пользы. Вы можете убрать его или оставить — на ваше усмотрение.

Доброго времени суток, а каким образом достигается избегание привязки стиля при обучении, и есть ли где нибудь описание параметров и их влияние?

Если ваш скрипт для обучения поддерживает послойную тренировку, вы можете задать параметры вроде network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:1[9]|2[0-7])..=7e-6 или использовать любой другой формат, который поддерживает ваш трейнер.

Таким образом, для первых 19 слоёв LoRA будет использоваться нормальная скорость обучения (learning rate), а для последующих — пониженная. Это позволяет сделать основной упор на тренировку слоёв, отвечающих за композицию и черты персонажа, в то время как последние слои, отвечающие за стиль рисовки, усвоят лишь минимум информации.

Проще говоря, мы заставляем LoRA тщательно изучать внешность персонажа, а стиль рисовки — лишь слегка затрагивать, не перенимая его полностью.

В противном случае, вам останется только добавлять в датасет больше изображений нужного персонажа, нарисованных в разных художественных стилях.

Доброго времени суток, а каким образом достигается избегание привязки стиля при обучении, и есть ли где нибудь описание параметров и их влияние?

Если ваш скрипт для обучения поддерживает послойную тренировку, вы можете задать параметры вроде network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:1[9]|2[0-7])..=7e-6 или использовать любой другой формат, который поддерживает ваш трейнер.

Таким образом, для первых 19 слоёв LoRA будет использоваться нормальная скорость обучения (learning rate), а для последующих — пониженная. Это позволяет сделать основной упор на тренировку слоёв, отвечающих за композицию и черты персонажа, в то время как последние слои, отвечающие за стиль рисовки, усвоят лишь минимум информации.

Проще говоря, мы заставляем LoRA тщательно изучать внешность персонажа, а стиль рисовки — лишь слегка затрагивать, не перенимая его полностью.

В противном случае, вам останется только добавлять в датасет больше изображений нужного персонажа, нарисованных в разных художественных стилях.

В настоящий момент пользуюсь Anima standalone trainer, т.к. Sd-trainer v2.0.0, у меня почему то не захотел перейти с обучения на CPU, на версию для GPU, интерфейс Anima standalone выглядит так:
Training settings:

image

image

image

Dataset settings
image

image

image

lora settings
image

image

gpus settings
image

Доброго времени суток, а каким образом достигается избегание привязки стиля при обучении, и есть ли где нибудь описание параметров и их влияние?

Если ваш скрипт для обучения поддерживает послойную тренировку, вы можете задать параметры вроде network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:1[9]|2[0-7])..=7e-6 или использовать любой другой формат, который поддерживает ваш трейнер.

Таким образом, для первых 19 слоёв LoRA будет использоваться нормальная скорость обучения (learning rate), а для последующих — пониженная. Это позволяет сделать основной упор на тренировку слоёв, отвечающих за композицию и черты персонажа, в то время как последние слои, отвечающие за стиль рисовки, усвоят лишь минимум информации.

Проще говоря, мы заставляем LoRA тщательно изучать внешность персонажа, а стиль рисовки — лишь слегка затрагивать, не перенимая его полностью.

В противном случае, вам останется только добавлять в датасет больше изображений нужного персонажа, нарисованных в разных художественных стилях.

В настоящий момент пользуюсь Anima standalone trainer, т.к. Sd-trainer v2.0.0, у меня почему то не захотел перейти с обучения на CPU, на версию для GPU, интерфейс Anima standalone выглядит так:
Training settings:

image

image

image

Dataset settings
image

image

image

lora settings
image

image

gpus settings
image

Вы можете попробовать эту версию, которую я попросил GPT модифицировать:
https://disk.yandex.com/d/2FsDO1ux_2uenQ
В ней можно напрямую вставить предложенные мной настройки послойной скорости обучения в поле network_args_custom.

Вы можете попробовать эту версию, которую я попросил GPT модифицировать:
https://disk.yandex.com/d/2FsDO1ux_2uenQ
В ней можно напрямую вставить предложенные мной настройки послойной скорости обучения в поле network_args_custom.

У меня есть поле Network argumets, так что возможно я смогу вставить туда вашу подсказку

Вы можете попробовать эту версию, которую я попросил GPT модифицировать:
https://disk.yandex.com/d/2FsDO1ux_2uenQ
В ней можно напрямую вставить предложенные мной настройки послойной скорости обучения в поле network_args_custom.

У меня есть поле Network argumets, так что возможно я смогу вставить туда вашу подсказку

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Да, всё верно. В Illustrious также можно настроить послойную скорость обучения, чтобы уменьшить переобучение стилю. Но слои в Illustrious отличаются от тех, что в Anima, поэтому вам придется протестировать это самостоятельно.

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Попробовал обучение заняло 2 часа и 38 минут, результатом стало что одежду примерно запомнило и меняет, но теряется задний фон как бы я не старался, он либо получается полностью монотонным, либо получается подобной:

image

image

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Да, всё верно. В Illustrious также можно настроить послойную скорость обучения, чтобы уменьшить переобучение стилю. Но слои в Illustrious отличаются от тех, что в Anima, поэтому вам придется протестировать это самостоятельно.

Я начинаю думать, может в моем позитиве и негативе есть проблемы?
Позитив: (masterpiece, best quality, amazing quality, very aesthetic, extremely detailed, very detailed, absurdres, newest, highres, score 9, score 8,detailed background,perfect hands, perfect anatomy, anime source) Негатив: score 1,score 2,score 3,(worst quality, bad quality:1.2),low quality,jpeg artifacts,copyright name,watermark,artist name,signature,out of frame,censored,simple background,white background,black background,

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Да, всё верно. В Illustrious также можно настроить послойную скорость обучения, чтобы уменьшить переобучение стилю. Но слои в Illustrious отличаются от тех, что в Anima, поэтому вам придется протестировать это самостоятельно.

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Да, всё верно. В Illustrious также можно настроить послойную скорость обучения, чтобы уменьшить переобучение стилю. Но слои в Illustrious отличаются от тех, что в Anima, поэтому вам придется протестировать это самостоятельно.

Я начинаю думать, может в моем позитиве и негативе есть проблемы?
Позитив: (masterpiece, best quality, amazing quality, very aesthetic, extremely detailed, very detailed, absurdres, newest, highres, score 9, score 8,detailed background,perfect hands, perfect anatomy, anime source) Негатив: score 1,score 2,score 3,(worst quality, bad quality:1.2),low quality,jpeg artifacts,copyright name,watermark,artist name,signature,out of frame,censored,simple background,white background,black background,

Попробуйте использовать этот промпт:
masterpiece, best quality, newest, 1girl, walking, looking at viewer, calm, overgrown ruin, gothic cathedral, mossy pillar, plants, broken stained glass window, god rays, cinematic lighting, high angle, from above, the girl is situated in the center of the frame walking along the fallen mossy pillar spanning a dark chasm while massive ruined arches surround the girl.

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Да, всё верно. В Illustrious также можно настроить послойную скорость обучения, чтобы уменьшить переобучение стилю. Но слои в Illustrious отличаются от тех, что в Anima, поэтому вам придется протестировать это самостоятельно.

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Вам следует отключить Shuffle Captions, чтобы не разрушать грамматику и семантику естественного языка. Также можете попробовать включить Torch Compile — это может повысить скорость обучения. Если возникнут ошибки, которые не получится решить, просто выключите его. Для ускорения тренировки базовое разрешение (resolution) можно установить на 512, 768, 1024.

Затем в поле Network Args введите:
verbose=True network_reg_lrs=blocks.(?:[0-9]|1[0-8])..=2e-5,blocks.(?:19|2[0-7])..=8e-6

Обязательно следите за логами (консолью), чтобы проверить, успешно ли применились настройки послойной скорости обучения (learning rate).

А можешь подсказать, будет ли данная команда для послойного обучения работать например на архитектуре Illustrious?

Да, это возможно, если ваш трейнер поддерживает такую функцию. Однако количество слоев и то, за что они отвечают, в модели Illustrious отличаются от Anima.

Для обучений на базе Illustrious я использую Kohya_ss, там есть такая же строка "network args" так что я так понимаю и там я смогу вставить эту подсказку по слоям?

Да, всё верно. В Illustrious также можно настроить послойную скорость обучения, чтобы уменьшить переобучение стилю. Но слои в Illustrious отличаются от тех, что в Anima, поэтому вам придется протестировать это самостоятельно.

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Генерации начали получаться, но стиль генераций не нравится, чего то ему не хватает, пойду попробую чего нить сделать с этим, возможно это как то поможет
Но пока я не понимаю почему персонаж так разительно отличается от датасета по стилю рисовки, да и сама рисовка в Anima пока не понимаю как уйти от мультипликационности ближе к той что была в Illustrious...
Большое спасибо за терпение и помощь ;) <3

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

Попробовал обучить на кастомном генераторе, Janima от любимого автора генераторов на Illustrious, Anima trainer сказал что не умеет ХD

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

Я смог обучить и даже получается генерировать красивые артики, пробовал такие настройки в Anima standalone trainer:
gpu_ids = "0"

[training_arguments]
output_name = "TestanimaLora"
save_model_as = "safetensors"
max_train_epochs = 10
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 0.5
text_encoder_lr = 0.00001
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 500
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 6
gradient_accumulation_steps = 2
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = false
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false

[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 32
network_train_unet_only = true
auto_resume_last_state = true

[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

Вот такая красота получилась:

00113-1726712535

00099-2223407357

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

еще столкнулся с такой проблемой что Anima не хочет делать иногда грудь такой какой было в Lora, при обучении, и мне приходится выкручивать грудь персонажа на 2-2.2 единицы что бы применить отдаленно похожую грудь, т.е. обучая Lora на Large breasts, на выходе я имею в районе Small-medium breasts, а что бы добиться похожего объема приходится Large breasts выкручивать в gigantic breasts, и силу тега на 1.3-1.5

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

еще столкнулся с такой проблемой что Anima не хочет делать иногда грудь такой какой было в Lora, при обучении, и мне приходится выкручивать грудь персонажа на 2-2.2 единицы что бы применить отдаленно похожую грудь, т.е. обучая Lora на Large breasts, на выходе я имею в районе Small-medium breasts, а что бы добиться похожего объема приходится Large breasts выкручивать в gigantic breasts, и силу тега на 1.3-1.5

Ты можешь попробовать не указывать размер груди при тегировании.

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

еще столкнулся с такой проблемой что Anima не хочет делать иногда грудь такой какой было в Lora, при обучении, и мне приходится выкручивать грудь персонажа на 2-2.2 единицы что бы применить отдаленно похожую грудь, т.е. обучая Lora на Large breasts, на выходе я имею в районе Small-medium breasts, а что бы добиться похожего объема приходится Large breasts выкручивать в gigantic breasts, и силу тега на 1.3-1.5

Ты можешь попробовать не указывать размер груди при тегировании.

Разве это не приведет к тому что он будет ее рандомно увеличивать/уменьшать и я не смогу это контроллировать?

Кажется я понял в чем моя проблема была, в найстройках генерации, мой параметр Shift был 1 и 2 для Hires-fix

Для базового изображения рекомендуется устанавливать значение Shift на 3-4, а для Hires. fix (увеличения разрешения) можно использовать 2-3.

Слушай, у меня вопрос, а ты не знаешь, как можно повторить стиль который использовал на Illustrious:

image

image

Вы можете поискать художников на этом сайте:
Anima Style Explorer
И еще одно: Anima поддерживает более высокие веса, вы можете поднимать их вплоть до 8.

Нашел кстати на обсуждении Github " https://github.com/gazingstars123/Anima-Standalone-Trainer/issues/5 " там говорят что можно попробовать Prodigy + cosine with warmup, но стартовать с 0.5, как считаешь, имеет смысл попробовать?

Можешь попробовать, я сам такой метод еще не тестировал, но в теории все должно работать. Если при 0.5 начнется сильное переобучение, то попробуй стартовать с 0.01.

еще столкнулся с такой проблемой что Anima не хочет делать иногда грудь такой какой было в Lora, при обучении, и мне приходится выкручивать грудь персонажа на 2-2.2 единицы что бы применить отдаленно похожую грудь, т.е. обучая Lora на Large breasts, на выходе я имею в районе Small-medium breasts, а что бы добиться похожего объема приходится Large breasts выкручивать в gigantic breasts, и силу тега на 1.3-1.5

Ты можешь попробовать не указывать размер груди при тегировании.

Разве это не приведет к тому что он будет ее рандомно увеличивать/уменьшать и я не смогу это контроллировать?

В этом случае размер груди из датасета будет привязан к триггерному слову. По умолчанию он будет соответствовать размеру из обучающей выборки, а при использовании тегов — размеру, указанному в промпте.

Ты можешь попробовать не указывать размер груди при тегировании.

Разве это не приведет к тому что он будет ее рандомно увеличивать/уменьшать и я не смогу это контроллировать?

В этом случае размер груди из датасета будет привязан к триггерному слову. По умолчанию он будет соответствовать размеру из обучающей выборки, а при использовании тегов — размеру, указанному в промпте.

Спасибо, у меня еще возник вопрос, а при теггировании Danbooru tags, имеет ли смысл прописывать Caption для датасета по принципу "Архетип, тип одежды, цвет одежды, уточнения по одежде", т.е. например: "Dress, sleeveless dress, white dress, long dress, frilled dress..." или лучше всегда ограничиваться минимальным кол-вом тегов про одежду? Просто я описываю по примеру приведенному выше, но нейросети типо Chatgpt, perplexity говорят лучше убирать такие теги и еще к дополнению убирать всякие Looking at viewer, standing и т.д. потому что они считают их мусорными

Ты можешь попробовать не указывать размер груди при тегировании.

Разве это не приведет к тому что он будет ее рандомно увеличивать/уменьшать и я не смогу это контроллировать?

В этом случае размер груди из датасета будет привязан к триггерному слову. По умолчанию он будет соответствовать размеру из обучающей выборки, а при использовании тегов — размеру, указанному в промпте.

Спасибо, у меня еще возник вопрос, а при теггировании Danbooru tags, имеет ли смысл прописывать Caption для датасета по принципу "Архетип, тип одежды, цвет одежды, уточнения по одежде", т.е. например: "Dress, sleeveless dress, white dress, long dress, frilled dress..." или лучше всегда ограничиваться минимальным кол-вом тегов про одежду? Просто я описываю по примеру приведенному выше, но нейросети типо Chatgpt, perplexity говорят лучше убирать такие теги и еще к дополнению убирать всякие Looking at viewer, standing и т.д. потому что они считают их мусорными

Лучше всего оставлять только один точный и детализированный тег для каждого элемента одежды и аксессуара. Например, если персонаж на картинке одет в белое платье с синими оборками, то тег должен быть "white dress with blue frills", а не такие избыточные варианты, как "dress" или "white dress". Теги вроде Looking at viewer и standing рекомендуется оставить.

Ты можешь попробовать не указывать размер груди при тегировании.

Разве это не приведет к тому что он будет ее рандомно увеличивать/уменьшать и я не смогу это контроллировать?

В этом случае размер груди из датасета будет привязан к триггерному слову. По умолчанию он будет соответствовать размеру из обучающей выборки, а при использовании тегов — размеру, указанному в промпте.

Спасибо, у меня еще возник вопрос, а при теггировании Danbooru tags, имеет ли смысл прописывать Caption для датасета по принципу "Архетип, тип одежды, цвет одежды, уточнения по одежде", т.е. например: "Dress, sleeveless dress, white dress, long dress, frilled dress..." или лучше всегда ограничиваться минимальным кол-вом тегов про одежду? Просто я описываю по примеру приведенному выше, но нейросети типо Chatgpt, perplexity говорят лучше убирать такие теги и еще к дополнению убирать всякие Looking at viewer, standing и т.д. потому что они считают их мусорными

Лучше всего оставлять только один точный и детализированный тег для каждого элемента одежды и аксессуара. Например, если персонаж на картинке одет в белое платье с синими оборками, то тег должен быть "white dress with blue frills", а не такие избыточные варианты, как "dress" или "white dress". Теги вроде Looking at viewer и standing рекомендуется оставить.

Я просто интересуюсь с точки зрения повышения качества своих лор на illustrious, пока что большинству нравится больше мои работы на illustrious, хотя и Анима делает прикольные работы, но иногда она не может передать например возрос персонажа, например вчера столкнулся с "средне/маленькой грудью, хотя по Illustrious обучению она получалась старше и объемнее, а анима получалась какой то 18 лет девчушкой хотя она лисица 500+ лет

Ты можешь попробовать не указывать размер груди при тегировании.

Разве это не приведет к тому что он будет ее рандомно увеличивать/уменьшать и я не смогу это контроллировать?

В этом случае размер груди из датасета будет привязан к триггерному слову. По умолчанию он будет соответствовать размеру из обучающей выборки, а при использовании тегов — размеру, указанному в промпте.

Спасибо, у меня еще возник вопрос, а при теггировании Danbooru tags, имеет ли смысл прописывать Caption для датасета по принципу "Архетип, тип одежды, цвет одежды, уточнения по одежде", т.е. например: "Dress, sleeveless dress, white dress, long dress, frilled dress..." или лучше всегда ограничиваться минимальным кол-вом тегов про одежду? Просто я описываю по примеру приведенному выше, но нейросети типо Chatgpt, perplexity говорят лучше убирать такие теги и еще к дополнению убирать всякие Looking at viewer, standing и т.д. потому что они считают их мусорными

Лучше всего оставлять только один точный и детализированный тег для каждого элемента одежды и аксессуара. Например, если персонаж на картинке одет в белое платье с синими оборками, то тег должен быть "white dress with blue frills", а не такие избыточные варианты, как "dress" или "white dress". Теги вроде Looking at viewer и standing рекомендуется оставить.

Видимо я слишком много еще не знаю о Аниме 😂😅😭

Спасибо, у меня еще возник вопрос, а при теггировании Danbooru tags, имеет ли смысл прописывать Caption для датасета по принципу "Архетип, тип одежды, цвет одежды, уточнения по одежде", т.е. например: "Dress, sleeveless dress, white dress, long dress, frilled dress..." или лучше всегда ограничиваться минимальным кол-вом тегов про одежду? Просто я описываю по примеру приведенному выше, но нейросети типо Chatgpt, perplexity говорят лучше убирать такие теги и еще к дополнению убирать всякие Looking at viewer, standing и т.д. потому что они считают их мусорными

Лучше всего оставлять только один точный и детализированный тег для каждого элемента одежды и аксессуара. Например, если персонаж на картинке одет в белое платье с синими оборками, то тег должен быть "white dress with blue frills", а не такие избыточные варианты, как "dress" или "white dress". Теги вроде Looking at viewer и standing рекомендуется оставить.

А так же пробовал добавлять к Lora character стилевую лору на рисовку и на изменение размеров груди, все они как будто бы не работали вместе с моей Lora

Спасибо, у меня еще возник вопрос, а при теггировании Danbooru tags, имеет ли смысл прописывать Caption для датасета по принципу "Архетип, тип одежды, цвет одежды, уточнения по одежде", т.е. например: "Dress, sleeveless dress, white dress, long dress, frilled dress..." или лучше всегда ограничиваться минимальным кол-вом тегов про одежду? Просто я описываю по примеру приведенному выше, но нейросети типо Chatgpt, perplexity говорят лучше убирать такие теги и еще к дополнению убирать всякие Looking at viewer, standing и т.д. потому что они считают их мусорными

Лучше всего оставлять только один точный и детализированный тег для каждого элемента одежды и аксессуара. Например, если персонаж на картинке одет в белое платье с синими оборками, то тег должен быть "white dress with blue frills", а не такие избыточные варианты, как "dress" или "white dress". Теги вроде Looking at viewer и standing рекомендуется оставить.

А так же пробовал добавлять к Lora character стилевую лору на рисовку и на изменение размеров груди, все они как будто бы не работали вместе с моей Lora

Вы можете попробовать следующие теги с высоким весом, или поискать художников, которые рисуют зрелых женщин: milf, mature, mature female.

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

How justified are captions consisting only of natural language instead of booru tags? As far as I remember, in diffusion-pipe with mixed caption weights, natural language makes up only 10%, while the rest is pure tags or, to a lesser extent, NL + tags. Kinda a pity that local trainers on windows don't support this at all

I'm curious, have you conducted any comparative tests? I tried doing this back during preview1, including an attempt to train an llm adapter, but it seems that even now it degrades just as quickly, though even without it back then, the result didn't really impress me

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

How justified are captions consisting only of natural language instead of booru tags? As far as I remember, in diffusion-pipe with mixed caption weights, natural language makes up only 10%, while the rest is pure tags or, to a lesser extent, NL + tags. Kinda a pity that local trainers on windows don't support this at all

I'm curious, have you conducted any comparative tests? I tried doing this back during preview1, including an attempt to train an llm adapter, but it seems that even now it degrades just as quickly, though even without it back then, the result didn't really impress me

I've always used natural language for training, and the results have been pretty good.

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

How justified are captions consisting only of natural language instead of booru tags? As far as I remember, in diffusion-pipe with mixed caption weights, natural language makes up only 10%, while the rest is pure tags or, to a lesser extent, NL + tags. Kinda a pity that local trainers on windows don't support this at all

I'm curious, have you conducted any comparative tests? I tried doing this back during preview1, including an attempt to train an llm adapter, but it seems that even now it degrades just as quickly, though even without it back then, the result didn't really impress me

Yes, the model performed well when trained in natural language, but I worked with Danbooru Tags for a very long time, and the plus (minus, unfortunately) is that I can't type in English, but I understand what's written better, so for me, markup in English is more difficult than with specific tags. On my own behalf, I can only add that I was a little disappointed that even with help, I still can't get what I need and want. My character often ends up looking more drawn when training, and now I'm faced with the problem that the characters I trained for the test, AAAAaAbsolutely don't want to be edited in terms of changing details.
For example, yesterday, while training the pink fox shown above in the conversation, I ran into the problem that after training, the character became younger and less voluminous, as if she was rolled back in age (conditionally) from 34 to 16. And I can't do anything about it. No matter how I slip the generator tags like "milf, mature, mature female, aged up, huge breasts, etc.", it stubbornly refuses to change the character's proportions. Regarding 18+ arts, I can say for now that there is some strange censorship that wasn't in Illustrious or Noobai. For example, I can give an example in the form of smoke or like in ecchi anime, although I clearly prescribed it "Explicit.".
Generally speaking, I can say that for me, Anima at the moment is the diffusion version of Pony, which I didn't get along with. I spent a year on SD 1.5 and then switched straight to Illustrious because it was more understandable than Pony v6.

You can use AdamW and lower the learning rate to around 0.00002. Tagging can be described using natural language. With an image repeat count of 10, train for 10 epochs; if it underfits, continue training. When tagging, you need to describe the background as well, otherwise the model will treat the background as part of the character's features. Here are some personal training suggestions: it is recommended to train on a Linux system, which can nearly double the speed. Using a mixed resolution of 512, 768, and 1024 for training can also speed up the process, and the results are almost identical to training at 1024 resolution.

How justified are captions consisting only of natural language instead of booru tags? As far as I remember, in diffusion-pipe with mixed caption weights, natural language makes up only 10%, while the rest is pure tags or, to a lesser extent, NL + tags. Kinda a pity that local trainers on windows don't support this at all

I'm curious, have you conducted any comparative tests? I tried doing this back during preview1, including an attempt to train an llm adapter, but it seems that even now it degrades just as quickly, though even without it back then, the result didn't really impress me

I've always used natural language for training, and the results have been pretty good.

I can also note another feature (for me this is more of a minus than a plus) is that Anima ALWAYS, when the background is not specified, generates just a white or black background, with distortions, even if I train on a white background (perhaps I need to figure out the settings)

Эксперимента ради запустил обучение с прозрачным фоном и указание фона типа "Transparent background"

Результат обучения на 3-, анатомию запомнил, вроде меняется, но без фона он не может генерировать картинки как итог становится этот результат, обидно что более старая архитектура вроде SDXL, illustrious, noobai могут работать с Альфа-каналом, а для Anima нужно перестраивать свой пайплайн обучения Lora 😥

image

Yes, the model performed well when trained in natural language, but I worked with Danbooru Tags for a very long time, and the plus (minus, unfortunately) is that I can't type in English, but I understand what's written better, so for me, markup in English is more difficult than with specific tags. On my own behalf, I can only add that I was a little disappointed that even with help, I still can't get what I need and want. My character often ends up looking more drawn when training, and now I'm faced with the problem that the characters I trained for the test, AAAAaAbsolutely don't want to be edited in terms of changing details.
For example, yesterday, while training the pink fox shown above in the conversation, I ran into the problem that after training, the character became younger and less voluminous, as if she was rolled back in age (conditionally) from 34 to 16. And I can't do anything about it. No matter how I slip the generator tags like "milf, mature, mature female, aged up, huge breasts, etc.", it stubbornly refuses to change the character's proportions. Regarding 18+ arts, I can say for now that there is some strange censorship that wasn't in Illustrious or Noobai. For example, I can give an example in the form of smoke or like in ecchi anime, although I clearly prescribed it "Explicit.".
Generally speaking, I can say that for me, Anima at the moment is the diffusion version of Pony, which I didn't get along with. I spent a year on SD 1.5 and then switched straight to Illustrious because it was more understandable than Pony v6.

Honestly, I don't understand what you're trying to achieve. Not a single model handles an alpha channel properly during training, and I don't even see any situations where this feature would be useful. When you feed an alpha channel to a model, it simply perceives it as emptiness, this is clearly noticeable from artifacts with completely black tiles. Why not just train on a white background???

Plus, it's obvious that if you train on images with simple backgrounds, the model will output a white or solid background when nothing else is explicitly specified in the prompt. In addition to that, when you train only on a simple background, the model simply doesn't know how the interaction with the background/lighting works. This results in what you call a "drawn" character style, why does all of this surprise you?

As for the character being reluctant to change, that is a direct consequence of overfitting or a poor dataset with incorrect captions. Even with an ideal training config, if the dataset is sketchy, you definitely shouldn't expect a good result

Yes, the model performed well when trained in natural language, but I worked with Danbooru Tags for a very long time, and the plus (minus, unfortunately) is that I can't type in English, but I understand what's written better, so for me, markup in English is more difficult than with specific tags. On my own behalf, I can only add that I was a little disappointed that even with help, I still can't get what I need and want. My character often ends up looking more drawn when training, and now I'm faced with the problem that the characters I trained for the test, AAAAaAbsolutely don't want to be edited in terms of changing details.
For example, yesterday, while training the pink fox shown above in the conversation, I ran into the problem that after training, the character became younger and less voluminous, as if she was rolled back in age (conditionally) from 34 to 16. And I can't do anything about it. No matter how I slip the generator tags like "milf, mature, mature female, aged up, huge breasts, etc.", it stubbornly refuses to change the character's proportions. Regarding 18+ arts, I can say for now that there is some strange censorship that wasn't in Illustrious or Noobai. For example, I can give an example in the form of smoke or like in ecchi anime, although I clearly prescribed it "Explicit.".
Generally speaking, I can say that for me, Anima at the moment is the diffusion version of Pony, which I didn't get along with. I spent a year on SD 1.5 and then switched straight to Illustrious because it was more understandable than Pony v6.

Honestly, I don't understand what you're trying to achieve. Not a single model handles an alpha channel properly during training, and I don't even see any situations where this feature would be useful. When you feed an alpha channel to a model, it simply perceives it as emptiness, this is clearly noticeable from artifacts with completely black tiles. Why not just train on a white background???

Plus, it's obvious that if you train on images with simple backgrounds, the model will output a white or solid background when nothing else is explicitly specified in the prompt. In addition to that, when you train only on a simple background, the model simply doesn't know how the interaction with the background/lighting works. This results in what you call a "drawn" character style, why does all of this surprise you?

As for the character being reluctant to change, that is a direct consequence of overfitting or a poor dataset with incorrect captions. Even with an ideal training config, if the dataset is sketchy, you definitely shouldn't expect a good result

I've been training Lora characters for about a year now, based on Illustrious/noobai (eps-pred), and they all train perfectly on transparent backgrounds, and they have a background if I specified "detailed background" in the prompt. So yes, it was a surprise to me that this quirk exists when training on new models, and so I sought help and tips from those who have worked with it...
Yes, I admit, I'm experimenting and continuing to try to understand and find the right settings for training, since I'm mostly sent datasets with transparent backgrounds and no lighting. So I'm looking for a solution that can be incorporated into the training chain relatively quickly and inexpensively without complicating the process. I like the concept and the continuation and improvement that Anima brought, but on the other hand, it's still difficult to completely rebuild the training chain in my head without understanding what needs to be done first and how to prepare.

Yes, I admit, I'm experimenting and continuing to try to understand and find the right settings for training, since I'm mostly sent datasets with transparent backgrounds and no lighting. So I'm looking for a solution that can be incorporated into the training chain relatively quickly and inexpensively without complicating the process. I like the concept and the continuation and improvement that Anima brought, but on the other hand, it's still difficult to completely rebuild the training chain in my head without understanding what needs to be done first and how to prepare.

Just run the dataset through Flux2 Klein, the worst that can happen is a slight color shift. Otherwise, it is perfectly suited for preparation and fixing defects, especially if you need to remove something unnecessary. I tried, conversely, to get rid of low-quality backgrounds and other clutter in the image, so I built myself a wf that cleans them up by replacing them with a random flat color, and removes unnecessary elements like speech bubbles.

You could go the opposite way and, instead, try to add backgrounds matching the lighting. Although it will be synthetic, it will still be better than just leaving images with an alpha channel. But of course, the easiest way would be to just place the images on a white background, I don't think that's so difficult to implement

workflow

Yes, I admit, I'm experimenting and continuing to try to understand and find the right settings for training, since I'm mostly sent datasets with transparent backgrounds and no lighting. So I'm looking for a solution that can be incorporated into the training chain relatively quickly and inexpensively without complicating the process. I like the concept and the continuation and improvement that Anima brought, but on the other hand, it's still difficult to completely rebuild the training chain in my head without understanding what needs to be done first and how to prepare.

Just run the dataset through Flux2 Klein, the worst that can happen is a slight color shift. Otherwise, it is perfectly suited for preparation and fixing defects, especially if you need to remove something unnecessary. I tried, conversely, to get rid of low-quality backgrounds and other clutter in the image, so I built myself a wf that cleans them up by replacing them with a random flat color, and removes unnecessary elements like speech bubbles.

You could go the opposite way and, instead, try to add backgrounds matching the lighting. Although it will be synthetic, it will still be better than just leaving images with an alpha channel. But of course, the easiest way would be to just place the images on a white background, I don't think that's so difficult to implement

workflow

Yes, I do this now using image flattening in Photoshop.

I think I'll take a break from my attempts to teach Lora for Anima, I'm not succeeding and I'm mentally exhausted from failures for 11 days, thanks for the help, I need a break from failures 😥

I apologize for yesterday's negativity; I've been a bit burned out by my recent failures...
Do you use positive presets, like Lazypos, Perfect Hands, Perfect Anatomy, etc.?

I apologize for yesterday's negativity; I've been a bit burned out by my recent failures...
Do you use positive presets, like Lazypos, Perfect Hands, Perfect Anatomy, etc.?

Instead of using Easyneg/pos, it's better to find the root cause of why you're encountering these issues. If you don't do that, no embeddings will help you

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

I am very interested in your labeling method, but I'm not sure if you intentionally include the character's appearance description without using absorption? I tried a method of creating NL captions via local Qwen 3.5 122B (maybe that's too small of a model??) using vision + booru tags to keep the model from hallucinating as much, but so far I'm not too happy with the results, so one way or another I kept going back to captions consisting only of tags.

To some extent, I understand the author of the discussion and see a similar problem on my end, though I'm not exactly chasing generalization, it's more about the character just adopting their original style and looking good in it. So I mostly try to train models on not so well-known characters or concepts, which is why my datasets typically contain around 20 images. At this size, I notice a very strange tendency with anima where the style degrades and feels like it's approaching the source_cartoon level. This happens even though the base image without the lora can be pretty decent, and the training of the lora itself was quite gentle and shouldn't have overfitted it (AdamW8bit, cosine, lr 2e-5, mixres 512-1024, 20img x 5repeats x 15epch / 4batch =~ 800steps). I tried playing around with manually changing the blocks and self_attn layers, but that gave a rather weak result (though I twisted this on an already finished lora, since I realized that variable lr for different blocks isn't natively supported in a standalone trainer on win11).

So, if it's not too much trouble for you, could I drop a small dataset via something like catbox, so you could try to make a model using your labeling and training method? I'm really curious to see what you get and what my mistake might be, because when comparing loras trained on ILXL and Anima head-to-head under the most similar conditions possible, the latter just can't compete at all...

I apologize for yesterday's negativity; I've been a bit burned out by my recent failures...
Do you use positive presets, like Lazypos, Perfect Hands, Perfect Anatomy, etc.?

Instead of using Easyneg/pos, it's better to find the root cause of why you're encountering these issues. If you don't do that, no embeddings will help you

I called the tests, and with such a positive prompt, the background with Lora began to appear.

(lazypos,masterpiece, best quality, score_9, score_8, score_7, detailed background, scenery, soft lighting, vibrant colors, year new, highres, absurdres, very aesthetic,volumetric lighting,newest,perfect face,perfect hands,perfect anatomy,4k,8k,soft breasts,ultra-detailed,high resolution,)

Apparently, without score_9, score_8, and score_7, he doesn't fully understand the background task. Previously, I only had Score 7. But with the addition of 9 and 8, it started working and backgrounds are generated. I just need to figure out the Lora training settings because I've encountered two problems so far: if I train with Adamw8bit + cosine, the anatomy is normal and changes relatively well. BUT, he can't remember the placement of small accessories and starts shoving them into the head area instead of on the ears.
If I train with Prodigy + cosine, he remembers the placement of accessories better, but the anatomy can't be corrected or changed in any way; it becomes younger and more average until I raise the Prompt Strength to 1.6+. I requested parameters from the neural network.

Below is the tagging prompt I personally use for large language models, which you can modify according to your needs. I personally use Gemini for tagging. You can download the accompanying script from my repository "kongbai-84/soultide_lora" at the "main" branch, and ask the large language model to explain how to use it and translate the interface into English.

I am very interested in your labeling method, but I'm not sure if you intentionally include the character's appearance description without using absorption? I tried a method of creating NL captions via local Qwen 3.5 122B (maybe that's too small of a model??) using vision + booru tags to keep the model from hallucinating as much, but so far I'm not too happy with the results, so one way or another I kept going back to captions consisting only of tags.

To some extent, I understand the author of the discussion and see a similar problem on my end, though I'm not exactly chasing generalization, it's more about the character just adopting their original style and looking good in it. So I mostly try to train models on not so well-known characters or concepts, which is why my datasets typically contain around 20 images. At this size, I notice a very strange tendency with anima where the style degrades and feels like it's approaching the source_cartoon level. This happens even though the base image without the lora can be pretty decent, and the training of the lora itself was quite gentle and shouldn't have overfitted it (AdamW8bit, cosine, lr 2e-5, mixres 512-1024, 20img x 5repeats x 15epch / 4batch =~ 800steps). I tried playing around with manually changing the blocks and self_attn layers, but that gave a rather weak result (though I twisted this on an already finished lora, since I realized that variable lr for different blocks isn't natively supported in a standalone trainer on win11).

So, if it's not too much trouble for you, could I drop a small dataset via something like catbox, so you could try to make a model using your labeling and training method? I'm really curious to see what you get and what my mistake might be, because when comparing loras trained on ILXL and Anima head-to-head under the most similar conditions possible, the latter just can't compete at all...

I recently found a similar program that performs the task suggested by "kongbai-84", joy caption : https://github.com/official-imvoiid/Joycaption

Apparently, without score_9, score_8, and score_7, he doesn't fully understand the background task. Previously, I only had Score 7. But with the addition of 9 and 8, it started working and backgrounds are generated. I just need to figure out the Lora training settings because I've encountered two problems so far: if I train with Adamw8bit + cosine, the anatomy is normal and changes relatively well. BUT, he can't remember the placement of small accessories and starts shoving them into the head area instead of on the ears.
If I train with Prodigy + cosine, he remembers the placement of accessories better, but the anatomy can't be corrected or changed in any way; it becomes younger and more average until I raise the Prompt Strength to 1.6+. I requested parameters from the neural network.

Don't rely too much on pony ratings, many have already confirmed that it kills the style, turning images into "ai slop" and taking it further away from what you actually need. Ideally, you should drop it altogether, at least in the positive prompt.

The fact that you need to use token weighting just to even see what you want is a clear sign of severe overfitting on Prodigy, which kogbai mentioned above, in a normal situation, this shouldn't happen. Try Adafactor instead of AdamW. It should be better at learning fine details, even if it might be slightly worse overall. And you'll probably have to ditch Prodigy, I really love it on ilxl, but for Anima, the lr values it outputs are clearly a bit too high

I recently found a similar program that performs the task suggested by "kongbai-84", joy caption : https://github.com/official-imvoiid/Joycaption

At the moment, Gemma 4 is better in this regard. This includes its abliteration version, even though generalization suffers because of it

I recently found a similar program that performs the task suggested by "kongbai-84", joy caption : https://github.com/official-imvoiid/Joycaption

At the moment, Gemma 4 is better in this regard. This includes its abliteration version, even though generalization suffers because of it

My main problem with tagging in this manner is that sometimes models have naked versions that better show off skin details, such as tattoos or moles. Therefore, models like Gemma, Chat GPT, and other online services usually reject tagging requests due to explicit content, and I continue to use wd-swinv2-v3 tagger.

Apparently, without score_9, score_8, and score_7, he doesn't fully understand the background task. Previously, I only had Score 7. But with the addition of 9 and 8, it started working and backgrounds are generated. I just need to figure out the Lora training settings because I've encountered two problems so far: if I train with Adamw8bit + cosine, the anatomy is normal and changes relatively well. BUT, he can't remember the placement of small accessories and starts shoving them into the head area instead of on the ears.
If I train with Prodigy + cosine, he remembers the placement of accessories better, but the anatomy can't be corrected or changed in any way; it becomes younger and more average until I raise the Prompt Strength to 1.6+. I requested parameters from the neural network.

Don't rely too much on pony ratings, many have already confirmed that it kills the style, turning images into "ai slop" and taking it further away from what you actually need. Ideally, you should drop it altogether, at least in the positive prompt.

The fact that you need to use token weighting just to even see what you want is a clear sign of severe overfitting on Prodigy, which kogbai mentioned above, in a normal situation, this shouldn't happen. Try Adafactor instead of AdamW. It should be better at learning fine details, even if it might be slightly worse overall. And you'll probably have to ditch Prodigy, I really love it on ilxl, but for Anima, the lr values it outputs are clearly a bit too high

I encounter the same problem on Adamw8bit, due to the specific dataset I'm dealing with, as I mentioned earlier, so I'm still in the process of finding a solution to my learning peculiarities.

My main problem with tagging in this manner is that sometimes models have naked versions that better show off skin details, such as tattoos or moles. Therefore, models like Gemma, Chat GPT, and other online services usually reject tagging requests due to explicit content, and I continue to use wd-swinv2-v3 tagger.

Gemma4 31b is a local model, its abliterated version can perceive explicit content. What you are using is a very lightweight model, and even if you ditch nl, at least try eva02_v3, it should work better

I'm sitting here laughing hysterically. Just last night at 4am I was generating background images, everything was fine. Now when I launch Forge neo, I try removing Score and questinable, and it immediately stops generating character backgrounds. I don't know what to do anymore.

I don't understand how this works

Just generate two images with the same seed and a clear prompt where the background is specified, one with lora, the other without. If the background disappears when you use the lora, it means it is so overtrained on a dataset with flat backgrounds and bad captions that it burns away any hints of it. Nothing happens for no reason

Just generate two images with the same seed and a clear prompt where the background is specified, one with lora, the other without. If the background disappears when you use the lora, it means it is so overtrained on a dataset with flat backgrounds and bad captions that it burns away any hints of it. Nothing happens for no reason

No, in terms of clearly specifying the Seed and background, it generates. What confuses me is that previously in ILXL and Noobai, specifying a Detailed background was enough to generate a variety of backgrounds, but in Anima there are very serious problems with this, and until you clearly specify the background or add the Lora Aesthetic Quality Modifier, it is not going to even think about adding a background.

No, in terms of clearly specifying the Seed and background, it generates. What confuses me is that previously in ILXL and Noobai, specifying a Detailed background was enough to generate a variety of backgrounds, but in Anima there are very serious problems with this, and until you clearly specify the background or add the Lora Aesthetic Quality Modifier, it is not going to even think about adding a background.

Backgrounds in Anima work just as well as in noob/ilxl, except that its base style itself is quite neutral and it's less prone to making things up if they weren't in the prompt. "Detailed Background" doesn't carry any meaning at all without context. What's the problem with just writing indoors/outdoors if you don't want to think about it? And since training a lora on anima requires just a light touch, they can degrade very quickly if your dataset is poor quality or you've overbaked your model.

I conducted a series of test trainings on several variations of captions created using qwen3.5 and two gemma4s, and it seemed to me that training on NL is actually a good idea. It's hard to call it full-blown testing, but the results definitely became more interesting compared to when I trained only on tags. So definitely give this method a try as well, maybe it will help you

nl

No, in terms of clearly specifying the Seed and background, it generates. What confuses me is that previously in ILXL and Noobai, specifying a Detailed background was enough to generate a variety of backgrounds, but in Anima there are very serious problems with this, and until you clearly specify the background or add the Lora Aesthetic Quality Modifier, it is not going to even think about adding a background.

Backgrounds in Anima work just as well as in noob/ilxl, except that its base style itself is quite neutral and it's less prone to making things up if they weren't in the prompt. "Detailed Background" doesn't carry any meaning at all without context. What's the problem with just writing indoors/outdoors if you don't want to think about it? And since training a lora on anima requires just a light touch, they can degrade very quickly if your dataset is poor quality or you've overbaked your model.

I conducted a series of test trainings on several variations of captions created using qwen3.5 and two gemma4s, and it seemed to me that training on NL is actually a good idea. It's hard to call it full-blown testing, but the results definitely became more interesting compared to when I trained only on tags. So definitely give this method a try as well, maybe it will help you

nl

Have you used a script inside ComfyUI to produce Caption, or third-party interfaces like Lm studio/llama?

Have you used a script inside ComfyUI to produce Caption, or third-party interfaces like Lm studio/llama?

I like working in Comfy, it's easier to do batch processing there compared to LMstudio, but I need to figure out the dependencies a bit because, as far as I remember, for example cpp isn't in the requirements by default. But on the other hand, u could just write a script

Have you used a script inside ComfyUI to produce Caption, or third-party interfaces like Lm studio/llama?

I like working in Comfy, it's easier to do batch processing there compared to LMstudio, but I need to figure out the dependencies a bit because, as far as I remember, for example cpp isn't in the requirements by default. But on the other hand, u could just write a script

I used Lora caption to mark and train it, but I ran into another problem: when marking it with NL, it stubbornly refuses to remember the earring, no matter how I'd written it. But with Danbooru tags, another problem: while it remembered its position, not a single neural network remembered its shape. I'm wondering whether I should make a close-up of the character's ears, or is it better not to feed Anima such close-ups?

I used Lora caption to mark and train it, but I ran into another problem: when marking it with NL, it stubbornly refuses to remember the earring, no matter how I'd written it. But with Danbooru tags, another problem: while it remembered its position, not a single neural network remembered its shape. I'm wondering whether I should make a close-up of the character's ears, or is it better not to feed Anima such close-ups?

You can do that, but the image shouldn't contain too little information. If you want the model to focus on the earrings, a portrait crop of the face will be enough

I used Lora caption to mark and train it, but I ran into another problem: when marking it with NL, it stubbornly refuses to remember the earring, no matter how I'd written it. But with Danbooru tags, another problem: while it remembered its position, not a single neural network remembered its shape. I'm wondering whether I should make a close-up of the character's ears, or is it better not to feed Anima such close-ups?

You can do that, but the image shouldn't contain too little information. If you want the model to focus on the earrings, a portrait crop of the face will be enough

My dataset specifically contains the following frame ratio: The dataset contains 46 images with transparent backgrounds: 9 cowboy images, 14 upper body images, 6 full body images, 5 lower body images, and 1 close-up body image.

My dataset specifically contains the following frame ratio: The dataset contains 46 images with transparent backgrounds: 9 cowboy images, 14 upper body images, 6 full body images, 5 lower body images, and 1 close-up body image.

I didn't mean that you should only train on close-ups of the face. You can use the same images multiple times by changing the framing. This way, besides artificially padding the dataset, you help the model focus on the specific elements you want to train. That's the whole point of cropping

Hello everyone, I've come to you with some research regarding my initial questions. First, I'm attaching the parameters I consider to be working in the Anima standalone Trainer. (P.S. I can't yet provide precise data on general parameters, but Prodigy + Kosine have some rather specific details in the Anima version...) These are the parameters that worked well when training models:
[training_arguments]
output_name = "ModelNameTestv15"
save_model_as = "safetensors"
max_train_epochs = 8 - 15
Batch Size = 2 or 4
save_every_n_epochs = 1
sample_every_n_epochs = 1
log_with = "tensorboard"
learning_rate = 0.2-0.5
text_encoder_lr = 0 or = LR
optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 80 - 100
mixed_precision = "bf16"
save_precision = "bf16"
max_data_loader_n_workers = 4
gradient_accumulation_steps = 1
max_grad_norm = 1
gradient_checkpointing = true
flash_attn = true
torch_compile = false
lowram = false
blocks_to_swap = 0
persistent_data_loader_workers = true
seed = 42
cache_latents_to_disk = true
vae_batch_size = 1
cache_text_encoder_outputs_to_disk = false
multigpu_mode = "ddp"
deepspeed = false
use_cuda_direct = false
ddp_gradient_as_bucket_view = false
ddp_static_graph = false
use_fsdp = false
fsdp_sharding_strategy = "1"
fsdp_offload_params = false
fsdp_reshard_after_forward = false
fsdp_activation_checkpointing = false
fsdp_cpu_ram_efficient_loading = false
fsdp_backward_prefetch = ""
fsdp_forward_prefetch = false
fsdp_use_orig_params = true
fsdp_limit_all_gathers = true
fsdp_auto_wrap_policy = "NO_WRAP"
fsdp_min_num_params = 100_000_000
fsdp_transformer_layer_cls_to_wrap = ""
fsdp2_reshard_after_forward = true
fsdp2_offload_params = false
fsdp2_activation_checkpointing = false
fsdp2_cpu_ram_efficient_loading = false
fsdp2_auto_wrap_policy = "NO_WRAP"
fsdp2_min_num_params = 100_000_000
fsdp2_transformer_layer_cls_to_wrap = ""
step_profile = false
profile_microbatch = false
[network_arguments]
network_module = "networks.lora_anima"
network_dim = 32
network_alpha = 16
network_train_unet_only = true
auto_resume_last_state = true
[anima_arguments]
timestep_sample_method = "logit_normal"
discrete_flow_shift = 3
weighting_scheme = "logit_normal"

I'd also like to point out a couple of observations I made when training/using LoRa characters after using this method:

  1. (assumption) Due to the lack of Unet Only training, commands for editing appearances using Danbooru tags result in the model barely responding to Danbooru tags, but responding perfectly to NL tags. This means the model barely remembers the character's costumes, but does remember that they can be dressed/undressed to any degree.
  2. I can't yet try training on custom Checkpoint train/checkpoint merge, because when training on such models begins, the Dit layer is often missing. I can't yet confirm whether this is a problem for those who are training or a feature of Anima in general.
  3. Image output dependence on "Score"
    To answer briefly, I noticed that without using Score 7-9 in positive prompts and Score 1-3 in negative prompts, the models behave quite strangely. For example, if you don't use models trained with my method, the model behaves quite responsively and conveniently, images are generated reliably, but there are distortions (it's a neural network, come on!!)... BUT if you use models trained with my method and the specified Score 6 in positive and negative prompts, backgrounds begin to appear and the character no longer looks so rough...
  4. Upscale and Adetailer models
    To summarize these points briefly: Adetailer models behave a little strangely, and the upscaler grains the characters.
    To elaborate, sometimes Adetailer models manage to improve a seemingly lost piece, but they also very often like to ruin it... Perhaps this is due to the fact that I use Forge Neo, but for now I can say that the old models work, but I can't yet figure out whether it's the same or not. Better/worse than on the XL.
    Upscaling is a different story. I tried different upscaling levels and models. For example, the model performed reliably with 1.5-1.85 upscaling. If I increase the step to ~1.87, the character outline becomes inconsistent and bald spots appear. A grainy effect also appears on the model. For example, if the model has fur or other "fluffy" details, the graininess is very visible. A fluffy fox tail becomes a "polka-dot tail," the same with sweaters and other fluffy items.
  5. NSFW content
    Testing this in this regard reveals some interesting issues, such as "ray of salvation or censorship fog." This effect doesn't happen constantly, but it often ruins shots, especially considering that I often want to try to recreate scenes from ecchi anime without censorship, only to be overtaken by a "ray of light" in the abyss of emptiness or fog appearing underwater...
    For now, these are all my comments and observations. I tried to write constructively and to the point. Perhaps my research will help someone... I hope it does.

optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 80 - 100

  1. Upscale and Adetailer models
    To summarize these points briefly: Adetailer models behave a little strangely, and the upscaler grains the characters.
    To elaborate, sometimes Adetailer models manage to improve a seemingly lost piece, but they also very often like to ruin it... Perhaps this is due to the fact that I use Forge Neo, but for now I can say that the old models work, but I can't yet figure out whether it's the same or not. Better/worse than on the XL.
    Upscaling is a different story. I tried different upscaling levels and models. For example, the model performed reliably with 1.5-1.85 upscaling. If I increase the step to ~1.87, the character outline becomes inconsistent and bald spots appear. A grainy effect also appears on the model. For example, if the model has fur or other "fluffy" details, the graininess is very visible. A fluffy fox tail becomes a "polka-dot tail," the same with sweaters and other fluffy items.

Not only is using Prodigy on Anima not really justified because it inflates the lr, which the model absolutely hates, but you also add a warmup to that, which goes against purpose of an adaptive optimizer. If you don't trust the community's advice, at least look at the devs lora example, all the configs from diffusion-pipe are right there.

And I don't understand what kind of improvements from the adetailer model you're talking about, given that they don't do anything on their own besides object detection. If you set up the workflow correctly, any detailing turns out great, even at base resolutions. As for upscaling, hires fix above 1.5x is unstable, for higher values you need to use the tile method

12-(08;15)-56-1111612313212898-

Yeah, I agree with what @degurshaft said... Using Prodigy is a massive trap on Anima, you could get away with it on SDXL but on Anima the higher LR will just overfit your Loras constantly and make it much more annoying to train on. Also, the proper way to "tune" Prodigy is to have the LR set to 1 and you change the D Coefficient, using lower LRs is a much more hacky way that makes it even more of a pain (and this is on top of using alpha = half dim). In either case though, if you need to tune Prodigy... you should just be using AdamW8Bit, which is going to be better anyways, and as mentioned, will work with warmup properly + you can just set network dim and alpha to 16/16 and forget about it.

Also, you mentioned that the trainer lacks the UNet only option, but it is in your config under network arguments. Unless you're referring to the LLM adapter, which is disabled by default in sd-scripts even if you don't pass train_llm_adapter.

Yeah, I agree with what @degurshaft said... Using Prodigy is a massive trap on Anima, you could get away with it on SDXL but on Anima the higher LR will just overfit your Loras constantly and make it much more annoying to train on. Also, the proper way to "tune" Prodigy is to have the LR set to 1 and you change the D Coefficient, using lower LRs is a much more hacky way that makes it even more of a pain (and this is on top of using alpha = half dim). In either case though, if you need to tune Prodigy... you should just be using AdamW8Bit, which is going to be better anyways, and as mentioned, will work with warmup properly + you can just set network dim and alpha to 16/16 and forget about it.

It seems like you can't edit d_coef through the gui in the standalone trainer, and even looking under the hood at the toml file, I haven't seen it there. Come to think of it, I don't remember being able to tweak betas there either. Recalling my experience with Illustrious, I noticed a kinda difference between, for example, 0.9 0.99 and 0.9 0.99 0.999, so I wonder how this trainer handles it.

And btw, the reason training a lora on the merges didn't work was most likely because it had the model.diffusion_model layer key prefixes. Just renaming them should be enough to make everything work

It seems like you can't edit d_coef through the gui in the standalone trainer, and even looking under the hood at the toml file, I haven't seen it there. Come to think of it, I don't remember being able to tweak betas there either. Recalling my experience with Illustrious, I noticed a kinda difference between, for example, 0.9 0.99 and 0.9 0.99 0.999, so I wonder how this trainer handles it.

I would recommend switching to a trainer like this fork of Lora Easy Training Scripts instead which has all of these parameters exposed, or just edit the config generated by that trainer and pass it to sd-scripts directly. As for optimizer betas... I mean, you can mess with them I guess, but I've honestly never found any moment where it was actually necessary to change them over just the optimizer defaults. Overall I still really don't recommend using Prodigy, it's just not worth the effort when you have to tune parameters since you can also just do that with AdamW much easier

I would recommend switching to a trainer like this fork of Lora Easy Training Scripts instead which has all of these parameters exposed, or just edit the config generated by that trainer and pass it to sd-scripts directly. As for optimizer betas... I mean, you can mess with them I guess, but I've honestly never found any moment where it was actually necessary to change them over just the optimizer defaults. Overall I still really don't recommend using Prodigy, it's just not worth the effort when you have to tune parameters since you can also just do that with AdamW much easier

Don't even use the standalone anymore, I just switched to the pipe. That was more directed at the author of the discussion, since he seem to be using it

optimizer_type = "Prodigy"
optimizer_args = [ "weight_decay=0.01", "decouple=True" ]
lr_scheduler = "cosine"
lr_warmup_steps = 80 - 100

  1. Upscale and Adetailer models
    To summarize these points briefly: Adetailer models behave a little strangely, and the upscaler grains the characters.
    To elaborate, sometimes Adetailer models manage to improve a seemingly lost piece, but they also very often like to ruin it... Perhaps this is due to the fact that I use Forge Neo, but for now I can say that the old models work, but I can't yet figure out whether it's the same or not. Better/worse than on the XL.
    Upscaling is a different story. I tried different upscaling levels and models. For example, the model performed reliably with 1.5-1.85 upscaling. If I increase the step to ~1.87, the character outline becomes inconsistent and bald spots appear. A grainy effect also appears on the model. For example, if the model has fur or other "fluffy" details, the graininess is very visible. A fluffy fox tail becomes a "polka-dot tail," the same with sweaters and other fluffy items.

Not only is using Prodigy on Anima not really justified because it inflates the lr, which the model absolutely hates, but you also add a warmup to that, which goes against purpose of an adaptive optimizer. If you don't trust the community's advice, at least look at the devs lora example, all the configs from diffusion-pipe are right there.

And I don't understand what kind of improvements from the adetailer model you're talking about, given that they don't do anything on their own besides object detection. If you set up the workflow correctly, any detailing turns out great, even at base resolutions. As for upscaling, hires fix above 1.5x is unstable, for higher values you need to use the tile method

12-(08;15)-56-1111612313212898-

I listen to the community's opinion, but what can I do if, out of 20 training attempts on different configurations, only these settings gave me a stable result without losing key character features... I was planning to run an experiment with Adamw8bit this week, but I just shared the tests for people who might be interested, although I understand that I am far from professionals like you.

Sign up or log in to comment