Hướng dẫn training loRA trên nền tảng Tensor.Art

Dữ liệu đầu vào:

Cách chọn lọc hình ảnh bạn có thể theo dõi và đọc lại ở ebook xử lí hình ảnh cơ bản trước khi training

!Lưu ý: khi training loRA ở tensor.art các bạn nên resize lại ảnh và chuyển qua file ZIP (nên để ảnh ở JPG, JPEG để tránh trường hợp file hơn 500mb sẽ hiển thị lỗi)

Các thông số cơ bản cần lưu ý:

AD 4nXfU6TVw wb1OcjzA6ur DVmeRxtGBBJfHIStxcoq4L 81ZO13jpcapcf1dtWgtx8topcRVIE6QEurUnFu3yMAVuDX1iqIR0MIDsq1hnGOaS7 HOF GUgfqfd99pwYJqGBWcyJ1JVGxMzieL5zT9u4l72r8?key=2O r N8oNS d4a1UNE2JDA

Các thông số quan trọng cần biết:

Base model: chọn model có sẵn dựa trên phong cách dữ liệu hình ảnh của các bạn

Trigger word: Từ khóa kích hoạt loRA

Repeats: số lần lặp ảnh /1 epoch

Epoch: đại diện cho một lần lặp qua toàn bộ dữ liệu mà mô hình được sử dụng để học hỏi

Save Every N Epochs: lưu lại file loRA ( ví dụ set 10 epochs và Save every N Epochs là 1 thì sẽ lưu thành 10 file mỗi epoch lưu 1 lần)

Text Encoder learning rate: tốc độ học tập của Text Encoder (nên để mặc định nếu không cần nghiên cứu sâu)

U-net learning rate: tốc độ học tập của U-Net

Nhìn chung thì Text Encoder learning rate và U-net leaning rate cần nghiên cứu khá sâu và tùy chỉnh sao cho mô hình được hội tụ và chính xác nhất có thể, có lẽ mình sẽ phân tích chuyên sâu về 2 thông số này ở các bài viết sau

LR Scheduler: Phương thức học

Optimizer: bộ tối ưu hóa đóng vai trò như một thuật toán điều chỉnh các tham số của mô hình theo hướng giảm thiểu hàm mất mát (loss function) trong quá trình huấn luyện. Nói cách khác, nó giúp mô hình học hỏi từ dữ liệu và cải thiện hiệu suất thực hiện nhiệm vụ.

Network Dim: đề cập đến số lượng kênh (channel) hoặc bản đồ đặc trưng (feature map) trong mỗi lớp của mạng nơ-ron nhân tạo (artificial neural network – ANN). Nói cách khác, nó đại diện cho độ phức tạp của các biểu diễn mà mạng nơ-ron học được từ dữ liệu đầu vào. (Tùy vào dữ liệu và bài toán đặt ra nhìn chung với một yêu cầu không quá phức tạp và dữ liệu ảnh đầu vào ít các bạn nên để số thấp còn nếu dữ liệu đa dạng về style cũng như chủ thể các bạn nên để Dim cao)

Network alpha: mình thiếu kiến thức về cái này, về phần thực hành thì mình hay để nó bằng một nửa Network Dim hoặc tùy từng ngữ cảnh mình để bằng 0.

SAU KHI CÀI ĐẶT XONG HÌNH ẢNH,  CAPTIONS, THÔNG SỐ THÌ CHÚNG TA ẤN NÚT TRAIN VÀ ĐỢI ĐẾN KHI NÀO CHẠY XONG ĐĂNG LÊN TENSOR ĐỂ TEST (LƯU Ý: KHÔNG ĐĂNG HÌNH ẢNH PREVIEW CỦA LORA NẾU BẠN MUỐN ĐỂ LORA CỦA BẠN Ở CHẾ ĐỘ RIÊNG TƯ)

Kết Luận: Training loRA ở tensor.art y chang training ở gg collab (tuy nhân vẫn thiếu một số tính năng) các bạn mà đang tìm hiểu về training loRA có thể test ở trên đây, thực tế như một concept thay đổi background dùng inpaint chỉ cần vài hình ảnh đồng nhất làm dataset thôi không phức tạp cho lắm và thích hợp cho người mới tìm hiểu.