Llama 3.1 405B là mô hình có sẵn công khai đầu tiên cạnh tranh với các mô hình AI hàng đầu khi nói đến các khả năng hiện đại về kiến thức chung, khả năng lái, toán học, sử dụng công cụ và dịch thuật đa ngôn ngữ. Với việc phát hành mô hình 405B, chúng tôi đã sẵn sàng tăng cường đổi mới — với những cơ hội chưa từng có để phát triển và khám phá. Chúng tôi tin rằng thế hệ mới nhất của Llama sẽ kích hoạt các ứng dụng và mô hình mô hình hóa mới, bao gồm tạo dữ liệu tổng hợp để cho phép cải tiến và đào tạo các mô hình nhỏ hơn, cũng như chưng cất mô hình – một khả năng chưa bao giờ đạt được ở quy mô này trong nguồn mở.
Là một phần của bản phát hành mới nhất này, chúng tôi sẽ giới thiệu các phiên bản nâng cấp của các mẫu 8B và 70B. Đây là những ngôn ngữ đa ngôn ngữ và có độ dài ngữ cảnh dài hơn đáng kể là 128K, sử dụng công cụ hiện đại và khả năng suy luận tổng thể mạnh mẽ hơn. Điều này cho phép các mô hình mới nhất của chúng tôi hỗ trợ các trường hợp sử dụng nâng cao, chẳng hạn như tóm tắt văn bản dạng dài, tác nhân đàm thoại đa ngôn ngữ và trợ lý mã hóa. Chúng tôi cũng đã thực hiện các thay đổi đối với giấy phép của mình, cho phép các nhà phát triển sử dụng kết quả đầu ra từ các mô hình Llama — bao gồm 405B — để cải thiện các mô hình khác. Đúng như cam kết của chúng tôi đối với nguồn mở, bắt đầu từ hôm nay, chúng tôi sẽ cung cấp các mô hình này cho cộng đồng để tải xuống trên llama.meta.com và Hugging Face và có sẵn để phát triển ngay lập tức trên hệ sinh thái rộng lớn của các nền tảng đối tác của chúng tôi.
Đánh giá mô hình
Đối với bản phát hành này, chúng tôi đã đánh giá hiệu suất trên hơn 150 bộ dữ liệu điểm chuẩn trải rộng trên nhiều ngôn ngữ. Ngoài ra, chúng tôi đã thực hiện các đánh giá sâu rộng trên người để so sánh Llama 3.1 với các mô hình cạnh tranh trong các tình huống thực tế. Đánh giá thử nghiệm của chúng tôi cho thấy mô hình hàng đầu của chúng tôi cạnh tranh với các mô hình nền tảng hàng đầu trên một loạt các nhiệm vụ, bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet.
Kiến trúc mô hình
Là mô hình lớn nhất của chúng tôi, việc đào tạo Llama 3.1 405B trên hơn 15 nghìn tỷ mã thông báo là một thách thức lớn. Để cho phép đào tạo chạy ở quy mô này và đạt được kết quả chúng tôi có trong một khoảng thời gian hợp lý, chúng tôi đã tối ưu hóa đáng kể toàn bộ ngăn xếp đào tạo của mình và đẩy việc đào tạo mô hình của chúng tôi lên hơn 16 nghìn GPU H100, biến 405B trở thành mô hình Llama đầu tiên được đào tạo ở quy mô này.
Để giải quyết vấn đề này, chúng tôi đã đưa ra các lựa chọn thiết kế tập trung vào việc giữ cho quá trình phát triển mô hình có thể mở rộng và đơn giản.
Chúng tôi đã chọn kiến trúc mô hình máy biến áp chỉ dành cho bộ giải mã tiêu chuẩn với những điều chỉnh nhỏ thay vì mô hình hỗn hợp các chuyên gia để tối đa hóa sự ổn định trong đào tạo.
Chúng tôi đã áp dụng một quy trình sau đào tạo lặp đi lặp lại, trong đó mỗi vòng sử dụng tinh chỉnh có giám sát và tối ưu hóa sở thích trực tiếp. Điều này cho phép chúng tôi tạo ra dữ liệu tổng hợp chất lượng cao nhất cho mỗi vòng và cải thiện hiệu suất của từng khả năng.
So với các phiên bản trước của Llama, chúng tôi đã cải thiện cả số lượng và chất lượng dữ liệu chúng tôi sử dụng cho trước và sau đào tạo. Những cải tiến này bao gồm phát triển các đường ống tiền xử lý và quản lý cẩn thận hơn cho dữ liệu trước đào tạo, phát triển đảm bảo chất lượng nghiêm ngặt hơn và lọc các phương pháp tiếp cận cho dữ liệu sau đào tạo.
Như mong đợi theo luật mở rộng quy mô cho các mô hình ngôn ngữ, mô hình hàng đầu mới của chúng tôi vượt trội hơn các mô hình nhỏ hơn được đào tạo bằng cách sử dụng cùng một quy trình. Chúng tôi cũng đã sử dụng mô hình tham số 405B để cải thiện chất lượng sau đào tạo của các mô hình nhỏ hơn của chúng tôi.
Để hỗ trợ suy luận sản xuất quy mô lớn cho một mô hình ở quy mô 405B, chúng tôi đã lượng tử hóa các mô hình của mình từ số 16 bit (BF16) đến 8 bit (FP8), giảm hiệu quả các yêu cầu tính toán cần thiết và cho phép mô hình chạy trong một nút máy chủ duy nhất.
Hướng dẫn và tinh chỉnh trò chuyện
Với Llama 3.1 405B, chúng tôi cố gắng cải thiện tính hữu ích, chất lượng và khả năng làm theo hướng dẫn chi tiết của mô hình để đáp ứng hướng dẫn của người dùng trong khi vẫn đảm bảo mức độ an toàn cao. Thách thức lớn nhất của chúng tôi là hỗ trợ nhiều khả năng hơn, cửa sổ ngữ cảnh 128K và tăng kích thước mô hình.
Xây dựng với Llama 3.1 405B
Đối với các nhà phát triển thông thường, việc sử dụng mô hình ở quy mô 405B là một thách thức. Mặc dù đây là một mô hình cực kỳ mạnh mẽ, chúng tôi nhận ra rằng nó đòi hỏi tài nguyên tính toán và chuyên môn đáng kể để làm việc. Chúng tôi đã trao đổi với cộng đồng và nhận thấy rằng có nhiều khía cạnh trong phát triển AI sáng tạo hơn là chỉ đưa ra gợi ý cho mô hình. Chúng tôi muốn giúp mọi người khai thác tối đa 405B, bao gồm:
Suy luận thời gian thực và theo lô: Khả năng thực hiện các tác vụ suy luận nhanh chóng hoặc xử lý nhiều yêu cầu cùng một lúc.
Tinh chỉnh có giám sát: Điều chỉnh mô hình để phù hợp với các nhiệm vụ cụ thể bằng cách sử dụng dữ liệu có nhãn.
Đánh giá mô hình cho ứng dụng cụ thể: Kiểm tra hiệu suất của mô hình trên dữ liệu và tác vụ cụ thể của bạn.
Tiếp tục tiền huấn luyện: Cải thiện hiệu suất mô hình trên dữ liệu mới mà không cần bắt đầu từ đầu.
Tạo văn bản hỗ trợ truy xuất (RAG): Nâng cao khả năng tạo văn bản của mô hình bằng cách kết hợp thông tin từ các nguồn bên ngoài.
Gọi hàm: Cho phép mô hình tương tác với các hàm và API bên ngoài để mở rộng chức năng của nó.
Tạo dữ liệu tổng hợp: Tạo dữ liệu huấn luyện bổ sung để cải thiện hiệu suất mô hình.
Các bên hỗ trợ xây dựng mô hình dựa trên Llama 3.1
Nếu các bạn đang quan tâm đến nền tảng tạo AI có thể tham khảo tại: Shakker.ai
Giới thiệu Llama 3.1 mô hình AI mới của Meta (Được đào tạo bởi 16 nghìn card màn hình H100)
Mục Lục
Llama 3.1 là gì
Llama 3.1 405B là mô hình có sẵn công khai đầu tiên cạnh tranh với các mô hình AI hàng đầu khi nói đến các khả năng hiện đại về kiến thức chung, khả năng lái, toán học, sử dụng công cụ và dịch thuật đa ngôn ngữ. Với việc phát hành mô hình 405B, chúng tôi đã sẵn sàng tăng cường đổi mới — với những cơ hội chưa từng có để phát triển và khám phá. Chúng tôi tin rằng thế hệ mới nhất của Llama sẽ kích hoạt các ứng dụng và mô hình mô hình hóa mới, bao gồm tạo dữ liệu tổng hợp để cho phép cải tiến và đào tạo các mô hình nhỏ hơn, cũng như chưng cất mô hình – một khả năng chưa bao giờ đạt được ở quy mô này trong nguồn mở.
Là một phần của bản phát hành mới nhất này, chúng tôi sẽ giới thiệu các phiên bản nâng cấp của các mẫu 8B và 70B. Đây là những ngôn ngữ đa ngôn ngữ và có độ dài ngữ cảnh dài hơn đáng kể là 128K, sử dụng công cụ hiện đại và khả năng suy luận tổng thể mạnh mẽ hơn. Điều này cho phép các mô hình mới nhất của chúng tôi hỗ trợ các trường hợp sử dụng nâng cao, chẳng hạn như tóm tắt văn bản dạng dài, tác nhân đàm thoại đa ngôn ngữ và trợ lý mã hóa. Chúng tôi cũng đã thực hiện các thay đổi đối với giấy phép của mình, cho phép các nhà phát triển sử dụng kết quả đầu ra từ các mô hình Llama — bao gồm 405B — để cải thiện các mô hình khác. Đúng như cam kết của chúng tôi đối với nguồn mở, bắt đầu từ hôm nay, chúng tôi sẽ cung cấp các mô hình này cho cộng đồng để tải xuống trên llama.meta.com và Hugging Face và có sẵn để phát triển ngay lập tức trên hệ sinh thái rộng lớn của các nền tảng đối tác của chúng tôi.
Đánh giá mô hình
Đối với bản phát hành này, chúng tôi đã đánh giá hiệu suất trên hơn 150 bộ dữ liệu điểm chuẩn trải rộng trên nhiều ngôn ngữ. Ngoài ra, chúng tôi đã thực hiện các đánh giá sâu rộng trên người để so sánh Llama 3.1 với các mô hình cạnh tranh trong các tình huống thực tế. Đánh giá thử nghiệm của chúng tôi cho thấy mô hình hàng đầu của chúng tôi cạnh tranh với các mô hình nền tảng hàng đầu trên một loạt các nhiệm vụ, bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet.
Kiến trúc mô hình
Là mô hình lớn nhất của chúng tôi, việc đào tạo Llama 3.1 405B trên hơn 15 nghìn tỷ mã thông báo là một thách thức lớn. Để cho phép đào tạo chạy ở quy mô này và đạt được kết quả chúng tôi có trong một khoảng thời gian hợp lý, chúng tôi đã tối ưu hóa đáng kể toàn bộ ngăn xếp đào tạo của mình và đẩy việc đào tạo mô hình của chúng tôi lên hơn 16 nghìn GPU H100, biến 405B trở thành mô hình Llama đầu tiên được đào tạo ở quy mô này.
Để giải quyết vấn đề này, chúng tôi đã đưa ra các lựa chọn thiết kế tập trung vào việc giữ cho quá trình phát triển mô hình có thể mở rộng và đơn giản.
So với các phiên bản trước của Llama, chúng tôi đã cải thiện cả số lượng và chất lượng dữ liệu chúng tôi sử dụng cho trước và sau đào tạo. Những cải tiến này bao gồm phát triển các đường ống tiền xử lý và quản lý cẩn thận hơn cho dữ liệu trước đào tạo, phát triển đảm bảo chất lượng nghiêm ngặt hơn và lọc các phương pháp tiếp cận cho dữ liệu sau đào tạo.
Như mong đợi theo luật mở rộng quy mô cho các mô hình ngôn ngữ, mô hình hàng đầu mới của chúng tôi vượt trội hơn các mô hình nhỏ hơn được đào tạo bằng cách sử dụng cùng một quy trình. Chúng tôi cũng đã sử dụng mô hình tham số 405B để cải thiện chất lượng sau đào tạo của các mô hình nhỏ hơn của chúng tôi.
Để hỗ trợ suy luận sản xuất quy mô lớn cho một mô hình ở quy mô 405B, chúng tôi đã lượng tử hóa các mô hình của mình từ số 16 bit (BF16) đến 8 bit (FP8), giảm hiệu quả các yêu cầu tính toán cần thiết và cho phép mô hình chạy trong một nút máy chủ duy nhất.
Hướng dẫn và tinh chỉnh trò chuyện
Với Llama 3.1 405B, chúng tôi cố gắng cải thiện tính hữu ích, chất lượng và khả năng làm theo hướng dẫn chi tiết của mô hình để đáp ứng hướng dẫn của người dùng trong khi vẫn đảm bảo mức độ an toàn cao. Thách thức lớn nhất của chúng tôi là hỗ trợ nhiều khả năng hơn, cửa sổ ngữ cảnh 128K và tăng kích thước mô hình.
Xây dựng với Llama 3.1 405B
Đối với các nhà phát triển thông thường, việc sử dụng mô hình ở quy mô 405B là một thách thức. Mặc dù đây là một mô hình cực kỳ mạnh mẽ, chúng tôi nhận ra rằng nó đòi hỏi tài nguyên tính toán và chuyên môn đáng kể để làm việc. Chúng tôi đã trao đổi với cộng đồng và nhận thấy rằng có nhiều khía cạnh trong phát triển AI sáng tạo hơn là chỉ đưa ra gợi ý cho mô hình. Chúng tôi muốn giúp mọi người khai thác tối đa 405B, bao gồm:
Các bên hỗ trợ xây dựng mô hình dựa trên Llama 3.1
Nếu các bạn đang quan tâm đến nền tảng tạo AI có thể tham khảo tại: Shakker.ai