Intel ghi nhận những tiến bộ ấn tượng trong trí tuệ nhân tạo cạnh tranh theo kết quả mới từ MLCommons.

Hôm nay, MLCommons đã công bố kết quả điểm chuẩn hiệu suất AI trong ngành của mình, MLPerf Training 3.0, với sự tham gia của bộ tăng tốc học sâu Habana Gaudi2 và bộ xử lý Intel Xeon Scalable thế hệ thứ 4. Kết quả mới nhất này xác nhận giá trị TCO của Intel Xeon và Intel Gaudi cho khách hàng trong lĩnh vực AI. Bộ tăng tốc tích hợp của Xeon là giải pháp lý tưởng để chạy khối lượng công việc AI trên bộ xử lý đa năng, trong khi Gaudi mang lại hiệu suất cạnh tranh cho các mô hình ngôn ngữ lớn và trí tuệ nhân tạo tổng hợp. Các hệ thống có khả năng mở rộng của Intel với phần mềm mở được tối ưu hóa, dễ lập trình sẽ hạ thấp các rào cản để khách hàng triển khai các giải pháp dựa trên trí tuệ nhân tạo trong trung tâm dữ liệu. Kết quả đào tạo ấn tượng của Gaudi2 trên mô hình GPT-3 và hiệu suất đào tạo học sâu của Xeon thế hệ thứ 4 cho thấy khả năng mạnh mẽ của các sản phẩm Intel trong việc xử lý công việc AI trên quy mô lớn.
Hôm nay, MLCommons đã công bố kết quả điểm chuẩn hiệu suất AI trong ngành của mình, MLPerf Training 3.0, trong đó cả bộ tăng tốc học sâu Habana® Gaudi®2 và bộ xử lý Intel® Xeon® Scalable thế hệ thứ 4 đều mang lại kết quả đào tạo ấn tượng.
“Kết quả MLPerf mới nhất do MLCommons công bố xác nhận giá trị TCO của bộ xử lý Intel Xeon và bộ tăng tốc học sâu Intel Gaudi cho khách hàng trong lĩnh vực AI. Bộ tăng tốc tích hợp của Xeon biến nó trở thành giải pháp lý tưởng để chạy khối lượng công việc AI trên bộ xử lý đa năng , trong khi Gaudi mang lại hiệu suất cạnh tranh cho các mô hình ngôn ngữ lớn và trí tuệ nhân tạo tổng hợp.Các hệ thống có khả năng mở rộng của Intel với phần mềm mở được tối ưu hóa, dễ lập trình sẽ hạ thấp các rào cản để khách hàng và đối tác triển khai một loạt các giải pháp dựa trên trí tuệ nhân tạo trong trung tâm dữ liệu từ đám mây đến ranh giới thông minh.”
– Sandra Rivera, phó chủ tịch điều hành Intel kiêm tổng giám đốc Trung tâm dữ liệu và Nhóm AI
CŨNG ĐỌC: GPU Intel Arc A380 giảm $30: Giải pháp AV1 cấp thấp nhất phù hợp với RTX 6400?
Tại sao nó quan trọng:
Tường thuật hiện tại của ngành là AI tổng quát và các mô hình ngôn ngữ lớn (LLM) chỉ có thể chạy trên GPU Nvidia. Dữ liệu mới cho thấy danh mục giải pháp AI của Intel cung cấp một lựa chọn cạnh tranh và hấp dẫn cho những khách hàng muốn thoát khỏi hệ sinh thái khép kín hạn chế hiệu quả và quy mô.
Kết quả mới nhất của MLPerf Training 3.0 phác thảo hiệu suất của các sản phẩm Intel trên các mô hình học sâu khác nhau. Sự trưởng thành của phần mềm và hệ thống đào tạo dựa trên Gaudi2 được thể hiện ở quy mô lớn trên mô hình ngôn ngữ lớn, GPT-3. Gaudi2 là một trong hai giải pháp bán dẫn duy nhất gửi kết quả hiệu suất đến điểm chuẩn cho đào tạo LLM GPT-3.
Gaudi2 cũng cung cấp lợi thế chi phí rất cạnh tranh cho khách hàng, cả về chi phí máy chủ và hệ thống. Hiệu suất MLPerf đã được xác minh bởi máy gia tốc trên GPT-3, các mô hình ngôn ngữ tự nhiên và thị giác máy tính cũng như những cải tiến phần mềm sắp tới khiến Gaudi2 trở thành một giải pháp thay thế hiệu suất/giá rất hấp dẫn cho H100 của Nvidia.
Về phía CPU, hiệu suất đào tạo học sâu cho bộ xử lý Xeon thế hệ thứ 4 với công cụ AI của Intel cho thấy khách hàng có thể xây dựng với các máy chủ dựa trên Xeon một hệ thống AI phổ quát duy nhất để xử lý trước dữ liệu, đào tạo mô hình và triển khai để mang lại sự kết hợp phù hợp. về Hiệu suất, hiệu quả, độ chính xác và khả năng mở rộng của AI.
Giới thiệu về Habana Gaudi2 Kết quả:
Đào tạo AI sáng tạo và các mô hình ngôn ngữ lớn yêu cầu các cụm máy chủ để đáp ứng nhu cầu tính toán lớn trên quy mô lớn. Các kết quả MLPerf này cung cấp xác nhận đáng kể về hiệu suất tuyệt vời và khả năng mở rộng hiệu quả của Habana Gaudi2 trên mô hình đòi hỏi khắt khe nhất đã được thử nghiệm, 175 tỷ tham số GPT-3.
Kết quả nổi bật:
- Gaudi2 mang đến thời gian đào tạo ấn tượng trên GPT-31: 311 phút trên 384 máy gia tốc.
- Tỷ lệ gần tuyến tính 95% từ 256 đến 384 máy gia tốc trên mẫu GPT-3.
- Kết quả đào tạo xuất sắc về thị giác máy tính – ResNet-50 accelerator 8 và Unet3D accelerator 8 – và các mô hình xử lý ngôn ngữ tự nhiên – BERT accelerator 8 và 64.
- Cải thiện hiệu suất lần lượt là 10% và 4% đối với các mô hình BERT và ResNet so với bản đệ trình tháng 11, bằng chứng về sự trưởng thành ngày càng tăng của phần mềm Gaudi2.
- Kết quả của Gaudi2 được phân phối “ngay lập tức”, nghĩa là khách hàng có thể đạt được kết quả hiệu suất tương đương khi triển khai Gaudi2 tại cơ sở hoặc trên đám mây.
Giới thiệu về sự trưởng thành của phần mềm Gaudi2:
Hỗ trợ phần mềm cho nền tảng Gaudi tiếp tục hoàn thiện và bắt kịp với số lượng AI và LLM tổng hợp ngày càng tăng theo nhu cầu phổ biến.
- Việc gửi GPT-3 của Gaudi2 dựa trên PyTorch và sử dụng thư viện tối ưu hóa DeepSpeed phổ biến (một phần của Microsoft AI trên quy mô lớn), thay vì phần mềm tùy chỉnh. DeepSpeed cho phép hỗ trợ 3D song song (Data, Tensor, Pipeline) đồng thời, tối ưu hóa hơn nữa hiệu suất hiệu suất mở rộng trên LLM.
- Kết quả Gaudi2 trên điểm chuẩn 3.0 đã được gửi ở loại dữ liệu BF16. Dự kiến hiệu suất của Gaudi2 sẽ tăng vọt đáng kể khi phần mềm hỗ trợ cho FP8 và các tính năng mới được phát hành vào quý 3 năm 2023.
Giới thiệu về Kết quả của Bộ xử lý Xeon thế hệ thứ 4:
Là một CPU duy nhất được đệ trình trong số các giải pháp thay thế khác nhau, kết quả của MLPerf chứng minh rằng bộ xử lý Intel Xeon cung cấp cho doanh nghiệp khả năng đặc biệt để áp dụng AI vào các hệ thống đa năng và tránh chi phí cũng như sự phức tạp khi giới thiệu các hệ thống AI chuyên dụng.
Đối với một số ít khách hàng đào tạo không liên tục các mô hình lớn từ đầu, họ có thể sử dụng CPU đa năng và thường trên các máy chủ dựa trên Intel mà họ đã sử dụng để điều hành doanh nghiệp của mình. Tuy nhiên, hầu hết sẽ sử dụng mô hình được đào tạo và tinh chỉnh nó bằng các tập dữ liệu bố cục nhỏ hơn của riêng họ. Intel đã công bố kết quả trước đó cho thấy rằng việc tinh chỉnh này có thể đạt được chỉ trong vài phút bằng cách sử dụng phần mềm Intel AI và phần mềm mã nguồn mở tiêu chuẩn ngành.
Kết quả MLPerf nổi bật:
- Ở phần đóng, Xeon thế hệ thứ 4 có thể đào tạo các mô hình BERT và ResNet-50 trong vòng chưa đầy 50 phút. (47,93 phút) và ít hơn 90 phút. (88,17 phút), tương ứng.
- Với BERT mở, kết quả cho thấy Xeon có thể huấn luyện mô hình trong khoảng 30 phút (31,06 phút) khi mở rộng quy mô thành 16 nút.
- Đối với kiểu RetinaNet lớn hơn, Xeon có thể đạt được thời gian là 232 phút. tại 16 nút, cho phép khách hàng linh hoạt sử dụng các chu kỳ Xeon ngoài giờ cao điểm để đào tạo các mô hình của họ suốt buổi sáng, trong bữa trưa hoặc qua đêm.
- Xeon thế hệ thứ 4 với Intel® Advanced Matrix Connections (Intel® AMX) mang đến những cải tiến đáng kể về hiệu suất vượt trội, bao gồm nhiều khung, công cụ khoa học dữ liệu đầu cuối và hệ sinh thái rộng lớn gồm các giải pháp thông minh.
MLPerf, thường được coi là điểm chuẩn uy tín nhất cho hiệu suất AI, cho phép so sánh hiệu suất công bằng và có thể lặp lại giữa các giải pháp. Ngoài ra, Intel đã vượt qua mốc 100 lần gửi và vẫn là nhà cung cấp duy nhất gửi kết quả CPU công khai bằng phần mềm hệ sinh thái học sâu tiêu chuẩn ngành.
Những kết quả này cũng làm nổi bật hiệu quả mở rộng quy mô tuyệt vời có thể bằng cách sử dụng bộ điều hợp mạng Intel Ethernet 800 Series sẵn có và tiết kiệm chi phí sử dụng Phần mềm Intel® Ethernet Fabric Suite nguồn mở dựa trên Intel oneAPI.
BÀI VIẾT LIÊN QUAN: Intel Xeon thế hệ thứ 4 được tung ra thị trường