MLOps là gì?

MLOps, viết tắt của Machine Learning Operations, đề cập đến một tập hợp các phương pháp, công cụ và kỹ thuật hỗ trợ việc triển khai, giám sát và quản lý các mô hình máy học (ML) trong môi trường sản xuất. Nó kết hợp các nguyên tắc của DevOps, kỹ thuật dữ liệu và máy học để đảm bảo các mô hình máy học đáng tin cậy, có thể mở rộng và hiệu quả.

MLOps liên quan đến việc tự động hóa toàn bộ quy trình máy học, từ chuẩn bị dữ liệu và đào tạo mô hình đến triển khai và giám sát, để đảm bảo các mô hình hoạt động như mong đợi và có thể dễ dàng cập nhật hoặc cải thiện. MLOps ngày càng trở nên quan trọng khi nhiều tổ chức sử dụng máy học để cải thiện hoạt động của họ và đưa ra quyết định dựa trên dữ liệu.

Amazon SageMaker là gì?

Amazon SageMaker là một nền tảng máy học dựa trên đám mây do Amazon Web Services (AWS) cung cấp. Nó cho phép các nhà khoa học và nhà phát triển dữ liệu tạo và chạy các mô hình ML trên quy mô lớn bằng nhiều công cụ và dịch vụ tích hợp sẵn.

SageMaker cung cấp môi trường máy tính xách tay Jupyter được quản lý để khám phá và phân tích dữ liệu, cũng như các thuật toán và khuôn khổ dựng sẵn cho máy học. Nó cũng cho phép người dùng dễ dàng huấn luyện các mô hình trên các tập dữ liệu lớn bằng điện toán phân tán và triển khai chúng vào môi trường sản xuất có độ trễ thấp và thông lượng cao.

SageMaker được thiết kế để tạo điều kiện cộng tác nhóm trong các dự án máy học và hợp lý hóa toàn bộ vòng đời máy học.

Amazon SageMaker cho MLOps

Amazon SageMaker giúp các kỹ sư máy học và nhà khoa học dữ liệu triển khai MLOps bằng cách cung cấp một nền tảng hoàn chỉnh để phát triển, đào tạo, triển khai và bảo trì các mô hình máy học. SageMaker đơn giản hóa và tăng tốc quy trình MLOps, cho phép các nhóm tập trung vào việc phát triển và cải thiện mô hình thay vì quản lý cơ sở hạ tầng.

Với SageMaker, các tác vụ MLOps có thể được sắp xếp hợp lý và tự động hóa thông qua các công cụ và dịch vụ tích hợp, chẳng hạn như kiểm soát phiên bản, giám sát mô hình và quy trình triển khai tự động. SageMaker cho phép các nhà khoa học dữ liệu dễ dàng thử nghiệm các thuật toán và mô hình khác nhau, đồng thời mở rộng quy mô đào tạo trên các tập dữ liệu lớn bằng điện toán phân tán.

Sau khi mô hình được đào tạo, SageMaker cung cấp khả năng triển khai liền mạch cho môi trường sản xuất, với khả năng tự động thay đổi quy mô và cân bằng tải. Ngoài ra, SageMaker còn tích hợp với nhiều dịch vụ AWS, bao gồm Amazon S3, AWS Lambda và CloudWatch để kích hoạt quy trình làm việc MLOps từ đầu đến cuối, từ nhập dữ liệu đến triển khai và giám sát mô hình.

Giá của Amazon SageMaker hoạt động như thế nào?

Amazon SageMaker cung cấp hai tùy chọn giá: gói theo yêu cầu và gói tiết kiệm. Đối với những người dùng muốn dùng thử SageMaker trước khi cam kết với gói giá, Amazon cung cấp một bậc miễn phí bao gồm 250 giờ sử dụng mỗi tháng cho RStudio trên SageMaker, 250 giờ cho Studio Notebook, 125 giờ cho suy luận thời gian thực, 750 giờ mỗi tháng cho SageMaker Canvas và 150 nghìn giây suy luận không cần máy chủ mỗi tháng.

Lời yêu cầu

Tùy chọn đặt giá theo yêu cầu cho phép người dùng chỉ trả tiền cho những gì họ sử dụng mà không có bất kỳ cam kết dài hạn hoặc chi phí trả trước nào. Với giá theo yêu cầu, người dùng được tính phí theo giờ hoặc giây cho các tài nguyên điện toán, lưu trữ và truyền dữ liệu được sử dụng trong quy trình công việc SageMaker của họ.

So với bậc miễn phí, SageMaker Theo yêu cầu cung cấp các tính năng và khả năng bổ sung, chẳng hạn như hỗ trợ cho nhiều loại và kích cỡ phiên bản, cơ sở hạ tầng được quản lý để đào tạo phân tán và suy luận theo thời gian thực cũng như thay đổi hàng loạt. Với Theo yêu cầu, người dùng cũng có thể chọn triển khai bộ chứa Docker của riêng họ hoặc sử dụng bộ chứa SageMaker dựng sẵn cho các khung máy học phổ biến như TensorFlow và PyTorch.

kế hoạch tiết kiệm

SageMaker cũng cung cấp tùy chọn định giá gói tiết kiệm, cung cấp mức chiết khấu cho người dùng cam kết sử dụng một lượng tài nguyên máy tính nhất định trong khoảng thời gian một hoặc ba năm. Các gói tiết kiệm có thể tiết kiệm tới 60% so với giá theo yêu cầu.

SageMaker ML Savings Plans cũng cung cấp các tính năng bổ sung, chẳng hạn như giảm giá cho tất cả các loại phiên bản, bao gồm cả các phiên bản GPU dành cho deep learning và khả năng dự trữ dung lượng cho khối lượng công việc cụ thể. Gói lưu trữ cũng cung cấp cơ sở hạ tầng được quản lý và thay đổi quy mô tự động để đào tạo phân tán và suy luận theo thời gian thực.

Kế hoạch tiết kiệm máy học cung cấp các tùy chọn giá linh hoạt đáp ứng các trường hợp sử dụng và ngân sách khác nhau, bao gồm thanh toán trả trước đầy đủ, thanh toán trước một phần (50%) và không thanh toán trước.

Tối ưu hóa chi phí MLOps của Amazon SageMaker

Quản lý chi phí AWS

Quản lý chi phí AWS là một bộ công cụ và các biện pháp thực hành tốt nhất được thiết kế để giúp khách hàng tối ưu hóa chi phí và việc sử dụng các dịch vụ AWS của họ. Quản lý chi phí bao gồm nhiều tính năng và dịch vụ cho phép khách hàng theo dõi, phân tích và tối ưu hóa chi phí AWS của họ.

AWS Cost Explorer có thể giúp bạn hình dung, hiểu và quản lý chi phí SageMaker của mình. Nó có thể cung cấp dự báo chi phí, báo cáo sử dụng và khuyến nghị tiết kiệm chi phí. Sử dụng Cost Explorer để xác định xu hướng chi phí và cơ hội tối ưu hóa.

Ngân sách AWS có thể giúp bạn đặt chi phí tùy chỉnh và ngân sách sử dụng cho các tài nguyên SageMaker của bạn. Bạn có thể nhận được thông báo khi bạn đạt hoặc vượt quá ngân sách của mình, giúp bạn tránh được các chi phí bất ngờ.

Quản lý địa điểm đào tạo

Đào tạo tại chỗ được quản lý là một tính năng trong Amazon SageMaker cho phép người dùng tận dụng các phiên bản Amazon EC2 Spot để đào tạo các mô hình máy học với chi phí thấp hơn đáng kể. Một ví dụ giao ngay là phiên bản EC2 chưa sử dụng có thể được mua với mức chiết khấu cao so với phiên bản theo yêu cầu.

Với đào tạo tại chỗ được quản lý, SageMaker sẽ tự động khởi chạy và quản lý các phiên bản Spot để đào tạo mô hình, xử lý gián đoạn và khôi phục đào tạo từ các điểm kiểm tra khi cần. Bằng cách sử dụng các phiên bản Spot, người dùng có thể giảm tới 90% chi phí đào tạo so với các phiên bản theo yêu cầu mà không làm giảm hiệu suất hoặc khả năng mở rộng.

API và mô hình ML được đào tạo trước

Việc sử dụng các API và mô hình máy học đã được đào tạo có thể giúp tiết kiệm thời gian và giảm chi phí bằng cách tận dụng các mô hình và cơ sở hạ tầng hiện có thay vì xây dựng mọi thứ từ đầu. Các mô hình được đào tạo trước đã được đào tạo trên các tập dữ liệu lớn, điều này có thể làm giảm lượng dữ liệu và tài nguyên tính toán cần thiết để đào tạo các mô hình tùy chỉnh.

Họ cũng có thể cung cấp điểm bắt đầu cho các mô hình tùy chỉnh cần được đào tạo về dữ liệu cụ thể. Điều này có thể tiết kiệm đáng kể thời gian và tài nguyên, đặc biệt đối với các ứng dụng có các trường hợp sử dụng phổ biến như nhận dạng hình ảnh và giọng nói. Các dịch vụ của Amazon như Recognition và Comprehend cung cấp các API cấp cao có thể giúp giảm chi phí cho một số tác vụ.

Tuy nhiên, điều quan trọng là phải tiến hành phân tích lợi tức đầu tư (ROI) để đảm bảo rằng chi phí sử dụng các mô hình và API được đào tạo trước được chứng minh bằng những lợi ích mà chúng mang lại và chúng phù hợp với trường hợp sử dụng cụ thể. Trong một số trường hợp, việc xây dựng mô hình tùy chỉnh từ đầu hoặc sửa đổi mô hình được đào tạo hiện có có thể tiết kiệm chi phí hơn.

Đảm bảo sử dụng phiên bản tối ưu

Để tối đa hóa việc sử dụng các phiên bản máy tính xách tay Amazon SageMaker, điều quan trọng là phải đảm bảo rằng các phiên bản được sử dụng hiệu quả và hiệu quả. Vì phiên bản sổ ghi chép chỉ hữu ích khi sử dụng sổ ghi chép Jupyter, điều quan trọng là phải đảm bảo rằng sổ ghi chép được sử dụng thường xuyên và trong khoảng thời gian đủ dài để chứng minh chi phí của phiên bản.

Một cách để quản lý mức sử dụng phiên bản là thông qua việc sử dụng Sự kiện Amazon CloudWatch, có thể được định cấu hình để tự động bắt đầu và dừng sự kiện dựa trên lịch trình hoặc điều kiện do người dùng xác định. Ví dụ: một phiên bản có thể được lên lịch để bắt đầu và dừng vào những thời điểm cụ thể trong ngày hoặc tuần hoặc một phiên bản có thể tự động dừng khi không hoạt động trong một khoảng thời gian nhất định.

Phần kết luận

Tóm lại, việc triển khai MLOps trên đám mây AWS yêu cầu xem xét cẩn thận chi phí và tài nguyên để đảm bảo hiệu quả và ROI tối ưu. Amazon SageMaker cung cấp một nền tảng mạnh mẽ để chạy các mô hình máy học, với các tùy chọn giá linh hoạt để phù hợp với các trường hợp sử dụng và ngân sách khác nhau.

Tuy nhiên, điều quan trọng là phải xem xét tổng chi phí sở hữu, bao gồm chi phí tính toán, lưu trữ và truyền dữ liệu, cũng như chi phí bảo trì và giám sát các mô hình trong sản xuất. Bằng cách tận dụng các dịch vụ do AWS quản lý, giải pháp dựng sẵn và công cụ tối ưu hóa chi phí, các nhóm có thể hợp lý hóa quy trình làm việc MLOps, giảm chi phí và tăng năng suất. Với việc lập kế hoạch, giám sát và phân tích cẩn thận, các tổ chức có thể đạt được các mục tiêu MLOps của mình trong khi tối ưu hóa chi phí và tối đa hóa ROI trong đám mây AWS.