Học máy từ lâu đã được lấy cảm hứng từ quá trình học tập của con người, bao gồm cả những bài học quý giá rút ra từ những sai lầm. Tuy nhiên, việc áp dụng máy học trong các hệ thống tự động quan trọng về an toàn, chẳng hạn như ô tô tự lái và hệ thống điện, đặt ra những rủi ro đặc biệt đối với sự an toàn của con người.

Khi lĩnh vực máy học tiếp tục phát triển, người ta ngày càng quan tâm đến việc giải quyết những lo ngại về bảo mật này trong các môi trường rất phức tạp. Trong một nghiên cứu gần đây, một bài báo nghiên cứu mang tính đột phá đã thách thức quan điểm phổ biến rằng cần có vô số lần thử nghiệm để tìm hiểu các hành động an toàn trong một môi trường xa lạ.

(Ảnh: Colin Behrens từ Pixabay)

Một cách tiếp cận mới đối với học máy

Nghiên cứu đổi mới này giới thiệu một cách tiếp cận mới đối với công nghệ máy học, ưu tiên đưa ra các hành động an toàn đồng thời đạt được sự cân bằng giữa tính tối ưu, xử lý các tình huống nguy hiểm và nhanh chóng xác định các hành động không an toàn.

Juan Andres Bazerque, trợ lý giáo sư về Kỹ thuật Điện và Máy tính (ECE) tại Trường Kỹ thuật Swanson, đã dẫn đầu nghiên cứu này với sự cộng tác của Enrique Mallada, phó giáo sư về ECE tại Đại học Johns Hopkins.

Bazerque giải thích sự khác biệt cơ bản giữa chính sách học tập an toàn và chính sách tối ưu, nêu bật những cạm bẫy tiềm ẩn khi theo đuổi các giải pháp tối ưu hóa chỉ trong học máy.

Nhận thấy sự cần thiết của bằng chứng thực nghiệm, nhóm nghiên cứu đã tiến hành một nghiên cứu toàn diện trong hai tình huống khác nhau để chứng minh tính hiệu quả của phương pháp tiếp cận của họ.

Bằng cách kết hợp các giả định hợp lý về khám phá, họ tạo ra một thuật toán có khả năng phát hiện tất cả các hành động không an toàn trong một số lần lặp hữu hạn. Ngoài ra, nhóm giải quyết thách thức trong việc tìm kiếm các chính sách tối ưu cho quy trình quyết định Markov (MDP) với hầu hết các ràng buộc nhất định.

Cuộc kiểm tra nhấn mạnh sự cân bằng tinh tế giữa khoảng thời gian cần thiết để phát hiện các hành vi không an toàn và mức độ tiếp xúc với các điều kiện nguy hiểm.

Đọc thêm: Các nhà nghiên cứu phát triển đơn thuốc học máy và cắt giảm một nửa ‘kháng kháng sinh’

Quy trình Quyết định Markov

Trong nghiên cứu của họ, một khung toán học được gọi là quá trình quyết định Markov (MDP) đóng một vai trò quan trọng trong việc lập mô hình ra quyết định chịu ảnh hưởng của cả biến cơ hội và biến được kiểm soát.

Để xác nhận những phát hiện lý thuyết của họ, các nhà khoa học đã tiến hành mô phỏng toàn diện nhằm xác nhận sự đánh đổi đã xác định. Những kết quả này cũng cho thấy tiềm năng đẩy nhanh việc tiếp thu kiến ​​thức và kỹ năng bằng cách kết hợp các ràng buộc về an toàn vào quá trình học tập.

Nhấn mạnh tầm quan trọng của nghiên cứu của họ, Bazerque tuyên bố, “Nghiên cứu này thách thức niềm tin phổ biến rằng học một hành động an toàn đòi hỏi số lần thử nghiệm không giới hạn.”

“Kết quả của chúng tôi cho thấy rằng bằng cách quản lý sự cân bằng giữa tính tối ưu, khả năng tiếp xúc với các sự kiện không an toàn và thời gian phát hiện một cách hiệu quả, chúng tôi có thể đạt được sự an toàn được đảm bảo mà không cần vô số lần khám phá. Điều này có ý nghĩa quan trọng đối với người máy, hệ thống tự trị và trí tuệ nhân tạo, cũng như nhiều hơn nữa,” Bazerque nói thêm.

Khi việc theo đuổi bảo mật AI tiếp tục phát triển, nghiên cứu này mở ra những con đường mới để cải thiện độ tin cậy và bảo mật của máy học trong các môi trường phức tạp.

Bằng cách trang bị cho máy móc khả năng học hỏi các hành động an toàn một cách hiệu quả, các nhà nghiên cứu đang thúc đẩy sự phát triển của các công nghệ có thể bảo vệ sức khỏe con người trong khi vận hành tự động. Những phát hiện của nghiên cứu đã được công bố trên tạp chí IEEE Transactions on Automatic Control.

Những bài viết liên quan: Khởi nghiệp công nghệ sinh học sử dụng thuật toán học máy để dự đoán sự tiến triển của khối u ung thư | Làm thế nào nó hoạt động?

gạch tên