Microsoft Azure đã gặp sự cố ngừng hoạt động đáng kể trong khoảng 10,5 giờ, ảnh hưởng đến các dịch vụ Azure DevOps ở khu vực Nam Brazil (SBR).

Sự cố ngừng hoạt động xảy ra do lỗi đánh máy trong tác vụ xóa ảnh chụp nhanh, thao tác này đã vô tình xóa Máy chủ Azure SQL thay vì Cơ sở dữ liệu Azure SQL dự kiến.

Điều này dẫn đến việc xóa tất cả mười bảy cơ sở dữ liệu sản xuất cho đơn vị quy mô, dẫn đến không thể xử lý lưu lượng khách hàng.

(Ảnh: FABRICE COFFRINI/AFP qua Getty Images)
Bức ảnh này được chụp vào ngày 19 tháng 1 năm 2023 cho thấy logo của công ty Mỹ Microsoft được trưng bày trong cuộc họp thường niên của Diễn đàn Kinh tế Thế giới (WEF) ở Davos.

Dữ liệu có bị mất không?

May mắn thay, không có mất dữ liệu nào xảy ra trong thời gian ngừng hoạt động. Sự cố được phát hiện trong vòng 20 phút và một kỹ sư trực điện thoại đã ngay lập tức liên hệ để giải quyết sự cố. Tuy nhiên, một số yếu tố góp phần kéo dài thời gian phục hồi.

Đầu tiên, vì khách hàng không thể tự khôi phục Azure SQL Server nên nhóm Azure SQL phải tham gia vào quá trình khôi phục.

Quá trình này bao gồm xác định nhu cầu về kỹ sư Azure SQL theo yêu cầu và khôi phục máy chủ, quá trình này mất khoảng một giờ, theo Eric Mattingly, Giám đốc Kỹ thuật phần mềm chính tại Microsoft Azure.

Thứ hai, khôi phục cơ sở dữ liệu thêm thời gian vì cấu hình sao lưu của nó. Mặc dù một số cơ sở dữ liệu được định cấu hình với các bản sao lưu dự phòng theo Vùng địa lý, nhưng các cơ sở dữ liệu khác đã được tạo trước khi tính năng này khả dụng và chỉ có các bản sao lưu dự phòng theo Vùng.

Do đó, quá trình khôi phục bao gồm sao chép dữ liệu vào các vùng được ghép nối, làm tăng thời gian khôi phục tùy thuộc vào kích thước của cơ sở dữ liệu.

Trong tương lai, Microsoft Azure cho biết họ sẽ đảm bảo rằng tất cả các bản sao lưu cơ sở dữ liệu được định cấu hình là Dự phòng vùng địa lý trên tất cả các đơn vị tỷ lệ.

Cuối cùng, ngay cả sau khi cơ sở dữ liệu được khôi phục, toàn bộ đơn vị tỷ lệ vẫn không thể truy cập được do sự phức tạp với máy chủ web. Tái chế quy trình w3wp trên máy chủ gây ra tác vụ khởi động định kỳ, tác vụ này gặp sự cố và dẫn đến thời gian khởi động kéo dài.

Điều này ảnh hưởng đến quá trình kiểm tra tình trạng của máy chủ web, dẫn đến gián đoạn lưu lượng máy khách từ bộ cân bằng tải. Để giải quyết vấn đề này, Microsoft Azure đã triển khai các bước để dần dần bỏ chặn người dùng và cho phép máy chủ web khởi động đúng cách.

“Vào cuối thời gian ngừng hoạt động, chúng tôi đã điều chỉnh tất cả lưu lượng truy cập vào đơn vị tỷ lệ bằng tính năng Sử dụng tài nguyên của mình để cho phép tất cả các máy chủ web khởi động và vào thành công bộ cân bằng tải,” Mattingly cho biết trong một tuyên bố.

“Điều này khiến người dùng nhận được giới hạn tỷ lệ và lỗi sử dụng. Khi tất cả cơ sở dữ liệu đều hoạt động tốt, chúng tôi dần dần bỏ chặn người dùng để tăng lưu lượng truy cập của khách hàng lên mức bình thường.”

Đọc thêm: Lỗ hổng cơ sở dữ liệu Microsoft Azure Cosmos DB bị cáo buộc khiến 3.300 công ty bị tấn công nghiêm trọng

Ngăn chặn các sự kiện tương tự

Kể từ đó, Microsoft Azure đã thực hiện các bước để ngăn chặn các sự cố tương tự và cải thiện khả năng phục hồi của các dịch vụ của họ. Họ đã sửa các lỗi trong công việc xóa ảnh chụp nhanh, tạo các thử nghiệm toàn diện và triển khai Khóa trình quản lý tài nguyên Azure để ngăn việc vô tình xóa.

Ngoài ra, họ đảm bảo rằng tất cả các bản sao lưu Cơ sở dữ liệu Azure SQL được định cấu hình với dự phòng Vùng địa lý và cách ly cơ sở dữ liệu ảnh chụp nhanh khỏi cơ sở dữ liệu sản xuất.

Mattingly xin lỗi tất cả các khách hàng bị ảnh hưởng bởi sự cố ngừng hoạt động và đảm bảo với họ về các bước được thực hiện để ngăn chặn các sự cố trong tương lai.

Những bài viết liên quan: Máy chủ Microsoft tấn công Azure, Xbox Live lại phát hành hiện đang chuyển sang DNS, các ứng dụng khác bị ảnh hưởng

gạch tên