Công nghệ học máy tự động (AutoML)

Nếu đang bắt đầu một dự án máy học (ML) mới, bạn có thể thắc mắc liệu việc huấn luyện thủ công có phải là lựa chọn duy nhất để xây dựng mô hình máy học hay không. Với phương pháp đào tạo thủ công, bạn sẽ viết mã bằng cách sử dụng khung máy học để tạo mô hình. Trong quá trình này, bạn chọn thuật toán cần khám phá và điều chỉnh lặp lại các tham số siêu dữ liệu để tìm mô hình phù hợp.

Tất nhiên, việc huấn luyện mô hình không phải là điều duy nhất bạn cần cân nhắc. Trong thực tế, việc xây dựng mô hình học máy từ nguyên mẫu đến sản xuất liên quan đến các nhiệm vụ lặp lại và kỹ năng chuyên biệt. Quy trình làm việc đơn giản về công nghệ học máy khám phá sẽ có dạng như sau:

Hình 1. Quy trình làm việc đơn giản về máy học.
Hình 1. Quy trình khám phá đơn giản về máy học.

Công việc lặp lại – Quy trình công việc của công nghệ học máy có thể bao gồm công việc lặp lại và thử nghiệm. Ví dụ: trong quá trình phát triển mô hình, bạn thường cần khám phá nhiều cách kết hợp thuật toán và tham số siêu dữ liệu để xác định mô hình phù hợp nhất. Với phương pháp huấn luyện thủ công, bạn sẽ viết mã chuyên biệt để huấn luyện mô hình, sau đó điều chỉnh mã để chạy các thử nghiệm với nhiều thuật toán và tham số siêu dữ liệu học máy để tìm mô hình tốt nhất. Đối với các dự án nhỏ hoặc dự án thăm dò, quy trình thủ công này có thể không phải là vấn đề, nhưng đối với các dự án lớn hơn, những nhiệm vụ lặp lại này có thể tốn nhiều thời gian.

Kỹ năng chuyên biệt – Việc phát triển mô hình học máy theo cách thủ công đòi hỏi các kỹ năng chuyên biệt. Trong thực tế, không phải nhóm nào có kế hoạch phát triển mô hình học máy cũng có những kỹ năng này. Nếu nhóm không có nhà khoa học dữ liệu chuyên trách, thì việc làm việc này theo cách thủ công có thể không khả thi.

May mắn thay, một số bước nhất định trong quá trình phát triển mô hình có thể được tự động hoá để giảm gánh nặng công việc lặp đi lặp lại và nhu cầu về các kỹ năng chuyên biệt. Tự động hoá các nhiệm vụ này là chủ đề của mô-đun này về công nghệ học máy tự động (AutoML).

AutoML là gì?

AutoML là một quy trình tự động hoá một số tác vụ nhất định trong quy trình công việc học máy. Bạn có thể coi AutoML là một bộ công cụ và công nghệ giúp xây dựng mô hình học máy nhanh hơn và dễ tiếp cận hơn đối với nhiều nhóm người dùng hơn. Mặc dù tính năng tự động hoá có thể giúp ích trong toàn bộ quy trình làm việc của công nghệ học máy, nhưng các tác vụ thường liên quan đến AutoML là những tác vụ có trong chu kỳ phát triển mô hình như trong Hình 1. Những nhiệm vụ lặp lại này bao gồm:

  • Kỹ thuật dữ liệu
    • Kỹ thuật trích xuất tính năng.
    • Lựa chọn tính năng.
  • Khoá đào tạo
    • Xác định thuật toán học máy phù hợp.
    • Chọn các tham số siêu dữ liệu tốt nhất.
  • Phân tích
    • Đánh giá các chỉ số được tạo trong quá trình huấn luyện dựa trên tập dữ liệu kiểm thử và xác thực.

Với AutoML, bạn có thể tập trung vào vấn đề và dữ liệu liên quan đến học máy thay vì tập trung vào việc chọn tính năng, điều chỉnh tham số siêu dữ liệu và chọn thuật toán phù hợp.