AutoML: Bắt đầu

Nếu đang cân nhắc sử dụng AutoML, bạn có thể có câu hỏi về cách hoạt động của công cụ này và những bước cần thực hiện để bắt đầu. Phần này đi sâu hơn vào các mẫu AutoML phổ biến, khám phá cách hoạt động của AutoML và kiểm tra những bước bạn có thể cần thực hiện trước khi bắt đầu sử dụng AutoML cho dự án của mình.

Công cụ AutoML

Công cụ AutoML thuộc hai danh mục chính:

  • Các công cụ không yêu cầu lập trình thường có dạng ứng dụng web cho phép bạn định cấu hình và chạy các thử nghiệm thông qua giao diện người dùng để tìm mô hình phù hợp nhất cho dữ liệu của mình mà không cần viết mã.
  • API và các công cụ dòng lệnh cung cấp các tính năng tự động hoá nâng cao, nhưng yêu cầu nhiều kiến thức chuyên môn hơn về lập trình và học máy (đôi khi là nhiều hơn đáng kể).

Các công cụ AutoML yêu cầu lập trình có thể mạnh mẽ và linh hoạt hơn so với các công cụ không cần lập trình, nhưng cũng có thể khó sử dụng hơn. Mô-đun này tập trung vào các tuỳ chọn không cần lập trình để phát triển mô hình, nhưng xin lưu ý rằng các tuỳ chọn API và CLI có thể hữu ích nếu bạn yêu cầu tính năng tự động hoá tuỳ chỉnh.

Quy trình công việc của AutoML

Hãy cùng tìm hiểu quy trình làm việc thông thường của công nghệ học máy và xem cách hoạt động khi bạn sử dụng AutoML. Các bước cấp cao trong quy trình làm việc giống với các bước bạn sử dụng để huấn luyện tuỳ chỉnh; điểm khác biệt chính là AutoML sẽ xử lý một số tác vụ cho bạn.

Định nghĩa vấn đề

Bước đầu tiên trong mọi quy trình công việc về học máy là xác định vấn đề của bạn. Khi bạn sử dụng AutoML, hãy đảm bảo rằng công cụ bạn chọn có thể hỗ trợ các mục tiêu của dự án học máy. Hầu hết các công cụ AutoML đều hỗ trợ nhiều loại thuật toán học máy có giám sát và loại dữ liệu đầu vào.

Để biết thêm thông tin về việc định dạng vấn đề, hãy xem mô-đun Giới thiệu về việc định dạng vấn đề trong học máy.

Thu thập dữ liệu

Trước khi có thể bắt đầu làm việc với một công cụ AutoML, bạn cần thu thập dữ liệu vào một nguồn dữ liệu duy nhất. Hãy kiểm tra tài liệu sản phẩm để đảm bảo rằng công cụ của bạn hỗ trợ: nguồn dữ liệu, loại dữ liệu trong tập dữ liệu, kích thước của tập dữ liệu.

Chuẩn bị dữ liệu

Việc chuẩn bị dữ liệu là một lĩnh vực mà các công cụ AutoML có thể giúp bạn, nhưng không có công cụ nào có thể tự động làm mọi việc. Vì vậy, bạn cần phải làm một số việc trước khi có thể nhập dữ liệu vào công cụ. Việc chuẩn bị dữ liệu cho AutoML tương tự như những việc bạn cần làm để huấn luyện mô hình theo cách thủ công. Nếu bạn cần tìm hiểu thêm về cách chuẩn bị dữ liệu để huấn luyện, hãy xem phần Chuẩn bị dữ liệu.

Để biết thêm thông tin về cách chuẩn bị dữ liệu, hãy xem các mô-đun làm việc với dữ liệu dạng sốlàm việc với dữ liệu dạng danh mục.

Trước khi nhập dữ liệu để huấn luyện AutoML, bạn cần hoàn tất các bước sau:

  • Gắn nhãn cho dữ liệu

    Mỗi ví dụ trong tập dữ liệu của bạn cần có một nhãn.

  • Làm sạch và định dạng dữ liệu

    Dữ liệu thực tế thường lộn xộn, vì vậy, bạn cần làm sạch dữ liệu trước khi sử dụng. Ngay cả khi sử dụng AutoML, bạn vẫn cần xác định phương pháp xử lý tốt nhất cho tập dữ liệu và vấn đề cụ thể của mình. Bạn có thể cần phải khám phá và chạy nhiều lần AutoML trước khi có được kết quả tốt nhất.

  • Thực hiện biến đổi đặc điểm

    Một số công cụ AutoML xử lý một số phép biến đổi đặc trưng nhất định cho bạn. Tuy nhiên, nếu công cụ bạn đang sử dụng không hỗ trợ phép biến đổi tính năng mà bạn cần hoặc không hỗ trợ tốt phép biến đổi đó, thì bạn có thể phải thực hiện các phép biến đổi trước.

Phát triển mô hình (bằng AutoML không cần mã)

AutoML sẽ thực hiện công việc này cho bạn trong quá trình huấn luyện. Tuy nhiên, trước khi bắt đầu đào tạo, bạn cần định cấu hình thử nghiệm. Để thiết lập một lần chạy đào tạo AutoML, bạn thường cần chỉ định các bước cấp cao sau:

  1. Nhập dữ liệu của bạn

    Để nhập dữ liệu, hãy chỉ định nguồn dữ liệu. Trong quá trình nhập, công cụ AutoML sẽ chỉ định một loại dữ liệu ngữ nghĩa cho mỗi giá trị dữ liệu.

  2. Phân tích dữ liệu

    Các sản phẩm AutoML thường cung cấp các công cụ để phân tích tập dữ liệu của bạn trước và sau khi huấn luyện. Tốt nhất là bạn nên sử dụng các công cụ phân tích này để hiểu và xác minh dữ liệu của mình trước khi bắt đầu chạy AutoML.

  3. Rút gọn dữ liệu

    Các công cụ AutoML thường cung cấp các cơ chế giúp bạn tinh chỉnh dữ liệu sau khi nhập và trước khi huấn luyện. Dưới đây là một số nhiệm vụ bạn nên hoàn thành để tinh chỉnh dữ liệu:

    • Kiểm tra ngữ nghĩa: Trong quá trình nhập, các công cụ AutoML sẽ cố gắng xác định loại ngữ nghĩa chính xác cho từng đặc điểm, nhưng đây chỉ là những dự đoán. Bạn nên kiểm tra các loại được chỉ định cho tất cả các tính năng và thay đổi các loại đó nếu chúng được chỉ định không chính xác.

      Ví dụ: bạn có thể lưu trữ mã bưu chính dưới dạng số trong một cột trong cơ sở dữ liệu. Hầu hết các hệ thống AutoML sẽ phát hiện dữ liệu này là dữ liệu số liên tục. Điều này sẽ không chính xác đối với mã bưu chính và người dùng có thể muốn thay đổi loại ngữ nghĩa thành danh mục thay vì liên tục cho cột đặc điểm này.

    • Biến đổi: Một số công cụ cho phép người dùng tuỳ chỉnh các phép biến đổi dữ liệu trong quá trình tinh chỉnh. Đôi khi, điều này là cần thiết khi một tập dữ liệu có các tính năng có khả năng dự đoán cần được chuyển đổi hoặc kết hợp theo cách mà các công cụ AutoML khó xác định nếu không có sự trợ giúp.

      Ví dụ: hãy xem xét một tập dữ liệu về nhà ở mà bạn đang sử dụng để dự đoán giá bán của một ngôi nhà. Giả sử có một tính năng đại diện cho nội dung mô tả của trang thông tin về nhà có tên là description và bạn muốn sử dụng dữ liệu này để tạo một tính năng mới có tên là description_length. Một số hệ thống AutoML cung cấp cách sử dụng các phép biến đổi tuỳ chỉnh. Đối với ví dụ này, có thể có một hàm LENGTH để tạo một tính năng mới về độ dài nội dung mô tả như sau: LENGTH(description).

  4. Định cấu hình thông số chạy AutoML

    Bước cuối cùng trước khi chạy thử nghiệm huấn luyện là chọn một vài chế độ cài đặt cấu hình để cho công cụ biết cách bạn muốn công cụ huấn luyện mô hình. Mặc dù mỗi công cụ AutoML đều có một bộ tuỳ chọn cấu hình riêng, nhưng sau đây là một số nhiệm vụ cấu hình quan trọng mà bạn có thể cần hoàn thành:

    • Chọn loại vấn đề về học máy mà bạn dự định giải quyết. Ví dụ: bạn đang giải quyết vấn đề phân loại hay hồi quy?
    • Chọn cột trong tập dữ liệu là nhãn.
    • Chọn tập hợp các tính năng để sử dụng nhằm huấn luyện mô hình.
    • Chọn tập hợp các thuật toán học máy mà AutoML xem xét trong quá trình tìm kiếm mô hình.
    • Chọn chỉ số đánh giá mà AutoML sử dụng để chọn mô hình tốt nhất.

Sau khi định cấu hình thử nghiệm AutoML, bạn có thể bắt đầu chạy quy trình đào tạo. Quá trình huấn luyện có thể mất một chút thời gian để hoàn tất (khoảng vài giờ).

Đánh giá mô hình

Sau khi huấn luyện, bạn có thể kiểm tra kết quả bằng cách sử dụng các công cụ mà sản phẩm AutoML cung cấp để giúp bạn:

  • Đánh giá các tính năng của bạn bằng cách kiểm tra các chỉ số về mức độ quan trọng của tính năng.
  • Tìm hiểu mô hình của bạn bằng cách kiểm tra cấu trúc và các tham số siêu dữ liệu dùng để tạo mô hình.
  • Đánh giá hiệu suất của mô hình cấp cao nhất bằng các biểu đồ và chỉ số được thu thập trong quá trình đào tạo cho mô hình đầu ra.

Phát hành công khai

Mặc dù nằm ngoài phạm vi của mô-đun này, nhưng một số hệ thống AutoML có thể giúp bạn kiểm thử và triển khai mô hình.

Huấn luyện lại mô hình

Bạn có thể cần phải huấn luyện lại mô hình bằng dữ liệu mới. Điều này có thể xảy ra sau khi bạn đánh giá quá trình chạy huấn luyện AutoML hoặc sau khi mô hình của bạn hoạt động trong một khoảng thời gian. Dù thế nào đi nữa, các hệ thống AutoML cũng có thể giúp bạn huấn luyện lại. Bạn có thể xem lại dữ liệu sau khi chạy AutoML và huấn luyện lại bằng một tập dữ liệu được cải thiện.

Bước tiếp theo

Chúc mừng bạn đã hoàn thành học phần này!

Bạn nên khám phá các mô-đun MLCC theo tốc độ và mối quan tâm của riêng mình. Nếu muốn làm theo thứ tự đề xuất, bạn nên chuyển sang mô-đun sau: Tính công bằng trong học máy.