AutoML: Bắt đầu

Nếu có ý định sử dụng AutoML, bạn có thể có thắc mắc về cách phù hợp và bạn cần làm gì để bắt đầu. Phần này tìm hiểu sâu hơn các mẫu AutoML phổ biến, khám phá cách hoạt động của AutoML và kiểm tra xem những bước nào bạn cần thực hiện trước khi bắt đầu sử dụng AutoML cho dự án của mình.

Công cụ AutoML

Các công cụ AutoML được phân thành hai loại chính:

  • Các công cụ không cần lập trình thường ở dạng ứng dụng web cho phép bạn định cấu hình và chạy thử nghiệm thông qua giao diện người dùng để tìm mô hình tốt nhất cho dữ liệu của bạn mà không cần viết bất kỳ mã nào.
  • Các công cụ API và CLI cung cấp các tính năng tự động hoá nâng cao, nhưng đòi hỏi nhiều hơn kiến thức chuyên môn về lập trình và học máy (đôi khi vượt trội rất nhiều).

Những công cụ AutoML cần lập trình có thể mạnh mẽ và linh hoạt hơn không cần lập trình, nhưng chúng cũng có thể khó sử dụng hơn. Mô-đun này tập trung vào về các tuỳ chọn không cần mã để phát triển mô hình, nhưng hãy lưu ý rằng API và CLI có thể giúp ích nếu bạn cần tự động hoá tuỳ chỉnh.

Quy trình công việc của AutoML

Hãy cùng tìm hiểu một quy trình thông thường của công nghệ học máy và xem mọi thứ hoạt động như thế nào khi bạn sử dụng AutoML (Học máy tự động). Các bước cấp cao trong quy trình giống như các bước bạn sử dụng cho huấn luyện tuỳ chỉnh; điểm khác biệt chính là AutoML sẽ xử lý một số tác vụ cho bạn.

Định nghĩa vấn đề

Bước đầu tiên trong mọi quy trình công nghệ học máy là xác định vấn đề. Khi bạn sử dụng AutoML, hãy đảm bảo rằng công cụ bạn chọn có thể hỗ trợ cho dự án học máy của mình. Hầu hết công cụ AutoML đều hỗ trợ nhiều quy trình các thuật toán học máy và kiểu dữ liệu đầu vào.

Để biết thêm thông tin về việc lấy khung hình sự cố, hãy xem mô-đun trên Giới thiệu về việc lấy khung hình cho sự cố trong công nghệ học máy.

Thu thập dữ liệu

Trước khi bắt đầu sử dụng một công cụ AutoML, bạn cần thu thập dữ liệu của mình vào một nguồn dữ liệu duy nhất. Hãy xem tài liệu về sản phẩm để đảm bảo rằng mà công cụ của bạn hỗ trợ: nguồn dữ liệu, loại dữ liệu trong tập dữ liệu, kích thước của tập dữ liệu.

Chuẩn bị dữ liệu

Chuẩn bị dữ liệu là một lĩnh vực mà các công cụ AutoML có thể giúp bạn, nhưng không có thể tự động thực hiện mọi thứ, vì vậy, hãy thực hiện một số công việc trước khi bạn có thể nhập dữ liệu của bạn vào công cụ này. Quá trình chuẩn bị dữ liệu cho AutoML cũng tương tự như những việc cần làm để huấn luyện một mô hình theo cách thủ công. Nếu bạn cần tìm hiểu thêm về cách chuẩn bị dữ liệu cho hoạt động đào tạo, hãy xem bài viết về tính năng Chuẩn bị dữ liệu .

Để biết thêm thông tin về cách chuẩn bị dữ liệu của bạn, hãy xem làm việc với dữ liệu sốlàm việc với dữ liệu phân loại các mô-đun.

Trước khi nhập dữ liệu để huấn luyện AutoML, bạn cần hoàn tất các bước này các bước:

  • Gắn nhãn dữ liệu

    Mỗi ví dụ trong tập dữ liệu của bạn cần một nhãn.

  • Làm sạch và định dạng dữ liệu

    Dữ liệu thực tế thường lộn xộn, vì vậy, hãy làm sạch dữ liệu của bạn trước khi sử dụng nó. Ngay cả với AutoML, bạn cũng cần xác định phương pháp xử lý tốt nhất cho tập dữ liệu và vấn đề cụ thể. Bạn có thể cần tiến hành một số hoạt động khám phá và có thể chạy nhiều lần AutoML trước khi nhận được kết quả tốt nhất.

  • Thực hiện chuyển đổi tính năng

    Một số công cụ AutoML giúp bạn xử lý một số biến đổi về tính năng. Nhưng, nếu công cụ bạn đang sử dụng không hỗ trợ chuyển đổi tính năng mà bạn cần hoặc không hỗ trợ tốt, bạn có thể cần thực hiện chuyển đổi trước thời gian.

Phát triển mô hình (bằng AutoML không cần mã)

AutoML làm việc cho bạn trong quá trình huấn luyện. Tuy nhiên, trước khi bạn bắt đầu huấn luyện, bạn cần phải định cấu hình thử nghiệm của mình. Để thiết lập chương trình đào tạo AutoML Bạn thường cần chỉ định các bước cấp cao sau đây:

  1. Nhập dữ liệu của bạn

    Để nhập dữ liệu, hãy chỉ định nguồn dữ liệu của bạn. Trong khi nhập , công cụ AutoML sẽ chỉ định một kiểu dữ liệu ngữ nghĩa cho mỗi giá trị dữ liệu.

  2. Phân tích dữ liệu của bạn

    Các sản phẩm AutoML thường cung cấp các công cụ để phân tích tập dữ liệu của bạn trước khi sau khi được đào tạo. Tốt nhất là bạn nên sử dụng các công cụ phân tích này để hiểu và xác minh dữ liệu của bạn trước khi bắt đầu chạy AutoML.

  3. Tinh chỉnh dữ liệu của bạn

    Các công cụ AutoML thường cung cấp các cơ chế để giúp bạn tinh chỉnh dữ liệu của mình sau khi nhập và trước khi huấn luyện. Sau đây là một số việc bạn có thể muốn hoàn thành để tinh chỉnh dữ liệu:

    • Kiểm tra ngữ nghĩa: Trong quá trình nhập, các công cụ AutoML sẽ cố gắng xác định loại ngữ nghĩa chính xác cho từng đối tượng, nhưng đây chỉ là các phỏng đoán. Bạn nên kiểm tra các loại được chỉ định cho tất cả các đối tượng và thay đổi chúng nếu chúng được chỉ định không chính xác.

      Ví dụ: bạn có thể có mã bưu chính được lưu trữ dưới dạng số trong một cột trong cơ sở dữ liệu của bạn. Hầu hết các hệ thống AutoML sẽ phát hiện dữ liệu là dữ liệu liên tục dữ liệu số. Điều này sẽ không chính xác đối với mã bưu chính và người dùng có thể muốn thay đổi loại ngữ nghĩa thành phân loại hơn là hơn so với liên tục cho cột tính năng này.

    • Quy tắc chuyển đổi: Một số công cụ cho phép người dùng tuỳ chỉnh dữ liệu biến đổi trong quá trình tinh chỉnh. Đôi khi, cần thiết khi một tập dữ liệu có các tính năng dự đoán có thể cần được biến đổi hoặc kết hợp theo cách gây khó khăn cho các công cụ AutoML để xác định nếu không có sự trợ giúp.

      Ví dụ: hãy xem xét một tập dữ liệu về nhà ở mà bạn đang dùng để dự đoán giá bán một ngôi nhà. Giả sử có một đối tượng biểu thị nội dung mô tả cho danh sách nhà có tên là description và bạn sẽ muốn sử dụng dữ liệu này để tạo một tính năng mới có tên là description_length. Một số hệ thống AutoML cung cấp các cách để sử dụng phép biến đổi. Trong ví dụ này, có thể có một hàm LENGTH để tạo một tính năng mới có độ dài cho nội dung mô tả như sau: LENGTH(description).

  4. Định cấu hình các tham số chạy AutoML

    Bước cuối cùng trước khi chạy thử nghiệm huấn luyện là chọn một vài cài đặt cấu hình để cho công cụ biết cách bạn muốn công cụ huấn luyện mô hình của mình. Mặc dù mỗi công cụ AutoML đều có một tập hợp các tuỳ chọn cấu hình riêng, sau đây là một số tác vụ định cấu hình quan trọng mà bạn có thể cần hoàn thành:

    • Chọn loại bài toán học máy mà bạn định giải. Ví dụ: bạn có muốn để giải quyết vấn đề phân loại hoặc hồi quy?
    • Chọn cột nào trong tập dữ liệu là nhãn.
    • Chọn tập hợp tính năng sẽ sử dụng để huấn luyện mô hình.
    • Chọn tập hợp các thuật toán ML mà AutoML xem xét khi tìm kiếm mô hình.
    • Chọn chỉ số đánh giá mà AutoML sử dụng để chọn mô hình phù hợp nhất.

Sau khi định cấu hình thử nghiệm AutoML, bạn có thể bắt đầu khoá đào tạo chạy. Quá trình đào tạo có thể mất một chút thời gian để hoàn thành (theo thứ tự giờ).

Đánh giá mô hình

Sau khi đào tạo, bạn có thể kiểm tra kết quả bằng cách sử dụng các công cụ mà AutoML sản phẩm này cung cấp để giúp bạn:

  • Đánh giá các tính năng bằng cách kiểm tra các chỉ số tầm quan trọng của tính năng.
  • Hiểu mô hình của bạn bằng cách kiểm tra kiến trúc và siêu tham số được sử dụng để xây dựng ứng dụng.
  • Đánh giá hiệu suất của mô hình cấp cao nhất bằng biểu đồ và chỉ số được thu thập trong cho mô hình đầu ra.

Sản xuất

Mặc dù nằm ngoài phạm vi của mô-đun này, nhưng một số hệ thống AutoML có thể giúp bạn thử nghiệm và triển khai mô hình của bạn.

Đào tạo lại mô hình

Có thể bạn sẽ phải huấn luyện lại mô hình bằng dữ liệu mới. Điều này có thể xảy ra sau khi bạn bạn có thể đánh giá lần chạy huấn luyện AutoML hoặc sau khi mô hình được đưa vào sản xuất để bất cứ lúc nào. Dù bằng cách nào, các hệ thống AutoML cũng có thể giúp bạn đào tạo lại. Không phải không phổ biến khi xem lại dữ liệu sau khi chạy AutoML và đào tạo lại bằng một tập dữ liệu được cải thiện.

Các bước tiếp theo

Chúc mừng bạn đã hoàn thành học phần này!

Bạn nên khám phá nhiều mô-đun MLCC theo tốc độ và mối quan tâm của riêng bạn. Nếu bạn muốn làm theo đơn đặt hàng được đề xuất, bạn nên chuyển sang mô-đun sau đây tiếp theo: Tính công bằng học máy.