Hiểu rõ vấn đề

Để hiểu rõ sự cố, hãy thực hiện các tác vụ sau:

  • Nêu rõ mục tiêu cho sản phẩm mà bạn đang phát triển hoặc tái cấu trúc.
  • Xác định xem mục tiêu được giải quyết tốt nhất bằng cách sử dụng công nghệ học máy dự đoán, AI tạo sinh hay giải pháp không phải học máy.
  • Xác minh rằng bạn có dữ liệu cần thiết để huấn luyện mô hình nếu bạn đang sử dụng phương pháp máy học dự đoán.

Nêu mục tiêu

Bắt đầu bằng cách nêu mục tiêu của bạn bằng các thuật ngữ không liên quan đến công nghệ học máy. Mục tiêu là câu trả lời cho câu hỏi "Tôi đang cố gắng đạt được điều gì?"

Bảng sau đây nêu rõ các mục tiêu cho các ứng dụng giả định:

Ứng dụng Mục tiêu
Ứng dụng thời tiết Tính lượng mưa theo mức tăng 6 giờ cho một khu vực địa lý.
Ứng dụng thời trang Tạo ra nhiều kiểu dáng áo sơ mi.
Ứng dụng video Đề xuất video hữu ích.
Ứng dụng Thư Phát hiện nội dung làm phiền.
Ứng dụng tài chính Tóm tắt thông tin tài chính từ nhiều nguồn tin tức.
Ứng dụng Bản đồ Tính thời gian di chuyển.
Ứng dụng ngân hàng Xác định giao dịch gian lận.
Ứng dụng ăn uống Dùng thực đơn của nhà hàng để xác định món ăn.
Ứng dụng thương mại điện tử Trả lời bài đánh giá bằng các câu trả lời hữu ích.

Xoá trường hợp sử dụng cho học máy

Một số người coi ML là một công cụ toàn cầu, có thể áp dụng cho mọi bài toán. Trên thực tế, ML là một công cụ chuyên biệt chỉ phù hợp với một số vấn đề cụ thể. Bạn không nên triển khai một giải pháp ML phức tạp khi một giải pháp không phải ML đơn giản hơn sẽ hoạt động.

Hệ thống học máy có thể được chia thành hai danh mục lớn: học máy dự đoántrí tuệ nhân tạo tạo sinh. Nội dung sau đây bảng liệt kê các đặc điểm xác định của chúng:

Input Kết quả Kỹ thuật đào tạo
Công nghệ học máy dự đoán Nhắn tin tới
Hình ảnh
Âm thanh
Video
Số
Đưa ra một dự đoán, chẳng hạn như phân loại một email là thư rác hoặc không phải thư rác, đoán lượng mưa ngày mai, hoặc dự đoán giá của một cổ phiếu. Thông thường, dữ liệu đầu ra có thể được xác minh so với thực tế. Thường sử dụng nhiều dữ liệu để huấn luyện mô hình học có giám sát, không có giám sát hoặc học tăng cường nhằm thực hiện một nhiệm vụ cụ thể.
AI tạo sinh Nhắn tin tới
Hình ảnh
Âm thanh
Video
Số
Tạo đầu ra dựa trên ý định của người dùng, ví dụ: tóm tắt một bài viết hoặc tạo một đoạn âm thanh hoặc video ngắn. Thường sử dụng nhiều dữ liệu chưa gắn nhãn để huấn luyện một mô hình ngôn ngữ lớn hoặc trình tạo hình ảnh để điền dữ liệu còn thiếu. Sau đó, mô hình này có thể được sử dụng cho các công việc có thể được đóng khung là các công việc điền vào chỗ trống, hoặc có thể bằng cách huấn luyện nó về dữ liệu được gắn nhãn cho một tác vụ cụ thể nào đó, như của bạn.

Để chắc chắn rằng công nghệ học máy là phương pháp phù hợp, trước tiên, hãy xác minh rằng công nghệ học máy hiện tại của bạn đã được tối ưu hoá. Nếu bạn chưa triển khai giải pháp không phải là công nghệ học máy, hãy thử giải bài tập theo cách thủ công bằng thử nghiệm.

Giải pháp không phải học máy là điểm chuẩn mà bạn sẽ sử dụng để xác định xem học máy có phải là một trường hợp sử dụng phù hợp cho bài toán của bạn. Hãy cân nhắc các câu hỏi sau đây khi so sánh phương pháp phi học máy đối với công nghệ học máy:

  • Chất lượng. Theo bạn, giải pháp học máy có thể tốt hơn bao nhiêu? Nếu bạn cho rằng giải pháp ML có thể chỉ là một bước cải tiến nhỏ, thì giải pháp hiện tại là giải pháp tốt nhất.

  • Chi phí và bảo trì. Giải pháp công nghệ học máy tốn kém như thế nào ở cả ngắn hạn và dài hạn? Trong một số trường hợp, chi phí này cao hơn đáng kể liên quan đến tài nguyên điện toán và thời gian để triển khai công nghệ học máy. Hãy cân nhắc những điều sau câu hỏi:

    • Giải pháp học máy có thể biện minh cho việc tăng chi phí không? Xin lưu ý rằng những điểm cải tiến nhỏ trong các hệ thống lớn có thể dễ dàng biện minh cho chi phí và việc duy trì việc triển khai giải pháp học máy.
    • Giải pháp này cần bảo trì bao nhiêu? Trong nhiều trường hợp, công nghệ học máy quá trình triển khai cần được bảo trì dài hạn.
    • Sản phẩm của bạn có tài nguyên để hỗ trợ việc đào tạo hoặc tuyển dụng không những người có chuyên môn về công nghệ học máy?

Kiểm tra sự hiểu biết của bạn

Tại sao việc có một giải pháp không phải là giải pháp học máy hoặc giải pháp phỏng đoán là quan trọng trước khi phân tích giải pháp học máy?
Giải pháp không phải là giải pháp học máy là điểm chuẩn để đo lường giải pháp học máy.
Các giải pháp không phải công nghệ học máy giúp bạn xác định chi phí cho một giải pháp công nghệ học máy.

Dữ liệu và công nghệ máy học dự đoán

Dữ liệu là động lực của công nghệ học máy có tính dự đoán. Để đưa ra dự đoán chính xác, bạn cần dữ liệu chứa các đặc điểm có khả năng dự đoán. Dữ liệu của bạn phải có các đặc điểm sau:

  • Dồi dào. Mô hình của bạn sẽ càng hiệu quả hơn khi có nhiều ví dụ hữu ích và phù hợp hơn trong tập dữ liệu.

  • Nhất quán và đáng tin cậy. Có dữ liệu một cách nhất quán và đáng tin cậy sẽ cho ra một mô hình tốt hơn. Ví dụ: mô hình thời tiết dựa trên học máy sẽ được hưởng lợi từ dữ liệu thu thập được trong nhiều năm từ cùng một thiết bị đáng tin cậy.

  • Đáng tin cậy. Hiểu rõ nguồn gốc dữ liệu của bạn. Dữ liệu có đến từ các nguồn đáng tin cậy mà bạn kiểm soát, chẳng hạn như nhật ký từ sản phẩm của bạn, hay đến từ các nguồn mà bạn không nắm rõ thông tin chi tiết, chẳng hạn như kết quả từ một hệ thống học máy khác không?

  • Có sẵn. Đảm bảo tất cả dữ liệu đầu vào đều có sẵn tại thời điểm dự đoán ở định dạng chính xác. Nếu bạn gặp khó khăn trong việc nhận một số giá trị tính năng nhất định tại thời gian dự đoán, hãy loại bỏ các tính năng đó khỏi tập dữ liệu của bạn.

  • Chính xác. Trong tập dữ liệu lớn, không thể tránh khỏi việc một số nhãn sẽ có giá trị không chính xác, nhưng nếu có hơn một tỷ lệ nhỏ nhãn không chính xác, mô hình sẽ đưa ra các dự đoán kém.

  • Mang tính đại diện. Tập dữ liệu phải đại diện cho thế giới nhiều nhất có thể. Nói cách khác, tập dữ liệu phải phản ánh chính xác các sự kiện, hành vi của người dùng và/hoặc hiện tượng của thế giới thực đang được mô hình hoá. Việc huấn luyện về các tập dữ liệu không đại diện có thể làm giảm hiệu suất khi mô hình này được yêu cầu đưa ra dự đoán trong thực tế.

Nếu bạn không thể nhận được dữ liệu cần thiết ở định dạng bắt buộc, mô hình của bạn sẽ tạo các dự đoán kém hiệu quả.

Sức mạnh dự đoán

Để một mô hình đưa ra dự đoán chính xác, các đối tượng trong tập dữ liệu của bạn phải có khả năng dự đoán. Đối tượng càng có mối tương quan với nhãn, thì khả năng đó là dự đoán nội dung.

Một số tính năng sẽ có khả năng dự đoán tốt hơn các tính năng khác. Ví dụ: trong một tập dữ liệu thời tiết, các tính năng như cloud_coverage, temperaturedew_point sẽ dự đoán tốt hơn về mưa so với moon_phase hoặc day_of_week. Đối với ví dụ về ứng dụng video, bạn có thể giả định rằng các tính năng chẳng hạn như video_description, lengthviews có thể là công cụ dự đoán phù hợp cho những video mà người dùng sẽ muốn xem.

Lưu ý rằng khả năng dự đoán của một đối tượng có thể thay đổi do bối cảnh hoặc thay đổi miền. Ví dụ: trong ứng dụng video, một tính năng như upload_date nói chung có thể có mối tương quan yếu với nhãn. Tuy nhiên, trong miền con của video trò chơi, upload_date có thể tương quan chặt chẽ với nhãn.

Việc xác định tính năng nào có khả năng dự đoán sẽ tốn thời gian của chúng tôi. Bạn có thể khám phá sức mạnh dự đoán của một đặc điểm theo cách thủ công bằng cách xoá và thêm đặc điểm đó trong khi huấn luyện mô hình. Bạn có thể tự động tìm khả năng dự đoán bằng cách sử dụng các thuật toán như Mối tương quan Pearson, Thông tin chung đã điều chỉnh (AMI), và Giá trị của Shapley, đưa ra đánh giá bằng số để phân tích sức mạnh dự đoán của feature.

Kiểm tra sự hiểu biết của bạn

Khi phân tích tập dữ liệu, bạn nên tìm kiếm ba thuộc tính chính nào?
Đại diện của thế giới thực.
Chứa các giá trị chính xác.
Các tính năng có khả năng dự đoán cho nhãn.
Đủ nhỏ để tải trên máy cục bộ.
Thu thập từ nhiều nguồn khó đoán.

Để biết thêm hướng dẫn về cách phân tích và chuẩn bị tập dữ liệu, hãy xem Chuẩn bị dữ liệu và Kỹ thuật tính năng cho công nghệ học máy.

Dự đoán so với hành động

Việc dự đoán sẽ không có giá trị nếu bạn không thể biến dự đoán đó thành một hành động giúp ích cho người dùng. Tức là sản phẩm của bạn sẽ thực hiện hành động từ đầu ra của mô hình.

Ví dụ: một mô hình dự đoán liệu người dùng có thấy một video hữu ích hay không sẽ được đưa vào một ứng dụng đề xuất các video hữu ích. Một mô hình dự đoán liệu trời có mưa nên cấp dữ liệu cho ứng dụng thời tiết hay không.

Kiểm tra mức độ hiểu biết

Dựa trên trường hợp sau, hãy xác định xem việc sử dụng công nghệ học máy có phải là phương pháp tốt nhất để giải quyết vấn đề hay không.

Một nhóm kỹ sư tại một tổ chức lớn chịu trách nhiệm quản lý các cuộc gọi điện thoại đến.

Mục tiêu: Để thông báo cho người gọi biết họ sẽ phải chờ trong bao lâu âm lượng cuộc gọi hiện tại.

Họ không đưa ra giải pháp nào nhưng họ cho rằng phương pháp suy nghiệm sẽ là chia tỷ lệ hiện tại số lượng khách hàng chờ theo số lượng nhân viên trả lời điện thoại, rồi nhân với 10 phút. Tuy nhiên, họ biết rằng một số khách hàng đã được giải quyết vấn đề trong vòng hai phút, trong khi một số khác có thể mất tới 45 phút hoặc lâu hơn.

Khả năng suy nghiệm của họ có thể sẽ không giúp họ có đủ con số chính xác. Họ có thể tạo một tập dữ liệu có các cột sau: number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold.

Sử dụng công nghệ học máy. Nhóm kỹ thuật có mục tiêu được xác định rõ ràng. Phương pháp phỏng đoán của họ sẽ không đủ tốt cho trường hợp sử dụng của họ. Tập dữ liệu có vẻ như có các tính năng dự đoán cho nhãn time_on_hold.
Không sử dụng công nghệ học máy. Mặc dù đã xác định rõ mục tiêu, nhưng trước tiên, họ nên triển khai và tối ưu hoá một giải pháp không phải là giải pháp học máy. Ngoài ra, tập dữ liệu của họ dường như không chứa đủ các tính năng có khả năng dự đoán.