Hiểu rõ vấn đề

Để hiểu rõ sự cố, hãy thực hiện các tác vụ sau:

  • Nêu rõ mục tiêu của sản phẩm bạn đang phát triển hoặc tái cấu trúc.
  • Xác định xem mục tiêu được giải quyết hiệu quả nhất bằng cách dùng công nghệ học máy dự đoán, AI tạo sinh hay giải pháp không phải học máy.
  • Xác minh rằng bạn có dữ liệu cần thiết để huấn luyện một mô hình nếu đang sử dụng phương pháp học máy dự đoán.

Nêu rõ mục tiêu

Bắt đầu bằng cách nêu rõ mục tiêu của bạn bằng các thuật ngữ không phải mô hình học máy. Mục tiêu là câu trả lời cho câu hỏi "Tôi đang cố gắng đạt được điều gì?"

Bảng sau đây nêu rõ mục tiêu cho các ứng dụng giả định:

Ứng dụng Mục tiêu
Ứng dụng thời tiết Tính lượng mưa theo gia số mỗi 6 giờ cho một khu vực địa lý.
Ứng dụng thời trang Tạo nhiều kiểu thiết kế áo sơ mi.
Ứng dụng video Đề xuất các video hữu ích.
Ứng dụng thư Phát hiện thư rác.
Ứng dụng tài chính Tóm tắt thông tin tài chính từ nhiều nguồn tin tức.
Ứng dụng Bản đồ Tính toán thời gian di chuyển.
Ứng dụng ngân hàng Xác định các giao dịch gian lận.
Ứng dụng ăn uống Xác định ẩm thực theo thực đơn của một nhà hàng.
Ứng dụng thương mại điện tử Trả lời bài đánh giá bằng những câu trả lời hữu ích.

Xoá trường hợp sử dụng công nghệ học máy

Một số nhà quảng cáo coi ML là một công cụ chung có thể áp dụng cho mọi vấn đề. Trong thực tế, máy học là một công cụ chuyên biệt chỉ phù hợp với những vấn đề cụ thể. Bạn không muốn triển khai một giải pháp học máy phức tạp khi một giải pháp không phải máy học đơn giản hơn sẽ hoạt động.

Các hệ thống học máy có thể được chia thành 2 loại lớn: công nghệ học máy dự đoánAI tạo sinh. Bảng sau đây liệt kê các đặc điểm xác định của các đặc điểm đó:

Input Đầu ra Kỹ thuật đào tạo
Công nghệ học máy dự đoán Văn bản
Hình ảnh
Âm thanh
Video
Số
Ví dụ: đưa ra dự đoán, phân loại email là thư rác hay không phải thư rác, đoán lượng mưa ngày mai hoặc dự đoán giá cổ phiếu. Thông thường, kết quả đầu ra có thể được xác minh so với thực tế. Thường sử dụng nhiều dữ liệu để huấn luyện một mô hình học tập có giám sát, không được giám sát hoặc tăng cường nhằm thực hiện một nhiệm vụ cụ thể.
AI tạo sinh Văn bản
Hình ảnh
Âm thanh
Video
Số
Tạo đầu ra dựa trên ý định của người dùng, chẳng hạn như tóm tắt một bài viết hoặc tạo một đoạn âm thanh/video ngắn. Thường sử dụng nhiều dữ liệu không được gắn nhãn để huấn luyện một mô hình ngôn ngữ hoặc trình tạo hình ảnh lớn nhằm bổ sung dữ liệu còn thiếu. Sau đó, mô hình này có thể được dùng cho các nhiệm vụ có thể được đóng khung là các nhiệm vụ điền vào chỗ trống hoặc có thể được tinh chỉnh bằng cách huấn luyện mô hình đó trên dữ liệu được gắn nhãn cho một số nhiệm vụ cụ thể, chẳng hạn như phân loại.

Để xác nhận rằng công nghệ học máy là phương pháp phù hợp, trước tiên, hãy xác minh rằng giải pháp không phải máy học hiện tại của bạn đã được tối ưu hoá. Nếu bạn chưa triển khai giải pháp không phải học máy, hãy thử giải quyết vấn đề theo cách thủ công bằng heuristic.

Giải pháp không phải học máy là điểm chuẩn bạn sẽ dùng để xác định xem công nghệ học máy có phải là một trường hợp sử dụng phù hợp cho vấn đề của bạn hay không. Hãy cân nhắc những câu hỏi sau đây khi so sánh phương pháp không dùng công nghệ học máy với phương pháp sử dụng công nghệ học máy:

  • Chất lượng. Bạn nghĩ một giải pháp học máy có thể tốt hơn đến mức nào? Nếu bạn cho rằng giải pháp học máy có thể chỉ là một điểm cải tiến nhỏ, thì điều đó có thể cho thấy giải pháp hiện tại là giải pháp tốt nhất.

  • Chi phí và bảo trì. Giải pháp máy học đắt đỏ ở cả trong ngắn hạn và dài hạn như thế nào? Trong một số trường hợp, tốn kém hơn đáng kể về mặt tài nguyên tính toán và thời gian triển khai công nghệ học máy. Hãy cân nhắc những câu hỏi sau:

    • Giải pháp học máy có thể biện minh cho việc tăng chi phí không? Xin lưu ý rằng những cải tiến nhỏ trong các hệ thống lớn có thể dễ dàng điều chỉnh chi phí và khả năng bảo trì khi triển khai một giải pháp học máy.
    • Giải pháp này cần bao lâu để bảo trì? Trong nhiều trường hợp, việc triển khai công nghệ học máy cần được bảo trì dài hạn riêng.
    • Sản phẩm của bạn có tài nguyên để hỗ trợ việc đào tạo hoặc thuê người có chuyên môn về công nghệ học máy không?

Kiểm tra hiểu biết của bạn

Tại sao cần phải có một giải pháp hoặc phương pháp phỏng đoán không dùng công nghệ học máy trước khi phân tích một giải pháp học máy?
Giải pháp không dùng công nghệ học máy là điểm chuẩn để đo lường giải pháp học máy.
Các giải pháp không dùng công nghệ học máy giúp bạn xác định chi phí của một giải pháp học máy.

Dữ liệu và công nghệ học máy có tính dự đoán

Dữ liệu là động lực của công nghệ học máy dự đoán. Để đưa ra dự đoán phù hợp, bạn cần có dữ liệu chứa các tính năng có khả năng dự đoán. Dữ liệu của bạn phải có các đặc điểm sau:

  • Dào dào. Các ví dụ càng hữu ích và phù hợp trong tập dữ liệu thì mô hình của bạn sẽ càng tốt.

  • Nhất quán và đáng tin cậy. Khi dữ liệu được thu thập một cách nhất quán và đáng tin cậy, bạn sẽ tạo ra mô hình tốt hơn. Ví dụ: một mô hình thời tiết dựa trên công nghệ học máy sẽ hưởng lợi từ dữ liệu được thu thập trong nhiều năm từ cùng một thiết bị đáng tin cậy.

  • Đáng tin cậy. Hiểu rõ nguồn gốc của dữ liệu. Dữ liệu sẽ đến từ các nguồn đáng tin cậy mà bạn kiểm soát, như nhật ký từ sản phẩm của bạn, hay sẽ đến từ các nguồn mà bạn không có nhiều thông tin chi tiết, như kết quả từ một hệ thống học máy khác?

  • Có sẵn. Đảm bảo tất cả dữ liệu đầu vào đều có sẵn tại thời điểm dự đoán ở đúng định dạng. Nếu bạn gặp khó khăn trong việc lấy một số giá trị tính năng nhất định tại thời điểm dự đoán, hãy bỏ những tính năng đó khỏi tập dữ liệu của bạn.

  • Chính xác. Trong các tập dữ liệu lớn, không thể tránh khỏi việc một số nhãn có giá trị không chính xác. Tuy nhiên, nếu hơn một tỷ lệ nhỏ nhãn không chính xác, mô hình sẽ đưa ra các dự đoán kém.

  • Mang tính đại diện. Các tập dữ liệu phải mang tính đại diện cho thực tế nhất có thể. Nói cách khác, các tập dữ liệu phải phản ánh chính xác các sự kiện, hành vi của người dùng và/hoặc hiện tượng của thế giới thực đang được mô hình hoá. Việc huấn luyện các tập dữ liệu không đại diện có thể dẫn đến hiệu suất kém khi mô hình được yêu cầu đưa ra dự đoán thực tế.

Nếu bạn không thể nhận được dữ liệu mình cần theo định dạng bắt buộc, mô hình của bạn sẽ đưa ra các dự đoán kém.

Nguồn dự đoán

Để một mô hình đưa ra dự đoán tốt, các tính năng trong tập dữ liệu của bạn phải có khả năng dự đoán. Một tính năng càng có nhiều mối tương quan với một nhãn thì càng có nhiều khả năng dự đoán tính năng đó.

Một số tính năng sẽ có khả năng dự đoán cao hơn so với các tính năng khác. Ví dụ: trong một tập dữ liệu thời tiết, các tính năng như cloud_coverage, temperaturedew_point sẽ là yếu tố dự báo mưa tốt hơn moon_phase hoặc day_of_week. Đối với ví dụ về ứng dụng video, bạn có thể đưa ra giả thuyết rằng các tính năng như video_description, lengthviews có thể là các yếu tố dự đoán tốt về những video mà người dùng sẽ muốn xem.

Xin lưu ý rằng khả năng dự đoán của một tính năng có thể thay đổi vì ngữ cảnh hoặc miền thay đổi. Ví dụ: trong ứng dụng video, một tính năng như upload_date nhìn chung có thể có tương quan yếu với nhãn. Tuy nhiên, trong miền phụ của video trò chơi, upload_date có thể có mối tương quan mật thiết với nhãn.

Việc xác định tính năng nào có khả năng dự đoán có thể là một quá trình tốn thời gian. Bạn có thể tự khám phá khả năng dự đoán của một tính năng bằng cách xoá và thêm tính năng đó trong khi huấn luyện mô hình. Bạn có thể tự động tìm khả năng dự đoán của một tính năng bằng cách sử dụng các thuật toán như tương quan Pearson, Thông tin tương hỗ được điều chỉnh (AMI)Giá trị Shapley. Các thuật toán này cung cấp kết quả đánh giá bằng số để phân tích khả năng dự đoán của một tính năng.

Kiểm tra hiểu biết của bạn

Khi phân tích tập dữ liệu, bạn nên tìm ba thuộc tính chính nào?
Đại diện cho thế giới thực.
Chứa giá trị chính xác.
Các tính năng có khả năng dự đoán cho nhãn.
Đủ nhỏ để tải trên máy cục bộ.
Được thu thập từ nhiều nguồn khó đoán.

Để biết thêm hướng dẫn về cách phân tích và chuẩn bị tập dữ liệu, hãy xem bài viết Chuẩn bị dữ liệu và Kỹ thuật tính năng cho công nghệ máy học.

Dự đoán so với hành động

Việc dự đoán điều gì đó sẽ không có giá trị nếu bạn không thể biến cụm từ gợi ý đó thành một hành động giúp người dùng. Tức là sản phẩm của bạn sẽ hành động từ đầu ra của mô hình.

Ví dụ: một mô hình dự đoán xem người dùng có thấy video hữu ích hay không sẽ đưa vào ứng dụng đề xuất video hữu ích. Một mô hình dự đoán liệu trời có mưa hay không cho ứng dụng thời tiết.

Kiểm tra hiểu biết của bạn

Dựa vào tình huống sau, hãy xác định xem việc sử dụng công nghệ học máy có phải là phương pháp phù hợp nhất để giải quyết vấn đề này hay không.

Một nhóm kỹ thuật của một tổ chức lớn chịu trách nhiệm quản lý các cuộc gọi đến.

Mục tiêu: Để thông báo cho người gọi biết họ sẽ chờ trong bao lâu dựa trên âm lượng cuộc gọi hiện tại.

Họ không có giải pháp nào phù hợp, nhưng họ cho rằng một phương pháp phỏng đoán sẽ là chia số khách hàng đang chờ giữ máy cho số nhân viên trả lời điện thoại, sau đó nhân với 10 phút. Tuy nhiên, nhà quản lý biết rằng một số khách hàng đã được giải quyết vấn đề trong vòng 2 phút, trong khi một số khách hàng khác có thể mất đến 45 phút hoặc lâu hơn.

Phương pháp phỏng đoán có thể sẽ không giúp họ có được một con số đủ chính xác. Họ có thể tạo một tập dữ liệu có các cột sau: number_of_callcenter_phones, user_issue, time_to_resolve, call_time, time_on_hold.

Sử dụng công nghệ học máy. Nhóm kỹ thuật có mục tiêu được xác định rõ ràng. Phương pháp phỏng đoán của họ sẽ không đủ hiệu quả cho trường hợp sử dụng này. Có vẻ như tập dữ liệu có các tính năng dự đoán cho nhãn, time_on_hold.
Không sử dụng công nghệ học máy. Mặc dù có mục tiêu rõ ràng, nhưng trước tiên, nhà phát triển nên triển khai và tối ưu hoá một giải pháp không phải học máy. Ngoài ra, có vẻ như tập dữ liệu của họ không có đủ tính năng có khả năng dự đoán.