Hiểu rõ vấn đề

Để hiểu rõ sự cố, hãy thực hiện các tác vụ sau:

  • Nêu rõ mục tiêu cho sản phẩm mà bạn đang phát triển hoặc tái cấu trúc.
  • Xác định xem liệu mục tiêu có được giải quyết hiệu quả nhất hay không bằng công nghệ học máy dự đoán, AI tạo sinh hoặc một giải pháp không phải công nghệ học máy.
  • Xác minh rằng bạn có dữ liệu cần thiết để huấn luyện một mô hình nếu bạn đang sử dụng phương pháp học máy dự đoán.

Nêu rõ mục tiêu

Bắt đầu bằng cách nêu mục tiêu của bạn bằng các thuật ngữ không liên quan đến công nghệ học máy. Mục tiêu là câu trả lời cho câu hỏi: "Tôi đang cố gắng đạt được điều gì?"

Bảng sau đây nêu rõ mục tiêu cho các ứng dụng giả định:

Ứng dụng Mục tiêu
Ứng dụng thời tiết Tính lượng mưa theo gia số 6 giờ cho một khu vực địa lý.
Ứng dụng thời trang Tạo ra nhiều kiểu dáng áo sơ mi.
Ứng dụng video Đề xuất video hữu ích.
Ứng dụng thư Phát hiện nội dung làm phiền.
Ứng dụng tài chính Tóm tắt thông tin tài chính từ nhiều nguồn tin tức.
Ứng dụng Bản đồ Tính thời gian di chuyển.
Ứng dụng ngân hàng Xác định giao dịch gian lận.
Ứng dụng ăn uống Xác định món ăn thông qua thực đơn của nhà hàng.
Ứng dụng thương mại điện tử Trả lời bài đánh giá bằng các câu trả lời hữu ích.

Xoá trường hợp sử dụng cho học máy

Một số người coi ML là một công cụ toàn diện, có thể áp dụng cho mọi bài toán. Trong thực tế, ML là một công cụ chuyên biệt chỉ phù hợp với các vấn đề cụ thể. Bạn không muốn triển khai một giải pháp học máy phức tạp khi một giải pháp không phải học máy đơn giản hơn sẽ mang lại hiệu quả.

Các hệ thống ML có thể được chia thành 2 loại chính: công nghệ học máy dự đoánAI tạo sinh. Nội dung sau đây bảng liệt kê các đặc điểm xác định của chúng:

Input Kết quả Kỹ thuật đào tạo
Công nghệ học máy dự đoán Nhắn tin tới
Hình ảnh
Âm thanh
Video
Số
Đưa ra một dự đoán, chẳng hạn như phân loại một email là thư rác hoặc không phải thư rác, đoán lượng mưa ngày mai, hoặc dự đoán giá của một cổ phiếu. Thông thường, dữ liệu đầu ra có thể được xác minh so với thực tế. Thường sử dụng nhiều dữ liệu để huấn luyện một mô hình học tập không giám sát hoặc học củng cố để thực hiện một công việc cụ thể.
AI tạo sinh Nhắn tin tới
Hình ảnh
Âm thanh
Video
Số
Tạo kết quả dựa trên ý định của người dùng, chẳng hạn như tóm tắt một bài viết, tạo đoạn âm thanh/video ngắn. Thường sử dụng nhiều dữ liệu chưa gắn nhãn để huấn luyện một mô hình ngôn ngữ lớn hoặc trình tạo hình ảnh để điền dữ liệu còn thiếu. Sau đó, mô hình này có thể được sử dụng cho các công việc có thể được đóng khung là các công việc điền vào chỗ trống, hoặc có thể bằng cách huấn luyện nó về dữ liệu được gắn nhãn cho một tác vụ cụ thể nào đó, như của bạn.

Để chắc chắn rằng công nghệ học máy là phương pháp phù hợp, trước tiên, hãy xác minh rằng công nghệ học máy hiện tại của bạn đã được tối ưu hoá. Nếu bạn chưa triển khai giải pháp không phải là công nghệ học máy, hãy thử giải bài tập theo cách thủ công bằng trải nghiệm suy nghiệm.

Giải pháp không phải học máy là điểm chuẩn mà bạn sẽ sử dụng để xác định xem học máy có phải là một trường hợp sử dụng phù hợp cho bài toán của bạn. Hãy cân nhắc các câu hỏi sau đây khi so sánh phương pháp phi học máy đối với công nghệ học máy:

  • Chất lượng. Bạn nghĩ giải pháp học máy có thể tốt hơn bao nhiêu? Nếu bạn cho rằng giải pháp học máy có thể chỉ là một bước cải tiến nhỏ, thì giải pháp hiện tại là giải pháp tốt nhất.

  • Chi phí và bảo trì. Giải pháp công nghệ học máy tốn kém như thế nào ở cả ngắn hạn và dài hạn? Trong một số trường hợp, chi phí này cao hơn đáng kể liên quan đến tài nguyên điện toán và thời gian để triển khai công nghệ học máy. Hãy cân nhắc những điều sau câu hỏi:

    • Giải pháp công nghệ học máy có thể giải thích cho việc tăng chi phí không? Xin lưu ý rằng quy mô nhỏ những cải tiến trong các hệ thống lớn có thể dễ dàng minh bạch chi phí và triển khai giải pháp học máy.
    • Giải pháp này sẽ cần bảo trì trong bao lâu? Trong nhiều trường hợp, công nghệ học máy quá trình triển khai cần được bảo trì dài hạn.
    • Sản phẩm của bạn có tài nguyên để hỗ trợ việc đào tạo hoặc tuyển dụng không những người có chuyên môn về công nghệ học máy?

Kiểm tra sự hiểu biết của bạn

Tại sao việc có sẵn giải pháp không phải công nghệ học máy hoặc phương pháp phỏng đoán trước đây lại quan trọng phân tích giải pháp học máy?
Giải pháp không phải học máy là điểm chuẩn để đo lường một giải pháp học máy.
Các giải pháp không phải công nghệ học máy giúp bạn xác định chi phí cho một giải pháp công nghệ học máy.

Dữ liệu và công nghệ học máy mang tính dự đoán

Dữ liệu là động lực của công nghệ học máy có tính dự đoán. Để thực hiện việc cần làm dự đoán, bạn cần có dữ liệu chứa các tính năng có chức năng dự đoán nguồn. Dữ liệu của bạn phải có các đặc điểm sau:

  • Có nhiều. Càng có nhiều ví dụ phù hợp và hữu ích hơn trong dataset thì càng tốt mô hình của bạn sẽ là gì.

  • Nhất quán và đáng tin cậy. Có dữ liệu một cách nhất quán và đáng tin cậy sẽ cho ra một mô hình tốt hơn. Ví dụ: thời tiết dựa trên công nghệ học máy sẽ được hưởng lợi từ dữ liệu được thu thập qua nhiều năm từ cùng một nhạc cụ.

  • Đáng tin cậy. Hiểu rõ nguồn gốc dữ liệu của bạn. Dữ liệu này từ các nguồn đáng tin cậy mà bạn kiểm soát, chẳng hạn như nhật ký từ sản phẩm của bạn hay từ những nguồn mà bạn không có nhiều thông tin chi tiết, chẳng hạn như kết quả của một hệ thống học máy?

  • Có sẵn. Hãy đảm bảo tất cả dữ liệu đầu vào đều có sẵn tại thời điểm dự đoán trong đúng định dạng. Nếu bạn gặp khó khăn trong việc nhận một số giá trị tính năng nhất định tại thời gian dự đoán, hãy loại bỏ các tính năng đó khỏi tập dữ liệu của bạn.

  • Chính xác. Trong các tập dữ liệu lớn, không thể tránh khỏi việc một số nhãn sẽ có giá trị không chính xác, nhưng nếu có hơn một tỷ lệ nhỏ nhãn không chính xác, mô hình sẽ đưa ra các dự đoán kém.

  • Mang tính đại diện. Tập dữ liệu phải đại diện cho thế giới nhiều nhất có thể. Nói cách khác, tập dữ liệu phải phản ánh chính xác các sự kiện, hành vi của người dùng và/hoặc những hiện tượng của thế giới thực đang được mô hình hoá. Việc huấn luyện về các tập dữ liệu không đại diện có thể làm giảm hiệu suất khi mô hình này được yêu cầu đưa ra dự đoán trong thực tế.

Nếu bạn không thể nhận được dữ liệu cần thiết ở định dạng bắt buộc, mô hình của bạn sẽ tạo các dự đoán kém hiệu quả.

Nguồn dự đoán

Để một mô hình đưa ra dự đoán chính xác, các đối tượng trong tập dữ liệu của bạn phải có khả năng dự đoán. Đối tượng càng có mối tương quan với nhãn, thì khả năng đó là dự đoán nội dung.

Một số tính năng sẽ có khả năng dự đoán tốt hơn các tính năng khác. Ví dụ: trong một tập dữ liệu thời tiết, các tính năng như cloud_coverage, temperaturedew_point sẽ dự báo mưa tốt hơn moon_phase hoặc day_of_week. Đối với ví dụ về ứng dụng video, bạn có thể giả định rằng các tính năng chẳng hạn như video_description, lengthviews có thể là công cụ dự đoán phù hợp cho những video mà người dùng sẽ muốn xem.

Lưu ý rằng khả năng dự đoán của một đối tượng có thể thay đổi do bối cảnh hoặc thay đổi miền. Ví dụ: trong ứng dụng video, một tính năng như upload_date nói chung có mối tương quan yếu với nhãn. Tuy nhiên, trong miền con của video trò chơi, upload_date có thể tương quan chặt chẽ với nhãn.

Việc xác định tính năng nào có khả năng dự đoán sẽ tốn thời gian của chúng tôi. Bạn có thể tự khám phá khả năng dự đoán của một tính năng bằng cách xoá và thêm tệp đó trong khi huấn luyện mô hình. Bạn có thể tự động tìm khả năng dự đoán bằng cách sử dụng các thuật toán như Mối tương quan Pearson, Thông tin chung đã điều chỉnh (AMI), và Giá trị của Shapley, đưa ra đánh giá bằng số để phân tích sức mạnh dự đoán của feature.

Kiểm tra sự hiểu biết của bạn

Khi phân tích tập dữ liệu, bạn nên dùng 3 thuộc tính chính nào tìm kiếm?
Đại diện của thế giới thực.
Chứa các giá trị chính xác.
Các tính năng có khả năng dự đoán cho nhãn.
Đủ nhỏ để tải trên máy cục bộ.
Thu thập từ nhiều nguồn khó đoán.

Để biết thêm hướng dẫn về cách phân tích và chuẩn bị tập dữ liệu, hãy xem Chuẩn bị dữ liệu và Kỹ thuật tính năng cho công nghệ học máy.

Dự đoán và hành động

Việc dự đoán điều gì đó sẽ không có giá trị nếu bạn không thể chuyển thông tin dự đoán thành một hành động giúp người dùng. Tức là sản phẩm của bạn sẽ thực hiện hành động từ đầu ra của mô hình.

Ví dụ: mô hình dự đoán liệu người dùng có thấy video hữu ích hay không nên cung cấp dữ liệu vào một ứng dụng đề xuất video hữu ích. Một mô hình dự đoán liệu trời có mưa nên cấp dữ liệu cho ứng dụng thời tiết hay không.

Kiểm tra sự hiểu biết của bạn

Dựa vào tình huống sau đây, hãy xác định xem sử dụng công nghệ học máy có phải là phương án hiệu quả nhất hay không tiếp cận vấn đề.

Một nhóm kỹ thuật tại một tổ chức lớn chịu trách nhiệm quản lý các cuộc gọi đến.

Mục tiêu: Để thông báo cho người gọi biết họ sẽ phải chờ trong bao lâu âm lượng cuộc gọi hiện tại.

Họ không đưa ra giải pháp nào nhưng họ cho rằng phương pháp suy nghiệm sẽ là chia tỷ lệ hiện tại số lượng khách hàng chờ theo số lượng nhân viên trả lời điện thoại, rồi nhân với 10 phút. Tuy nhiên, họ biết rằng một số khách hàng đã được giải quyết vấn đề trong vòng hai phút, trong khi một số khác có thể mất đến 45 phút hoặc lâu hơn.

Khả năng suy nghiệm của họ có thể sẽ không giúp họ có đủ con số chính xác. Chúng có thể tạo tập dữ liệu với các cột sau: number_of_callcenter_phones, user_issue time_to_resolve, call_time time_on_hold.

Sử dụng công nghệ học máy. Nhóm kỹ thuật có mục tiêu được xác định rõ ràng. phỏng đoán sẽ không đủ tốt cho trường hợp sử dụng của chúng. Tập dữ liệu xuất hiện để có tính năng dự đoán cho nhãn, time_on_hold.
Không sử dụng công nghệ học máy. Mặc dù có mục tiêu được xác định rõ ràng, nên triển khai và tối ưu hoá một giải pháp không phải là công nghệ học máy trước. Ngoài ra, có vẻ như không chứa đủ tính năng có khả năng dự đoán.