Để hiểu rõ sự cố, hãy thực hiện các tác vụ sau:
- Nêu rõ mục tiêu cho sản phẩm mà bạn đang phát triển hoặc tái cấu trúc.
- Xác định xem mục tiêu được giải quyết tốt nhất bằng cách sử dụng công nghệ học máy dự đoán, AI tạo sinh hay giải pháp không phải học máy.
- Xác minh rằng bạn có dữ liệu cần thiết để huấn luyện mô hình nếu bạn đang sử dụng phương pháp máy học dự đoán.
Nêu mục tiêu
Bắt đầu bằng cách nêu mục tiêu của bạn bằng các thuật ngữ không liên quan đến công nghệ học máy. Mục tiêu là câu trả lời cho câu hỏi "Tôi đang cố gắng đạt được điều gì?"
Bảng sau đây nêu rõ các mục tiêu cho các ứng dụng giả định:
Ứng dụng | Mục tiêu |
---|---|
Ứng dụng thời tiết | Tính lượng mưa theo mức tăng 6 giờ cho một khu vực địa lý. |
Ứng dụng thời trang | Tạo ra nhiều kiểu dáng áo sơ mi. |
Ứng dụng video | Đề xuất video hữu ích. |
Ứng dụng Thư | Phát hiện nội dung làm phiền. |
Ứng dụng tài chính | Tóm tắt thông tin tài chính từ nhiều nguồn tin tức. |
Ứng dụng Bản đồ | Tính thời gian di chuyển. |
Ứng dụng ngân hàng | Xác định giao dịch gian lận. |
Ứng dụng ăn uống | Dùng thực đơn của nhà hàng để xác định món ăn. |
Ứng dụng thương mại điện tử | Trả lời bài đánh giá bằng các câu trả lời hữu ích. |
Xoá trường hợp sử dụng cho học máy
Một số người coi ML là một công cụ toàn cầu, có thể áp dụng cho mọi bài toán. Trên thực tế, ML là một công cụ chuyên biệt chỉ phù hợp với một số vấn đề cụ thể. Bạn không nên triển khai một giải pháp ML phức tạp khi một giải pháp không phải ML đơn giản hơn sẽ hoạt động.
Hệ thống học máy có thể được chia thành hai danh mục lớn: học máy dự đoán và trí tuệ nhân tạo tạo sinh. Nội dung sau đây bảng liệt kê các đặc điểm xác định của chúng:
Input | Kết quả | Kỹ thuật đào tạo | |
---|---|---|---|
Công nghệ học máy dự đoán |
Nhắn tin tới Hình ảnh Âm thanh Video Số |
Đưa ra một dự đoán, chẳng hạn như phân loại một email là thư rác hoặc không phải thư rác, đoán lượng mưa ngày mai, hoặc dự đoán giá của một cổ phiếu. Thông thường, dữ liệu đầu ra có thể được xác minh so với thực tế. | Thường sử dụng nhiều dữ liệu để huấn luyện mô hình học có giám sát, không có giám sát hoặc học tăng cường nhằm thực hiện một nhiệm vụ cụ thể. |
AI tạo sinh |
Nhắn tin tới Hình ảnh Âm thanh Video Số |
Tạo đầu ra dựa trên ý định của người dùng, ví dụ: tóm tắt một bài viết hoặc tạo một đoạn âm thanh hoặc video ngắn. | Thường sử dụng nhiều dữ liệu chưa gắn nhãn để huấn luyện một mô hình ngôn ngữ lớn hoặc trình tạo hình ảnh để điền dữ liệu còn thiếu. Sau đó, mô hình này có thể được sử dụng cho các công việc có thể được đóng khung là các công việc điền vào chỗ trống, hoặc có thể bằng cách huấn luyện nó về dữ liệu được gắn nhãn cho một tác vụ cụ thể nào đó, như của bạn. |
Để chắc chắn rằng công nghệ học máy là phương pháp phù hợp, trước tiên, hãy xác minh rằng công nghệ học máy hiện tại của bạn đã được tối ưu hoá. Nếu bạn chưa triển khai giải pháp không phải là công nghệ học máy, hãy thử giải bài tập theo cách thủ công bằng thử nghiệm.
Giải pháp không phải học máy là điểm chuẩn mà bạn sẽ sử dụng để xác định xem học máy có phải là một trường hợp sử dụng phù hợp cho bài toán của bạn. Hãy cân nhắc các câu hỏi sau đây khi so sánh phương pháp phi học máy đối với công nghệ học máy:
Chất lượng. Theo bạn, giải pháp học máy có thể tốt hơn bao nhiêu? Nếu bạn cho rằng giải pháp ML có thể chỉ là một bước cải tiến nhỏ, thì giải pháp hiện tại là giải pháp tốt nhất.
Chi phí và bảo trì. Giải pháp công nghệ học máy tốn kém như thế nào ở cả ngắn hạn và dài hạn? Trong một số trường hợp, chi phí này cao hơn đáng kể liên quan đến tài nguyên điện toán và thời gian để triển khai công nghệ học máy. Hãy cân nhắc những điều sau câu hỏi:
- Giải pháp học máy có thể biện minh cho việc tăng chi phí không? Xin lưu ý rằng những điểm cải tiến nhỏ trong các hệ thống lớn có thể dễ dàng biện minh cho chi phí và việc duy trì việc triển khai giải pháp học máy.
- Giải pháp này cần bảo trì bao nhiêu? Trong nhiều trường hợp, công nghệ học máy quá trình triển khai cần được bảo trì dài hạn.
- Sản phẩm của bạn có tài nguyên để hỗ trợ việc đào tạo hoặc tuyển dụng không những người có chuyên môn về công nghệ học máy?
Kiểm tra sự hiểu biết của bạn
Dữ liệu và công nghệ máy học dự đoán
Dữ liệu là động lực của công nghệ học máy có tính dự đoán. Để đưa ra dự đoán chính xác, bạn cần dữ liệu chứa các đặc điểm có khả năng dự đoán. Dữ liệu của bạn phải có các đặc điểm sau:
Dồi dào. Mô hình của bạn sẽ càng hiệu quả hơn khi có nhiều ví dụ hữu ích và phù hợp hơn trong tập dữ liệu.
Nhất quán và đáng tin cậy. Có dữ liệu một cách nhất quán và đáng tin cậy sẽ cho ra một mô hình tốt hơn. Ví dụ: mô hình thời tiết dựa trên học máy sẽ được hưởng lợi từ dữ liệu thu thập được trong nhiều năm từ cùng một thiết bị đáng tin cậy.
Đáng tin cậy. Hiểu rõ nguồn gốc dữ liệu của bạn. Dữ liệu có đến từ các nguồn đáng tin cậy mà bạn kiểm soát, chẳng hạn như nhật ký từ sản phẩm của bạn, hay đến từ các nguồn mà bạn không nắm rõ thông tin chi tiết, chẳng hạn như kết quả từ một hệ thống học máy khác không?
Có sẵn. Đảm bảo tất cả dữ liệu đầu vào đều có sẵn tại thời điểm dự đoán ở định dạng chính xác. Nếu bạn gặp khó khăn trong việc nhận một số giá trị tính năng nhất định tại thời gian dự đoán, hãy loại bỏ các tính năng đó khỏi tập dữ liệu của bạn.
Chính xác. Trong tập dữ liệu lớn, không thể tránh khỏi việc một số nhãn sẽ có giá trị không chính xác, nhưng nếu có hơn một tỷ lệ nhỏ nhãn không chính xác, mô hình sẽ đưa ra các dự đoán kém.
Mang tính đại diện. Tập dữ liệu phải đại diện cho thế giới nhiều nhất có thể. Nói cách khác, tập dữ liệu phải phản ánh chính xác các sự kiện, hành vi của người dùng và/hoặc hiện tượng của thế giới thực đang được mô hình hoá. Việc huấn luyện về các tập dữ liệu không đại diện có thể làm giảm hiệu suất khi mô hình này được yêu cầu đưa ra dự đoán trong thực tế.
Nếu bạn không thể nhận được dữ liệu cần thiết ở định dạng bắt buộc, mô hình của bạn sẽ tạo các dự đoán kém hiệu quả.
Sức mạnh dự đoán
Để một mô hình đưa ra dự đoán chính xác, các đối tượng trong tập dữ liệu của bạn phải có khả năng dự đoán. Đối tượng càng có mối tương quan với nhãn, thì khả năng đó là dự đoán nội dung.
Một số tính năng sẽ có khả năng dự đoán tốt hơn các tính năng khác. Ví dụ: trong một tập dữ liệu thời tiết, các tính năng như cloud_coverage
, temperature
và dew_point
sẽ dự đoán tốt hơn về mưa so với moon_phase
hoặc day_of_week
. Đối với ví dụ về ứng dụng video, bạn có thể giả định rằng các tính năng
chẳng hạn như video_description
, length
và views
có thể là công cụ dự đoán phù hợp cho
những video mà người dùng sẽ muốn xem.
Lưu ý rằng khả năng dự đoán của một đối tượng có thể thay đổi do bối cảnh hoặc
thay đổi miền. Ví dụ: trong ứng dụng video, một tính năng như upload_date
nói chung có thể có mối tương quan yếu với nhãn. Tuy nhiên, trong
miền con của video trò chơi, upload_date
có thể tương quan chặt chẽ với
nhãn.
Việc xác định tính năng nào có khả năng dự đoán sẽ tốn thời gian của chúng tôi. Bạn có thể khám phá sức mạnh dự đoán của một đặc điểm theo cách thủ công bằng cách xoá và thêm đặc điểm đó trong khi huấn luyện mô hình. Bạn có thể tự động tìm khả năng dự đoán bằng cách sử dụng các thuật toán như Mối tương quan Pearson, Thông tin chung đã điều chỉnh (AMI), và Giá trị của Shapley, đưa ra đánh giá bằng số để phân tích sức mạnh dự đoán của feature.
Kiểm tra sự hiểu biết của bạn
Để biết thêm hướng dẫn về cách phân tích và chuẩn bị tập dữ liệu, hãy xem Chuẩn bị dữ liệu và Kỹ thuật tính năng cho công nghệ học máy.
Dự đoán so với hành động
Việc dự đoán sẽ không có giá trị nếu bạn không thể biến dự đoán đó thành một hành động giúp ích cho người dùng. Tức là sản phẩm của bạn sẽ thực hiện hành động từ đầu ra của mô hình.
Ví dụ: một mô hình dự đoán liệu người dùng có thấy một video hữu ích hay không sẽ được đưa vào một ứng dụng đề xuất các video hữu ích. Một mô hình dự đoán liệu trời có mưa nên cấp dữ liệu cho ứng dụng thời tiết hay không.
Kiểm tra mức độ hiểu biết
Dựa trên trường hợp sau, hãy xác định xem việc sử dụng công nghệ học máy có phải là phương pháp tốt nhất để giải quyết vấn đề hay không.
Một nhóm kỹ sư tại một tổ chức lớn chịu trách nhiệm quản lý các cuộc gọi điện thoại đến.
Mục tiêu: Để thông báo cho người gọi biết họ sẽ phải chờ trong bao lâu âm lượng cuộc gọi hiện tại.
Họ không đưa ra giải pháp nào nhưng họ cho rằng phương pháp suy nghiệm sẽ là chia tỷ lệ hiện tại số lượng khách hàng chờ theo số lượng nhân viên trả lời điện thoại, rồi nhân với 10 phút. Tuy nhiên, họ biết rằng một số khách hàng đã được giải quyết vấn đề trong vòng hai phút, trong khi một số khác có thể mất tới 45 phút hoặc lâu hơn.
Khả năng suy nghiệm của họ có thể sẽ không giúp họ có đủ con số chính xác. Họ có thể tạo một tập dữ liệu có các cột sau: number_of_callcenter_phones
, user_issue
, time_to_resolve
, call_time
, time_on_hold
.
time_on_hold
.