Để hiểu rõ vấn đề, hãy thực hiện các thao tác sau:
- Nêu mục tiêu cho sản phẩm mà bạn đang phát triển hoặc tái cấu trúc.
- Xác định xem mục tiêu được giải quyết tốt nhất bằng cách sử dụng công nghệ học máy dự đoán, AI tạo sinh hay giải pháp không phải học máy.
- Xác minh rằng bạn có dữ liệu cần thiết để huấn luyện mô hình nếu đang sử dụng phương pháp máy học dự đoán.
Nêu mục tiêu
Bắt đầu bằng cách nêu mục tiêu của bạn bằng các thuật ngữ không phải về học máy. Mục tiêu là câu trả lời cho câu hỏi "Tôi đang cố gắng đạt được điều gì?"
Bảng sau đây nêu rõ các mục tiêu cho các ứng dụng giả định:
Ứng dụng | Mục tiêu |
---|---|
Ứng dụng thời tiết | Tính lượng mưa theo mức tăng 6 giờ cho một khu vực địa lý. |
Ứng dụng thời trang | Tạo nhiều thiết kế áo. |
Ứng dụng video | Đề xuất video hữu ích. |
Ứng dụng Thư | Phát hiện nội dung rác. |
Ứng dụng tài chính | Tóm tắt thông tin tài chính từ nhiều nguồn tin tức. |
Ứng dụng Bản đồ | Tính thời gian di chuyển. |
Ứng dụng ngân hàng | Xác định các giao dịch gian lận. |
Ứng dụng nhà hàng | Xác định ẩm thực theo thực đơn của nhà hàng. |
Ứng dụng thương mại điện tử | Trả lời bài đánh giá bằng những câu trả lời hữu ích. |
Trường hợp sử dụng rõ ràng cho công nghệ học máy
Một số người xem ML là một công cụ phổ quát có thể áp dụng cho mọi vấn đề. Trên thực tế, ML là một công cụ chuyên biệt chỉ phù hợp với một số vấn đề cụ thể. Bạn không nên triển khai một giải pháp ML phức tạp khi một giải pháp không phải ML đơn giản hơn sẽ hoạt động.
Hệ thống học máy có thể được chia thành hai danh mục lớn: học máy dự đoán và AI tạo sinh. Bảng sau đây liệt kê các đặc điểm xác định của các loại này:
Input | Kết quả | Kỹ thuật huấn luyện | |
---|---|---|---|
Công nghệ học máy dự đoán |
Văn bản Hình ảnh Âm thanh Video Số |
Dự đoán, ví dụ: phân loại email là thư rác hay không phải thư rác, đoán lượng mưa vào ngày mai hoặc dự đoán giá của một cổ phiếu. Thông thường, bạn có thể xác minh kết quả dựa trên thực tế. | Thường sử dụng nhiều dữ liệu để huấn luyện mô hình học có giám sát, không có giám sát hoặc học tăng cường nhằm thực hiện một nhiệm vụ cụ thể. |
AI tạo sinh |
Văn bản Hình ảnh Âm thanh Video Số |
Tạo đầu ra dựa trên ý định của người dùng, ví dụ: tóm tắt một bài viết hoặc tạo một đoạn âm thanh hoặc video ngắn. | Thường sử dụng nhiều dữ liệu chưa được gắn nhãn để huấn luyện một mô hình ngôn ngữ lớn hoặc trình tạo hình ảnh nhằm điền vào dữ liệu còn thiếu. Sau đó, bạn có thể sử dụng mô hình này cho các nhiệm vụ có thể được định dạng là nhiệm vụ điền vào chỗ trống hoặc có thể điều chỉnh mô hình bằng cách huấn luyện mô hình trên dữ liệu được gắn nhãn cho một số nhiệm vụ cụ thể, chẳng hạn như phân loại. |
Để xác nhận rằng ML là phương pháp phù hợp, trước tiên, hãy xác minh rằng giải pháp không phải ML hiện tại của bạn đã được tối ưu hoá. Nếu bạn chưa triển khai giải pháp không phải ML, hãy thử giải quyết vấn đề theo cách thủ công bằng cách sử dụng phương pháp phỏng đoán.
Giải pháp không phải ML là điểm chuẩn mà bạn sẽ sử dụng để xác định xem ML có phải là trường hợp sử dụng phù hợp cho vấn đề của bạn hay không. Hãy cân nhắc những câu hỏi sau đây khi so sánh phương pháp không sử dụng công nghệ học máy với phương pháp sử dụng công nghệ học máy:
Chất lượng. Theo bạn, giải pháp học máy có thể tốt hơn bao nhiêu? Nếu bạn nghĩ rằng giải pháp học máy chỉ có thể cải thiện một chút, thì điều đó có thể cho thấy giải pháp hiện tại là giải pháp tốt nhất.
Chi phí và bảo trì. Giải pháp học máy có tốn kém như thế nào trong cả ngắn hạn và dài hạn? Trong một số trường hợp, việc triển khai công nghệ học máy sẽ tốn nhiều tài nguyên tính toán và thời gian hơn đáng kể. Hãy cân nhắc các câu hỏi sau:
- Giải pháp học máy có thể biện minh cho việc tăng chi phí không? Xin lưu ý rằng những điểm cải tiến nhỏ trong các hệ thống lớn có thể dễ dàng biện minh cho chi phí và việc bảo trì khi triển khai giải pháp học máy.
- Giải pháp này cần bảo trì bao nhiêu? Trong nhiều trường hợp, việc triển khai công nghệ học máy cần có hoạt động bảo trì chuyên biệt lâu dài.
- Sản phẩm của bạn có nguồn lực để hỗ trợ đào tạo hoặc tuyển dụng những người có chuyên môn về học máy không?
Kiểm tra mức độ hiểu biết
Dữ liệu và công nghệ máy học dự đoán
Dữ liệu là động lực thúc đẩy công nghệ học máy dự đoán. Để đưa ra dự đoán chính xác, bạn cần dữ liệu chứa các đặc điểm có khả năng dự đoán. Dữ liệu của bạn phải có các đặc điểm sau:
Dồi dào. Mô hình của bạn sẽ càng hiệu quả hơn khi có nhiều ví dụ hữu ích và phù hợp hơn trong tập dữ liệu.
Nhất quán và đáng tin cậy. Việc thu thập dữ liệu một cách nhất quán và đáng tin cậy sẽ giúp tạo ra mô hình hiệu quả hơn. Ví dụ: mô hình thời tiết dựa trên học máy sẽ được hưởng lợi từ dữ liệu thu thập được trong nhiều năm từ cùng một thiết bị đáng tin cậy.
Đáng tin cậy. Tìm hiểu nguồn gốc của dữ liệu. Dữ liệu có đến từ các nguồn đáng tin cậy mà bạn kiểm soát, chẳng hạn như nhật ký từ sản phẩm của bạn, hay đến từ các nguồn mà bạn không có nhiều thông tin chi tiết, chẳng hạn như kết quả từ một hệ thống học máy khác không?
Có sẵn. Đảm bảo tất cả dữ liệu đầu vào đều có sẵn tại thời điểm dự đoán ở định dạng chính xác. Nếu khó có thể thu thập một số giá trị đặc điểm nhất định tại thời điểm dự đoán, hãy bỏ qua các đặc điểm đó khỏi tập dữ liệu.
Đúng. Trong các tập dữ liệu lớn, một số nhãn sẽ có giá trị không chính xác là điều không thể tránh khỏi, nhưng nếu có nhiều hơn một tỷ lệ nhỏ nhãn không chính xác, thì mô hình sẽ đưa ra kết quả dự đoán không chính xác.
Người đại diện. Các tập dữ liệu phải phản ánh càng nhiều càng tốt về thế giới thực. Nói cách khác, tập dữ liệu phải phản ánh chính xác các sự kiện, hành vi của người dùng và/hoặc hiện tượng của thế giới thực đang được mô hình hoá. Việc huấn luyện trên các tập dữ liệu không đại diện có thể gây ra hiệu suất kém khi mô hình được yêu cầu đưa ra dự đoán trong thế giới thực.
Nếu bạn không thể lấy dữ liệu cần thiết ở định dạng bắt buộc, mô hình của bạn sẽ đưa ra dự đoán không chính xác.
Sức mạnh dự đoán
Để mô hình đưa ra dự đoán chính xác, các đặc điểm trong tập dữ liệu của bạn phải có khả năng dự đoán. Một đặc điểm càng có mối tương quan với một nhãn thì càng có nhiều khả năng dự đoán được nhãn đó.
Một số tính năng sẽ có khả năng dự đoán tốt hơn so với các tính năng khác. Ví dụ: trong một tập dữ liệu thời tiết, các tính năng như cloud_coverage
, temperature
và dew_point
sẽ dự đoán mưa tốt hơn moon_phase
hoặc day_of_week
. Đối với ví dụ về ứng dụng video, bạn có thể giả định rằng các tính năng như video_description
, length
và views
có thể là những yếu tố dự đoán tốt về video mà người dùng muốn xem.
Việc xác định những tính năng có khả năng dự đoán có thể là một quy trình tốn kém thời gian. Bạn có thể khám phá sức mạnh dự đoán của một tính năng theo cách thủ công bằng cách xoá và thêm tính năng đó trong khi huấn luyện mô hình. Bạn có thể tự động tìm ra sức mạnh dự đoán của một tính năng bằng cách sử dụng các thuật toán như độ tương quan Pearson, Thông tin tương hỗ được điều chỉnh (AMI) và Giá trị Shapley. Các thuật toán này cung cấp thông tin đánh giá bằng số để phân tích sức mạnh dự đoán của một tính năng.
Kiểm tra mức độ hiểu biết
Để biết thêm hướng dẫn về cách phân tích và chuẩn bị tập dữ liệu, hãy xem bài viết Chuẩn bị dữ liệu và kỹ thuật tạo đặc điểm cho máy học.
Dự đoán so với hành động
Việc dự đoán sẽ không có giá trị nếu bạn không thể biến dự đoán đó thành một hành động giúp ích cho người dùng. Tức là sản phẩm của bạn phải thực hiện hành động từ kết quả của mô hình.
Ví dụ: một mô hình dự đoán liệu người dùng có thấy một video hữu ích hay không sẽ được đưa vào một ứng dụng đề xuất các video hữu ích. Mô hình dự đoán liệu trời có mưa hay không sẽ được đưa vào ứng dụng thời tiết.
Kiểm tra mức độ hiểu biết
Dựa trên trường hợp sau, hãy xác định xem việc sử dụng công nghệ học máy có phải là phương pháp tốt nhất để giải quyết vấn đề hay không.
Một nhóm kỹ sư tại một tổ chức lớn chịu trách nhiệm quản lý các cuộc gọi điện thoại đến.
Mục tiêu: Thông báo cho người gọi về thời gian họ phải chờ điện thoại được kết nối, dựa trên số lượng cuộc gọi hiện tại.
Họ chưa có giải pháp nào, nhưng họ nghĩ rằng một phương pháp phỏng đoán sẽ là chia số lượng khách hàng đang chờ điện thoại hiện tại cho số nhân viên trả lời điện thoại, sau đó nhân với 10 phút. Tuy nhiên, họ biết rằng một số khách hàng có thể được giải quyết vấn đề trong vòng 2 phút, trong khi một số khác có thể mất đến 45 phút hoặc lâu hơn.
Phương pháp phỏng đoán của họ có thể sẽ không cho ra con số đủ chính xác. Người dùng có thể tạo một tập dữ liệu có các cột sau: number_of_callcenter_phones
, user_issue
, time_to_resolve
, call_time
, time_on_hold
.
time_on_hold
.