Một tính năng chéo có thể thực sự bật mô hình để phù hợp với dữ liệu phi tuyến tính không?
Để tìm hiểu, hãy thử bài tập này.
Nhiệm vụ: Hãy cố gắng tạo một mô hình phân tách các chấm màu xanh dương với
các chấm màu cam bằng cách theo cách thủ công thay đổi trọng số của 3
tính năng nhập sau đây:
x1
x2
x1x2 (một tính năng chéo)
Cách thay đổi trọng lượng theo cách thủ công:
Nhấp vào một dòng kết nối TÍNH NĂNG với OUTPUT.
Một biểu mẫu nhập vào sẽ xuất hiện.
Nhập giá trị dấu phẩy động vào biểu mẫu nhập đó.
Nhấn Enter.
Lưu ý rằng giao diện cho bài tập này không chứa nút Bước.
Đó là vì bài tập này không lặp lại đào tạo một mô hình.
Thay vào đó, bạn sẽ nhập trọng số "final" cho mô hình theo cách thủ công.
(Câu trả lời xuất hiện ngay bên dưới bài tập.)
Nhấp vào biểu tượng dấu cộng cho câu trả lời.
w1 = 0
w2 = 0
x1x2 = 1 (hoặc giá trị dương bất kỳ)
Nếu bạn nhập giá trị âm cho dấu gạch ngang tính năng, mô hình sẽ phân tách các dấu chấm màu xanh dương khỏi các dấu chấm màu cam nhưng các thông tin dự đoán sẽ sai hoàn toàn.
Tức là mô hình này sẽ dự đoán màu cam cho các chấm màu xanh dương và màu xanh lam cho các chấm màu cam.
Các tính năng phức tạp hơn
Bây giờ, hãy chơi bằng một số cách kết hợp tính năng nâng cao.
Dữ liệu được thiết lập trong bài tập thể dục này trên Playground
trông giống như một hình ảnh gây nhiễu trong trò chơi phi tiêu, với các chấm màu xanh ở giữa và
các chấm màu cam ở vòng tròn bên ngoài.
Hãy nhấp vào biểu tượng dấu cộng để xem nội dung giải thích về mô hình trực quan.
Mỗi bài tập Playground sẽ hiển thị hình ảnh trực quan về trạng thái hiện tại của mô hình. Ví dụ: đây là hình ảnh trực quan:
Xin lưu ý những điều sau về hình ảnh trực quan:
Mỗi trục đại diện cho một tính năng cụ thể. Trong trường hợp spam so với không phải spam,
các tính năng có thể là số từ và số người nhận email.
Mỗi dấu chấm biểu thị các giá trị của tính năng cho một ví dụ về dữ liệu, chẳng hạn như email.
Màu của dấu chấm biểu thị lớp mà ví dụ thuộc về.
Ví dụ: các chấm màu xanh dương có thể biểu thị cho email không phải thư rác, còn dấu chấm màu cam có thể biểu thị email rác.
Màu nền đại diện cho dự đoán của mô hình về nơi sẽ tìm thấy các ví dụ
về màu đó. Nền màu xanh dương xung quanh chấm màu xanh dương có nghĩa là mô hình này đang dự đoán chính xác ví dụ đó. Ngược lại, nền màu cam xung quanh một chấm màu xanh dương có nghĩa là mô hình đó đang dự đoán không chính xác ví dụ đó.
Màu nền xanh dương và cam được thay đổi tỷ lệ. Ví dụ: phía bên trái của hình ảnh trực quan có màu xanh dương đậm nhưng chuyển dần sang màu trắng ở giữa hình ảnh trực quan. Bạn có thể xem độ mạnh của màu sắc là dấu hiệu cho thấy mô hình có độ tin cậy cao. Vì màu xanh dương đồng nhất có nghĩa là mô hình này rất tự tin với phỏng đoán của mình và màu xanh dương nhạt có nghĩa là mô hình đó kém tự tin hơn. (Hình ảnh mô hình hiển thị trong hình đang
thực hiện rất kém khả năng dự đoán.)
Hãy sử dụng hình ảnh để đánh giá tiến độ của mô hình.
("Rất tốt—hầu hết các chấm màu xanh dương có nền xanh dương" hoặc
"Ồ không! Các chấm màu xanh dương có nền màu cam.")
Ngoài màu sắc, Playground còn hiển thị mức độ suy hao hiện tại của mô hình.
("Ôi không! Tổn thất sẽ tăng lên thay vì giảm xuống.")
Tác vụ 1: Chạy mô hình tuyến tính này như đã cho. Dành một hoặc hai phút (nhưng không dài hơn) để thử các chế độ cài đặt tỷ lệ học tập khác nhau để xem liệu bạn có thể tìm ra cách cải thiện nào không. Mô hình tuyến tính có thể tạo ra kết quả hiệu quả cho
tập dữ liệu này không?
Nhiệm vụ 2: Bây giờ, hãy thử thêm các tính năng trên nhiều sản phẩm, chẳng hạn như x1x2, cố gắng tối ưu hóa hiệu suất.
Những tính năng nào hữu ích nhất?
Hiệu suất tốt nhất mà bạn có thể nhận được là gì?
Nhiệm vụ 3: Khi bạn có một mô hình tốt, hãy kiểm tra bề mặt đầu ra của mô hình (được thể hiện bằng màu nền).
Hình này có giống như mô hình tuyến tính không?
Bạn sẽ mô tả mô hình này như thế nào?
(Câu trả lời xuất hiện ngay bên dưới bài tập.)
Nhấp vào biểu tượng dấu cộng cho câu trả lời của Bài tập 1.
Không. Mô hình tuyến tính không thể lập mô hình hiệu quả tập dữ liệu này. Việc giảm tốc độ học sẽ giảm được tổn thất, nhưng sự mất mát vẫn hội tụ ở giá trị cao không thể chấp nhận được.
Nhấp vào biểu tượng dấu cộng để xem câu trả lời của Bài tập 2.
Tập dữ liệu của Playground được tạo ngẫu nhiên. Do đó, không phải lúc nào câu trả lời của chúng tôi cũng có thể khớp chính xác với câu trả lời của bạn. Trên thực tế, nếu bạn tạo lại tập dữ liệu giữa các lần chạy, thì kết quả của riêng bạn sẽ không phải lúc nào cũng đồng ý chính xác với các lần chạy trước. Tức là bạn sẽ nhận được kết quả tốt hơn bằng cách làm như sau:
Sử dụng cả x12 và x22 khi tính năng này vượt qua. (Việc thêm x1x2 làm dấu gạch ngang tính năng có vẻ không hữu ích.)
Giảm Tỷ lệ học tập có lẽ xuống còn 0, 001.
Nhấp vào biểu tượng dấu cộng để xem câu trả lời của Bài tập 3.
Bề mặt đầu ra của mô hình có vẻ không giống như mô hình tuyến tính. Thay vào đó, ứng dụng trông như hình elip.