Đây là bài tập đầu tiên trong số một số bài tập trong Playground.
Playground là một chương trình được phát triển riêng cho khoá học này để giảng dạy các nguyên tắc học máy.
Mỗi bài tập Playground trong khoá học này bao gồm một thực thể Playground được nhúng có các giá trị đặt trước.
Mỗi bài tập thể dục Playground sẽ tạo một tập dữ liệu. Nhãn cho tập dữ liệu này có thể có hai giá trị. Bạn có thể coi hai giá trị có thể có đó là nội dung rác so với nội dung rác, hoặc có thể là cây khoẻ mạnh với cây bị bệnh.
Mục tiêu của hầu hết các bài tập là điều chỉnh nhiều siêu tham số để xây dựng một mô hình phân loại (tách biệt hoặc phân biệt) thành công một giá trị nhãn với các giá trị nhãn còn lại. Xin lưu ý rằng hầu hết các tập dữ liệu đều chứa một lượng độ nhiễu nhất định, khiến bạn không thể phân loại thành công mọi ví dụ.
Nhấp vào biểu tượng dấu cộng để xem nội dung giải thích về hình ảnh trực quan của mô hình.
Mỗi bài tập Playground sẽ hiển thị hình ảnh trực quan về trạng thái hiện tại của mô hình. Ví dụ: sau đây là hình ảnh:
Hãy lưu ý những điều sau về hình ảnh trực quan của mô hình:
Mỗi trục đại diện cho một đối tượng cụ thể. Trong trường hợp thư rác chứ không phải thư rác,
các đặc điểm có thể là số từ và số lượng người nhận
email.
Mỗi dấu chấm vẽ các giá trị tính năng cho một ví dụ về dữ liệu, chẳng hạn như một email.
Màu của dấu chấm đại diện cho lớp chứa ví dụ đó.
Ví dụ: dấu chấm màu xanh dương có thể biểu thị email không phải là email rác, còn các dấu chấm màu cam có thể biểu thị email rác.
Màu nền thể hiện thông tin dự đoán của mô hình về nơi sẽ tìm thấy các ví dụ về màu đó. Nền màu xanh dương xung quanh chấm màu xanh dương có nghĩa là mô hình này đang dự đoán chính xác ví dụ đó. Ngược lại, nền màu cam xung quanh một chấm màu xanh dương có nghĩa là mô hình này dự đoán không chính xác ví dụ đó.
Nền màu xanh lam và màu cam được điều chỉnh theo tỷ lệ. Ví dụ: phía bên trái của hình ảnh có màu xanh dương đồng nhất nhưng dần dần chuyển sang màu trắng ở giữa hình ảnh. Bạn có thể coi độ mạnh của màu sắc thể hiện độ tin cậy của mô hình trong dự đoán. Vì vậy, màu xanh đồng nhất có nghĩa là mô hình rất tự tin về dự đoán của mình và màu xanh nhạt có nghĩa là mô hình kém tự tin hơn. (Hình ảnh mô hình hiển thị trong hình đang thực hiện công việc dự đoán kém.)
Sử dụng hình ảnh để đánh giá tiến trình của mô hình.
("Rất tốt — hầu hết các chấm màu xanh dương đều có nền màu xanh dương" hoặc
"Ôi không! Chấm màu xanh dương trên nền màu cam.")
Ngoài màu sắc, Playground cũng hiển thị số tổn thất hiện tại của mô hình dưới dạng số.
("Ôi không! Số lỗ giảm đi thay vì giảm.")
Giao diện của bài tập này cung cấp 3 nút:
Biểu tượng
Tên
Tác dụng
Đặt lại
Đặt lại Lặp lại về 0. Đặt lại mọi trọng số mà mô hình đã học được.
Bước
Tua một vòng lặp. Sau mỗi lần lặp lại, mô hình sẽ thay đổi, đôi khi có sự thay đổi nhỏ và đôi khi rất đáng kể.
Tạo lại
Tạo tập dữ liệu mới. Không đặt lại Lặp lại.
Trong bài tập Playground đầu tiên này, bạn sẽ thử nghiệm tốc độ học bằng cách thực hiện 2 nhiệm vụ.
Nhiệm vụ 1: Hãy chú ý đến trình đơn Learning Rate (Tỷ lệ học tập) ở trên cùng bên phải của Playground. Tỷ lệ học được đưa ra (3) là rất cao. Quan sát mức độ ảnh hưởng của Tốc độ học tập cao đó đến mô hình của bạn bằng cách nhấp vào nút "Bước" 10 hoặc 20 lần. Sau mỗi lần lặp lại, hãy lưu ý xem hình ảnh trực quan của mô hình thay đổi đáng kể như thế nào. Thậm chí, bạn có thể nhận thấy một số sự bất ổn định sau khi mô hình có vẻ như đã hội tụ. Ngoài ra, hãy lưu ý các dòng chạy từ x1 và x2 đến hình ảnh của mô hình. Trọng số của các đường này cho biết trọng số của các tính năng đó trong mô hình. Điều đó nghĩa là một đường đậm biểu thị trọng số cao.
Nhiệm vụ 2: Làm như sau:
Nhấn vào nút Reset (Đặt lại).
Giảm Tốc độ học.
Nhấn nút Bước nhiều lần.
Tỷ lệ học tập thấp hơn ảnh hưởng như thế nào đến sự hội tụ? Hãy kiểm tra cả số bước cần thiết để mô hình hội tụ cũng như mức độ suôn sẻ và ổn định mà mô hình hội tụ. Thử nghiệm với các giá trị
tốc độ học tập thấp hơn nữa. Bạn có thấy tốc độ học quá chậm nên không hữu ích không? (Bạn sẽ tìm thấy một cuộc thảo luận ngay bên dưới bài tập.)
Nhấp vào biểu tượng dấu cộng để thảo luận về Nhiệm vụ 2.
Do tính chất không xác định của các bài tập Playground,
không phải lúc nào chúng tôi cũng cung cấp câu trả lời tương ứng chính xác với tập dữ liệu của bạn.
Tuy nhiên, tỷ lệ học tập là 0,1 hội tụ một cách hiệu quả đối với chúng tôi.
Tỷ lệ học tập nhỏ hơn mất nhiều thời gian hơn để hội tụ; nghĩa là tỷ lệ học tập nhỏ hơn quá chậm nên không hữu ích.