Chuẩn bị dữ liệu và Kỹ thuật tính năng trong máy học

Công nghệ máy học giúp chúng tôi tìm ra các mẫu trong dữ liệu. Các mẫu mà chúng tôi dùng để đưa ra dự đoán về các điểm dữ liệu mới. Để dự đoán chính xác, chúng tôi phải tạo tập dữ liệubiến đổi dữ liệu một cách chính xác. Khóa học này bao gồm hai bước chính sau. Chúng ta cũng sẽ xem mức độ cân nhắc về đào tạo/phân phát đóng vai trò như thế nào trong các bước này.

Một dự án máy học được tổ chức thành 5 giai đoạn. 1. Xác định vấn đề về máy học và đề xuất giải pháp. 2. Tạo tập dữ liệu của bạn. 3. Chuyển đổi dữ liệu.
4. Đào tạo mô hình. 5. Sử dụng mô hình để đưa ra dự đoán.  Khoá học này bao gồm việc xây dựng tập dữ liệu và chuyển đổi dữ liệu.

Điều kiện tiên quyết

Khóa học này giả định rằng bạn có:

Tại sao nên tìm hiểu về chuẩn bị dữ liệu và kỹ thuật tính năng?

Bạn có thể coi kỹ thuật tính năng là cách giúp mô hình hiểu tập dữ liệu giống như cách bạn làm. Người học thường tìm đến khoá học về máy học, tập trung vào việc xây dựng mô hình, nhưng cuối cùng lại dành nhiều thời gian hơn để tập trung vào dữ liệu.

Đối với câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời của bạn:

Giả sử bạn phải ưu tiên cải thiện một trong những khía cạnh dưới đây trong dự án máy học thì điều gì sẽ có tác động lớn nhất?
Chất lượng và kích thước dữ liệu của bạn
Dữ liệu chiếm ưu thế hơn tất cả. Đúng là khi cập nhật thuật toán học tập hoặc cấu trúc mô hình, bạn sẽ có thể tìm hiểu nhiều loại mẫu. Tuy nhiên, nếu dữ liệu của bạn không hợp lệ, bạn sẽ tạo ra các hàm phù hợp. Chất lượng và kích thước của tập dữ liệu đóng vai trò quan trọng hơn nhiều so với thuật toán sáng bóng bạn sử dụng.
Sử dụng thuật toán tối ưu hoá mới nhất
Bạn chắc chắn sẽ thấy một số lợi ích khi đẩy công cụ tối ưu hoá, nhưng sẽ không có tác động đáng kể nào đến mô hình của bạn như một mục khác trong danh sách này.
Mạng sâu hơn
Mặc dù mạng sâu hơn có thể cải thiện mô hình của bạn, nhưng tác động sẽ không đáng kể như một mục khác trong danh sách này.
Hàm mất mát thông minh hơn
Gần đúng! Hàm thua cuộc tốt hơn có thể giúp bạn giành chiến thắng lớn, nhưng nó vẫn đứng sau một mục khác trong danh sách này.

Tại sao việc thu thập một tập dữ liệu tốt lại quan trọng?

Google Dịch

"...một trong những tiến bộ chất lượng hiệu quả nhất của chúng tôi vì dịch máy dùng mạng nơ-ron nhân tạo và xác định một tập hợp con dữ liệu đào tạo tốt nhất để sử dụng"

– Kỹ sư phần mềm, Google Dịch

Nhóm Google Dịch có nhiều dữ liệu đào tạo hơn khả năng của họ. Thay vì điều chỉnh mô hình, đội ngũ của họ đã đạt được kết quả tốt hơn nhờ sử dụng các tính năng tốt nhất trong dữ liệu.

 

 

 

"...hầu hết những lần tôi cố gắng gỡ lỗi theo cách thủ công đều có thể bắt nguồn từ các vấn đề với dữ liệu huấn luyện." – Kỹ sư phần mềm, Google Dịch

Lỗi "thú vị" thường do dữ liệu gây ra. Dữ liệu bị lỗi có thể khiến mô hình của bạn tìm hiểu các mẫu không chính xác, bất kể bạn thử kỹ thuật mô hình nào.

 

 

Dự án bệnh võng mạc tiểu đường của não

Dự án bệnh võng mạc tiểu đường của Google Brain đã sử dụng một cấu trúc mạng nơ-ron, có tên Inception, để phát hiện bệnh bằng cách phân loại hình ảnh. Nhóm đã không tinh chỉnh mô hình. Thay vào đó, họ đã thành công bằng cách tạo ra một tập dữ liệu gồm 120.000 ví dụ do các bác sĩ nhãn khoa ghi nhãn. (Tìm hiểu thêm tại https://research.google.com/pubs/pub43022.html.)