Trang này được dịch bởi Cloud Translation API.

Làm việc với dữ liệu dạng danh mục

Dữ liệu danh mục có tập hợp cụ thể các giá trị có thể có. Ví dụ:

Các loài động vật trong một vườn quốc gia
Tên đường phố trong một thành phố cụ thể
Cho biết email có phải là thư rác hay không
Màu sắc ngoại thất nhà
Số được phân loại, được mô tả trong mô-đun Xử lý dữ liệu số

Số cũng có thể là dữ liệu dạng danh mục

Dữ liệu số đúng có thể được nhân lên đáng kể. Ví dụ: hãy xem xét một mô hình dự đoán giá trị của một ngôi nhà dựa trên diện tích của ngôi nhà đó. Xin lưu ý rằng một mô hình hữu ích để đánh giá giá nhà thường dựa vào hàng trăm tính năng. Tuy nhiên, nếu mọi yếu tố khác đều như nhau, thì một ngôi nhà có diện tích 200 mét vuông sẽ có giá trị gần gấp đôi so với một ngôi nhà giống hệt có diện tích 100 mét vuông.

Thông thường, bạn nên biểu thị các đối tượng chứa giá trị số nguyên như dữ liệu phân loại thay vì dữ liệu số. Ví dụ: hãy xem xét một tính năng mã bưu chính trong đó các giá trị là số nguyên. Nếu bạn biểu thị tính năng này bằng số thay vì theo danh mục, thì bạn đang yêu cầu mô hình tìm mối quan hệ dạng số giữa các mã bưu chính. Điều này có nghĩa là bạn đang yêu cầu mô hình coi mã bưu chính 20004 lớn gấp đôi (hoặc một nửa) tín hiệu lớn so với mã bưu chính 10002. Việc biểu thị mã bưu chính dưới dạng dữ liệu phân loại cho phép mô hình này trọng lượng riêng từng mã bưu chính.

Mã hoá

Mã hoá nghĩa là chuyển đổi dữ liệu phân loại hoặc dữ liệu khác thành vectơ số mà một mô hình có thể huấn luyện dựa trên đó. Việc chuyển đổi này là cần thiết vì các mô hình có thể chỉ huấn luyện trên các giá trị dấu phẩy động; các mô hình không thể huấn luyện trên các chuỗi như "dog" hoặc "maple". Mô-đun này giải thích các phương thức mã hoá khác nhau cho dữ liệu phân loại.

Phần kết luận (2 phút)

Tiếp

Từ vựng và mã hoá một nóng (10 phút)

Làm việc với dữ liệu dạng danh mục Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

Số cũng có thể là dữ liệu dạng danh mục

Mã hoá

Làm việc với dữ liệu dạng danh mục