Dữ liệu số đúng
có thể được nhân lên đáng kể. Ví dụ: hãy xem xét một mô hình dự đoán giá trị của một ngôi nhà dựa trên diện tích của ngôi nhà đó.
Xin lưu ý rằng một mô hình hữu ích để đánh giá giá nhà thường dựa vào hàng trăm tính năng. Tuy nhiên, nếu mọi yếu tố khác đều như nhau, thì một ngôi nhà có diện tích 200 mét vuông sẽ có giá trị gần gấp đôi so với một ngôi nhà giống hệt có diện tích 100 mét vuông.
Thông thường, bạn nên biểu thị các đối tượng chứa giá trị số nguyên như
dữ liệu phân loại thay vì dữ liệu số. Ví dụ: hãy xem xét một tính năng mã bưu chính trong đó các giá trị là số nguyên. Nếu bạn biểu thị tính năng này bằng số thay vì theo danh mục, thì bạn đang yêu cầu mô hình tìm mối quan hệ dạng số giữa các mã bưu chính. Điều này có nghĩa là bạn đang yêu cầu mô hình
coi mã bưu chính 20004 lớn gấp đôi (hoặc một nửa) tín hiệu lớn so với mã bưu chính
10002. Việc biểu thị mã bưu chính dưới dạng dữ liệu phân loại cho phép mô hình này
trọng lượng riêng từng mã bưu chính.
Mã hoá
Mã hoá nghĩa là chuyển đổi dữ liệu phân loại hoặc dữ liệu khác thành vectơ số
mà một mô hình có thể huấn luyện dựa trên đó. Việc chuyển đổi này là cần thiết vì các mô hình có thể
chỉ huấn luyện trên các giá trị dấu phẩy động; các mô hình không thể huấn luyện trên các chuỗi như
"dog" hoặc "maple". Mô-đun này giải thích các phương thức mã hoá khác nhau cho dữ liệu phân loại.
[null,null,["Cập nhật lần gần đây nhất: 2025-07-27 UTC."],[[["\u003cp\u003eThis module focuses on differentiating between categorical and numerical data within machine learning.\u003c/p\u003e\n"],["\u003cp\u003eYou will learn how to represent categorical data using one-hot vectors and address common issues associated with it.\u003c/p\u003e\n"],["\u003cp\u003eThe module covers encoding techniques for converting categorical data into numerical vectors suitable for model training.\u003c/p\u003e\n"],["\u003cp\u003eFeature crosses, a method for combining categorical features to capture interactions, are also discussed.\u003c/p\u003e\n"],["\u003cp\u003eIt is assumed you have prior knowledge of introductory machine learning and working with numerical data.\u003c/p\u003e\n"]]],[],null,["# Working with categorical data\n\n| **Estimated module length:** 50 minutes\n| **Learning objectives**\n|\n| - Distinguish categorical data from numerical data.\n| - Represent categorical data with one-hot vectors.\n| - Address common issues with categorical data.\n| - Create feature crosses.\n| **Prerequisites:**\n|\n| This module assumes you are familiar with the concepts covered in the\n| following modules:\n|\n| - [Introduction to Machine Learning](/machine-learning/intro-to-ml)\n| - [Working with numerical data](/machine-learning/crash-course/numerical-data)\n\n[**Categorical data**](/machine-learning/glossary#categorical-data) has a\n*specific set* of possible values. For example:\n\n- The different species of animals in a national park\n- The names of streets in a particular city\n- Whether or not an email is spam\n- The colors that house exteriors are painted\n- Binned numbers, which are described in the [Working with Numerical\n Data](/machine-learning/crash-course/numerical-data) module\n\nNumbers can also be categorical data\n------------------------------------\n\nTrue [**numerical data**](/machine-learning/glossary#numerical-data)\ncan be meaningfully multiplied. For example, consider a\nmodel that predicts the value of a house based on its area.\nNote that a useful model for evaluating house prices typically relies on\nhundreds of features. That said, all else being equal, a house of 200 square\nmeters should be roughly twice as valuable as an identical house of 100 square\nmeters.\n\nOftentimes, you should represent features that contain integer values as\ncategorical data instead of numerical data. For example, consider a postal\ncode feature in which the values are integers. If you represent this\nfeature numerically rather than categorically, you're asking the model\nto find a numeric relationship\nbetween different postal codes. That is, you're telling the model to\ntreat postal code 20004 as twice (or half) as large a signal as postal code\n10002. Representing postal codes as categorical data lets the model\nweight each individual postal code separately.\n\nEncoding\n--------\n\n**Encoding** means converting categorical or other data to numerical vectors\nthat a model can train on. This conversion is necessary because models can\nonly train on floating-point values; models can't train on strings such as\n`\"dog\"` or `\"maple\"`. This module explains different\nencoding methods for categorical data.\n| **Key terms:**\n|\n| - [Categorical data](/machine-learning/glossary#categorical-data)\n- [Numerical data](/machine-learning/glossary#numerical-data) \n[Help Center](https://support.google.com/machinelearningeducation)"]]