Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Trước khi tạo vectơ đặc trưng, bạn nên nghiên cứu dữ liệu số theo hai cách:
Hình ảnh hoá dữ liệu của bạn trong biểu đồ hoặc đồ thị.
Xem số liệu thống kê về dữ liệu của bạn.
Trình bày trực quan dữ liệu của bạn
Biểu đồ có thể giúp bạn tìm thấy các điểm bất thường hoặc mẫu ẩn trong dữ liệu.
Do đó, trước khi đi sâu vào phân tích, hãy xem dữ liệu của bạn dưới dạng đồ thị, dưới dạng biểu đồ tán xạ hoặc biểu đồ tần suất. Xem biểu đồ không chỉ ở đầu quy trình dữ liệu mà còn trong suốt quá trình chuyển đổi dữ liệu. Hình ảnh trực quan giúp bạn liên tục kiểm tra các giả định của mình.
Xin lưu ý rằng một số công cụ trực quan hoá được tối ưu hoá cho một số định dạng dữ liệu nhất định.
Công cụ trực quan hoá giúp bạn đánh giá vùng đệm giao thức có thể hoặc không thể giúp bạn đánh giá dữ liệu CSV.
Đánh giá dữ liệu của bạn theo số liệu thống kê
Ngoài việc phân tích hình ảnh, bạn cũng nên đánh giá các tính năng và nhãn tiềm năng theo toán học, thu thập số liệu thống kê cơ bản như:
trung bình và trung vị
độ lệch chuẩn
các giá trị tại các điểm phân chia tứ phân vị: bách phân vị thứ 0, 25, 50, 75 và 100. Bách phân vị thứ 0 là giá trị tối thiểu của cột này; bách phân vị thứ 100 là giá trị tối đa của cột này. (Phân vị thứ 50 là trung bình.)
Tìm điểm ngoại lai
Giá trị ngoại lai là một giá trị xa cách với hầu hết các giá trị khác trong một đặc điểm hoặc nhãn. Giá trị ngoại lai thường gây ra vấn đề trong quá trình huấn luyện mô hình, vì vậy, việc tìm giá trị ngoại lai là rất quan trọng.
Khi delta giữa bách phân vị thứ 0 và thứ 25 khác biệt đáng kể với delta giữa bách phân vị thứ 75 và thứ 100, thì tập dữ liệu có thể chứa giá trị ngoại lai.
Giá trị ngoại lai có thể thuộc bất kỳ danh mục nào sau đây:
Giá trị ngoại lai là do lỗi.
Ví dụ: có thể người thử nghiệm đã nhập nhầm một số 0, hoặc có thể một thiết bị thu thập dữ liệu đã bị trục trặc.
Thông thường, bạn sẽ xoá các ví dụ chứa lỗi ngoại lai.
Giá trị ngoại lai là một điểm dữ liệu hợp lệ, không phải là lỗi.
Trong trường hợp này, mô hình đã huấn luyện của bạn có cần suy luận chính xác về các giá trị ngoại lai này không?
Nếu có, hãy giữ lại các giá trị ngoại lai này trong tập huấn luyện. Xét cho cùng, các giá trị ngoại lai trong một số tính năng nhất định đôi khi phản ánh các giá trị ngoại lai trong nhãn, vì vậy, các giá trị ngoại lai thực sự có thể giúp mô hình của bạn đưa ra dự đoán chính xác hơn.
Hãy cẩn thận, các giá trị ngoại lai cực đoan vẫn có thể làm hỏng mô hình của bạn.
Nếu không, hãy xoá các điểm ngoại lai hoặc áp dụng các kỹ thuật kỹ thuật tính năng mang tính xâm phạm hơn, chẳng hạn như cắt phần.
[null,null,["Cập nhật lần gần đây nhất: 2025-02-26 UTC."],[[["\u003cp\u003eBefore creating feature vectors, it is crucial to analyze numerical data by visualizing it through plots and graphs and calculating basic statistics like mean, median, and standard deviation.\u003c/p\u003e\n"],["\u003cp\u003eVisualizations, such as scatter plots and histograms, can reveal anomalies and patterns in the data, aiding in identifying potential issues early in the data analysis process.\u003c/p\u003e\n"],["\u003cp\u003eOutliers, values significantly distant from others, should be identified and handled appropriately, either by correcting mistakes, retaining legitimate outliers for model training, or applying techniques like clipping.\u003c/p\u003e\n"],["\u003cp\u003eStatistical evaluation helps in understanding the distribution and characteristics of data, providing insights into potential feature and label relationships.\u003c/p\u003e\n"],["\u003cp\u003eWhile basic statistics and visualizations provide valuable insights, it's essential to remain vigilant as anomalies can still exist in seemingly well-balanced data.\u003c/p\u003e\n"]]],[],null,["# Numerical data: First steps\n\nBefore creating feature vectors, we recommend studying numerical data in\ntwo ways:\n\n- Visualize your data in plots or graphs.\n- Get statistics about your data.\n\nVisualize your data\n-------------------\n\nGraphs can help you find anomalies or patterns hiding in the data.\nTherefore, before getting too far into analysis, look at your\ndata graphically, either as scatter plots or histograms. View graphs not\nonly at the beginning of the data pipeline, but also throughout data\ntransformations. Visualizations help you continually check your assumptions.\n\nWe recommend working with pandas for visualization:\n\n- [Working with Missing Data (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/missing_data.html)\n- [Visualizations (pandas\n Documentation)](http://pandas.pydata.org/pandas-docs/stable/visualization.html)\n\nNote that certain visualization tools are optimized for certain data formats.\nA visualization tool that helps you evaluate protocol buffers may or may not\nbe able to help you evaluate CSV data.\n\nStatistically evaluate your data\n--------------------------------\n\nBeyond visual analysis, we also recommend evaluating potential features and\nlabels mathematically, gathering basic statistics such as:\n\n- mean and median\n- standard deviation\n- the values at the quartile divisions: the 0th, 25th, 50th, 75th, and 100th percentiles. The 0th percentile is the minimum value of this column; the 100th percentile is the maximum value of this column. (The 50th percentile is the median.)\n\nFind outliers\n-------------\n\nAn [**outlier**](/machine-learning/glossary#outliers) is a value *distant*\nfrom most other values in a feature or label. Outliers often cause problems\nin model training, so finding outliers is important.\n\nWhen the delta between the 0th and 25th percentiles differs significantly\nfrom the delta between the 75th and 100th percentiles, the dataset probably\ncontains outliers.\n| **Note:** Don't over-rely on basic statistics. Anomalies can also hide in seemingly well-balanced data.\n\nOutliers can fall into any of the following categories:\n\n- The outlier is due to a *mistake*. For example, perhaps an experimenter mistakenly entered an extra zero, or perhaps an instrument that gathered data malfunctioned. You'll generally delete examples containing mistake outliers.\n- The outlier is a legitimate data point, *not a mistake* . In this case, will your trained model ultimately need to infer good predictions on these outliers?\n - If yes, keep these outliers in your training set. After all, outliers in certain features sometimes mirror outliers in the label, so the outliers could actually *help* your model make better predictions. Be careful, extreme outliers can still hurt your model.\n - If no, delete the outliers or apply more invasive feature engineering techniques, such as [**clipping**](/machine-learning/glossary#clipping).\n\n| **Key terms:**\n|\n| - [Clipping](/machine-learning/glossary#clipping)\n- [Outliers](/machine-learning/glossary#outliers) \n[Help Center](https://support.google.com/machinelearningeducation)"]]