Chuẩn hoá

Mục tiêu của việc chuẩn hoá là chuyển đổi các tính năng để có tỷ lệ tương tự. Việc này giúp nâng cao hiệu suất và độ ổn định của quá trình đào tạo mô hình.

Kỹ thuật chuẩn hoá nhanh chóng

Bốn kỹ thuật chuẩn hoá phổ biến có thể hữu ích:

  • điều chỉnh theo tỷ lệ
  • cắt xén
  • điều chỉnh tỷ lệ nhật ký
  • chỉ số z

Các biểu đồ sau đây cho thấy tác động của từng kỹ thuật chuẩn hoá đối với việc phân phối tính năng thô (giá) ở bên trái. Các biểu đồ này dựa trên tập dữ liệu từ Niên giám ô tô năm 1985 của phường, một phần của Kho lưu trữ máy học UCI trong Tập dữ liệu ô tô.

Năm biểu đồ: 1. Phân phối thô. 2. Phân phối thô được chia tỷ lệ thành 
một phạm vi có hình dạng giống như phân phối thô. 3. Phân phối thô được cắt bớt, giúp loại bỏ các giá trị cao nhất. 4. hàm phân phối thô được chia tỷ lệ theo lôgarit, giúp tập hợp dữ liệu ở giữa quá trình phân phối. 5. Chỉ số z của phân phối, có hình dạng tương tự như phân phối thô.

Hình 1. Tóm tắt các kỹ thuật chuẩn hoá.

Điều chỉnh tỷ lệ thành phạm vi

Hãy nhớ từ MLCC rằng tỷ lệ có nghĩa là chuyển đổi các giá trị tính năng dấu phẩy động từ phạm vi tự nhiên (ví dụ: 100 đến 900) thành một phạm vi chuẩn — thường là 0 và 1 (hoặc đôi khi là -1 đến +1). Hãy sử dụng công thức đơn giản sau để mở rộng phạm vi:

\[ x' = (x - x_{min}) / (x_{max} - x_{min}) \]

Điều chỉnh tỷ lệ thành một dải ô là lựa chọn phù hợp khi đáp ứng cả hai điều kiện sau:

  • Bạn biết giới hạn trên và giới hạn dưới gần đúng trên dữ liệu của mình dù có ít hoặc không có điểm bất thường.
  • Dữ liệu của bạn được phân bổ đồng đều trên phạm vi đó.

Một ví dụ điển hình là độ tuổi. Hầu hết giá trị độ tuổi đều nằm trong khoảng từ 0 đến 90 và mỗi phần của phạm vi có một số lượng người lớn.

Ngược lại, bạn không nên sử dụng tỷ lệ thu nhập vì chỉ một số người có thu nhập rất cao. Giới hạn trên của tỷ lệ tuyến tính đối với thu nhập sẽ rất cao và hầu hết mọi người sẽ bị bóp vào một phần nhỏ của thang điểm.

Cắt xén tính năng

Nếu tập dữ liệu của bạn chứa các giá trị ngoại lệ cực đoan, bạn có thể thử cắt tính năng để cắt tất cả giá trị tính năng ở trên (hoặc dưới) một giá trị nhất định thành giá trị cố định. Ví dụ: bạn có thể cắt đoạn tất cả các giá trị nhiệt độ trên 40 để chính xác là 40.

Bạn có thể áp dụng tính năng cắt xén tính năng trước hoặc sau khi chuẩn hoá khác.

Công thức: Đặt giá trị tối thiểu/tối đa để tránh các điểm ngoại lai.

So sánh mô hình phân phối gốc và phân phối có giới hạn. Trong
phân phối gốc, gần như tất cả các giá trị đều nằm trong phạm vi từ 1 đến 4, nhưng
một tỷ lệ nhỏ các giá trị nằm trong khoảng từ 5 đến 55. Trong bản phân phối có giới hạn,
tất cả các giá trị ban đầu trên 4 hiện có
giá trị 4.

Hình 2. So sánh một bản phân phối thô và phiên bản bị cắt bớt.

Một chiến lược cắt đoạn đơn giản khác là cắt theo z-score đến +-NFR (ví dụ: giới hạn ở mức +-3÷). Lưu ý rằng ΃ là độ lệch chuẩn.

Thay đổi tỷ lệ nhật ký

Tỷ lệ nhật ký tính toán nhật ký các giá trị của bạn để nén một dải ô rộng thành một dải ô hẹp.

\[ x' = log(x) \]

Tỷ lệ nhật ký hữu ích khi một số giá trị của bạn có nhiều điểm, trong khi hầu hết các giá trị khác có ít điểm. Việc phân phối dữ liệu này được gọi là phân phối luật nguồn. Đánh giá phim là một ví dụ tiêu biểu. Trong biểu đồ bên dưới, hầu hết các bộ phim có rất ít điểm xếp hạng (dữ liệu ở đuôi), trong khi một số bộ phim có rất nhiều điểm xếp hạng (dữ liệu ở phần đầu). Tỷ lệ nhật ký thay đổi sự phân phối, giúp cải thiện hiệu suất của mô hình tuyến tính.

Hai biểu đồ so sánh dữ liệu thô với nhật ký dữ liệu thô. Biểu đồ dữ liệu thô hiển thị nhiều xếp hạng trong phần đầu, theo sau là một đuôi dài. Biểu đồ nhật ký có phân phối đồng đều hơn.

Hình 3. So sánh một bản phân phối thô với nhật ký tương ứng.

Điểm Z

Điểm Z là một biến thể của tỷ lệ biểu thị số độ lệch chuẩn so với giá trị trung bình. Bạn sẽ sử dụng điểm z để đảm bảo các bản phân phối tính năng có giá trị trung bình = 0 và std = 1. Công cụ này sẽ hữu ích khi có một vài điểm bất thường, nhưng không quá nghiêm trọng đến mức bạn cần cắt đoạn.

Công thức để tính điểm z của một điểm, x, như sau:

\[ x' = (x - μ) / σ \]

Hai biểu đồ so sánh dữ liệu thô với dữ liệu được chuẩn hoá bằng chỉ số z. Dữ liệu thô cho thấy mức phân phối Poisson thô nằm trong khoảng từ 5.000 đến 45.000.
Dữ liệu được chuẩn hoá dao động từ -1 đến +4.

Hình 4. So sánh bản phân phối thô với bản phân phối điểm z.

Lưu ý rằng điểm z sẽ vắt các giá trị thô có phạm vi từ ~40.000 đến một dải ô từ khoảng -1 đến +4.

Giả sử bạn không chắc chắn liệu các điểm ngoại lai có thực sự cực đoan hay không. Trong trường hợp này, hãy bắt đầu bằng chỉ số z trừ khi bạn có các giá trị tính năng mà bạn không muốn mô hình tìm hiểu; ví dụ: các giá trị là kết quả của lỗi đo lường hoặc một sự khác biệt bất thường.

Tóm tắt

Kỹ thuật chuẩn hoáCông thứcTrường hợp sử dụng
Điều chỉnh tỷ lệ $$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$ Khi tính năng được phân phối đồng đều hoặc ít hơn trên một phạm vi cố định.
Cắt xén nếu x > tối đa, thì x' = tối đa nếu x < tối thiểu, thì x' = tối thiểu Khi tính năng này chứa một số điểm bất thường quá mức.
Thay đổi tỷ lệ nhật ký x\39; = log(x) Khi tính năng này tuân thủ luật nguồn.
Dấu Z x\39; = (x - μ) / ΃ Khi phạm vi phân phối tính năng không chứa các điểm ngoại lai cực đoan.