Dữ liệu số: Biến đổi đa thức

Đôi khi, khi chuyên viên máy học đó gợi ý kiến thức về miền rằng một biến liên quan đến bình phương, lập phương hoặc luỹ thừa khác của một biến khác nên bạn nên tạo một biến tính năng tổng hợp của một của tính năng dạng số hiện có.

Hãy xem xét sự lan truyền của các điểm dữ liệu sau đây, trong đó các vòng tròn màu hồng đại diện cho một lớp hoặc danh mục (ví dụ: một loài cây) và các hình tam giác màu xanh lục một lớp khác (hoặc một loài cây):

Hình 17. Độ phân tán của các điểm dữ liệu y=x^2, với các tam giác bên dưới
            đường cong và các đường tròn bên trên đường cong.
Hình 17. 2 lớp không thể được phân tách bằng một dòng.

Không thể vẽ một đường thẳng tách biệt rõ ràng cả hai các lớp, nhưng bạn có thể vẽ một đường cong để làm việc này:

Hình 18. Hình ảnh tương tự như Hình 17, chỉ lần này với y=x^2
            để tạo ranh giới rõ ràng giữa tam giác và
            vòng kết nối.
Hình 18. Phân tách các lớp bằng y = x2.

Như đã thảo luận trong Mô-đun hồi quy tuyến tính, mô hình tuyến tính có một đối tượng, $x_1$, được mô tả bằng phương trình tuyến tính:

$$y = b + w_1x_1$$

Các tính năng bổ sung được xử lý bằng cách thêm các điều khoản \(w_2x_2\), \(w_3x_3\), v.v.

Di chuyển xuống dần sẽ tìm thấy weight $w_1$ (hoặc trọng số) \(w_1\), \(w_2\), \(w_3\)trong trường hợp có tính năng bổ sung) giúp giảm thiểu sự mất mát của mô hình. Tuy nhiên, các điểm dữ liệu đã hiển thị không thể được phân tách bằng một dòng. Tôi có thể làm gì?

Có thể giữ cả phương trình tuyến tính cho phép phi tuyến tính bằng cách định nghĩa một số hạng mới, \(x_2\), có nghĩa là \(x_1\) bình phương:

$$x_2 = x_1^2$$

Tính năng tổng hợp này, được gọi là biến đổi đa thức, được xử lý như bất kỳ tính năng khác. Công thức tuyến tính trước đó trở thành:

$$y = b + w_1x_1 + w_2x_2$$

Điều này vẫn có thể được xử lý như hồi quy tuyến tính và trọng số được xác định thông qua việc giảm độ dốc, như thường lệ, mặc dù chứa số hạng bình phương ẩn là phép biến đổi đa thức. Không thay đổi cách huấn luyện mô hình tuyến tính, việc thêm phép biến đổi đa thức cho phép để tách các điểm dữ liệu bằng cách sử dụng đường cong dạng $y = b + w_1x + w_2x^2$.

Thông thường, đối số quan tâm bằng số được nhân với chính nó, tức là luỹ thừa lên một phần nào đó. Đôi khi, chuyên viên máy học có thể đưa ra phán đoán sáng suốt về số mũ thích hợp. Ví dụ, có nhiều mối quan hệ trong mối quan hệ trên thế giới liên quan đến các số hạng bình phương, bao gồm cả gia tốc do trọng lực, sự suy giảm của ánh sáng hoặc âm thanh ở khoảng cách và năng lượng thế năng đàn hồi.

Một khái niệm có liên quan trong dữ liệu phân loạinhiều tính năng, thường tổng hợp hai tính năng khác nhau.