Cho đến nay, chúng tôi đã cho bạn thấy ấn tượng rằng mô hình hoạt động trực tiếp trên các hàng của một tập dữ liệu; tuy nhiên, mô hình thực sự nhập dữ liệu theo cách khác.
Ví dụ: giả sử một tập dữ liệu cung cấp 5 cột, nhưng chỉ có 2 trong số đó (b
và d
) là các đặc điểm trong mô hình. Khi xử lý ví dụ ở hàng 3, mô hình có chỉ lấy nội dung của hai ô được đánh dấu (3b và 3d) như sau không?
Trên thực tế, mô hình này thực sự nhập một mảng các giá trị dấu phẩy động được gọi là vectơ đặc điểm. Bạn có thể coi vectơ đặc điểm là các giá trị dấu phẩy động bao gồm một ví dụ.
Tuy nhiên, vectơ đặc điểm hiếm khi sử dụng giá trị thô của tập dữ liệu. Thay vào đó, bạn thường phải xử lý các giá trị của tập dữ liệu thành các giá trị đại diện mà mô hình của bạn có thể học hỏi hiệu quả hơn. Vì vậy, một vectơ đặc điểm thực tế hơn có thể có dạng như sau:
Phải chăng mô hình sẽ đưa ra kết quả dự đoán chính xác hơn bằng cách huấn luyện từ các giá trị thực tế trong tập dữ liệu so với các giá trị đã thay đổi? Đáng ngạc nhiên là câu trả lời là không.
Bạn phải xác định cách tốt nhất để biểu thị các giá trị tập dữ liệu thô dưới dạng giá trị có thể huấn luyện trong vectơ đặc điểm. Quá trình này được gọi là công nghệ xử lý đặc điểm và là một phần quan trọng của công nghệ học máy. Các kỹ thuật kỹ thuật tính năng phổ biến nhất là:
- Chuẩn hoá: Chuyển đổi giá trị số thành một dải chuẩn.
- Nhóm (còn gọi là nhóm): Chuyển đổi các giá trị số thành các nhóm dải ô.
Bài này trình bày về việc chuẩn hoá và gộp. Bài tiếp theo, Xử lý dữ liệu dạng danh mục, sẽ đề cập đến các hình thức xử lý trước khác, chẳng hạn như chuyển đổi dữ liệu không phải số (như chuỗi) thành giá trị dấu phẩy động.
Mọi giá trị trong một vectơ đặc điểm phải là giá trị dấu phẩy động. Tuy nhiên, nhiều tính năng vốn là chuỗi hoặc các giá trị không phải số khác. Do đó, phần lớn quá trình kỹ thuật tính năng là biểu thị các giá trị không phải số dưới dạng giá trị số. Bạn sẽ thấy nhiều nội dung này trong các mô-đun sau.