Cho đến bây giờ, chúng ta đã tạo cho bạn ấn tượng rằng một mô hình hoạt động trực tiếp trên hàng của tập dữ liệu; tuy nhiên, các mô hình thực sự nhập dữ liệu hơi khác.
Ví dụ: giả sử một tập dữ liệu cung cấp 5 cột, nhưng chỉ có 2 cột trong số đó
cột (b
và d
) là các đối tượng trong mô hình. Khi xử lý
ví dụ ở hàng 3, mô hình có chỉ đơn giản là lấy nội dung của
đánh dấu hai ô (3b và 3d) như sau?
Trên thực tế, mô hình này thực sự nhập một mảng các giá trị dấu phẩy động được gọi là vectơ đối tượng. Bạn có thể suy nghĩ của một vectơ đặc trưng làm giá trị dấu phẩy động bao gồm một ví dụ.
Tuy nhiên, vectơ đặc điểm hiếm khi sử dụng giá trị thô của tập dữ liệu. Thay vào đó, bạn thường phải xử lý giá trị của tập dữ liệu thành các biểu diễn mà mô hình của bạn có thể học hỏi tốt hơn. Vì vậy, thực tế hơn vectơ đối tượng có thể có dạng như sau:
Một mô hình không đưa ra dự đoán tốt hơn bằng cách huấn luyện từ các giá trị thực tế trong tập dữ liệu so với các giá trị đã thay đổi? Điều đáng ngạc nhiên là câu trả lời là không.
Bạn phải xác định cách tốt nhất để trình bày giá trị tập dữ liệu thô dưới dạng có thể huấn luyện trong vectơ đối tượng. Quá trình này được gọi là kỹ thuật trích xuất tính chất, và là một phần thiết yếu trong công nghệ học máy. Sau đây là những kỹ thuật kỹ thuật trích xuất tính chất phổ biến nhất:
- Chuẩn hoá: Đang chuyển đổi vào một dải ô chuẩn.
- Kết hợp (còn gọi là phân giỏ hàng): Chuyển đổi số giá trị vào các nhóm phạm vi.
Bài này bao gồm việc chuẩn hoá và kết hợp dữ liệu. Bài tiếp theo, Làm việc với dữ liệu phân loại, đề cập đến các hình thức khác xử lý trước, chẳng hạn như chuyển đổi dữ liệu không phải số, như chuỗi, thành các giá trị dấu phẩy động.
Mọi giá trị trong vectơ đối tượng phải là giá trị dấu phẩy động. Tuy nhiên, nhiều các đối tượng là các chuỗi tự nhiên hoặc các giá trị không phải số khác. Do đó, một phần lớn của kỹ thuật đối tượng đang biểu diễn các giá trị không phải số như giá trị số. Bạn sẽ thấy rất nhiều nội dung như vậy trong các mô-đun sau.