Dữ liệu số: Cách mô hình nhập dữ liệu bằng vectơ đặc điểm

Cho đến bây giờ, chúng ta đã tạo cho bạn ấn tượng rằng một mô hình hoạt động trực tiếp trên hàng của tập dữ liệu; tuy nhiên, các mô hình thực sự nhập dữ liệu hơi khác.

Ví dụ: giả sử một tập dữ liệu cung cấp 5 cột, nhưng chỉ có 2 cột trong số đó cột (bd) là các đối tượng trong mô hình. Khi xử lý ví dụ ở hàng 3, mô hình có chỉ đơn giản là lấy nội dung của đánh dấu hai ô (3b và 3d) như sau?

Hình 1. Mô hình nhập ví dụ trực tiếp từ một tập dữ liệu.
            Các cột b và d của Hàng 3 được đánh dấu.
Hình 1. Không hẳn là cách mô hình lấy ví dụ.

Trên thực tế, mô hình này thực sự nhập một mảng các giá trị dấu phẩy động được gọi là vectơ đối tượng. Bạn có thể suy nghĩ của một vectơ đặc trưng làm giá trị dấu phẩy động bao gồm một ví dụ.

Hình 2. Vectơ đặc trưng là trung gian giữa tập dữ liệu
            và mô hình.
Hình 2. Gần đúng với sự thật hơn nhưng không thực tế.

Tuy nhiên, vectơ đặc điểm hiếm khi sử dụng giá trị thô của tập dữ liệu. Thay vào đó, bạn thường phải xử lý giá trị của tập dữ liệu thành các biểu diễn mà mô hình của bạn có thể học hỏi tốt hơn. Vì vậy, thực tế hơn vectơ đối tượng có thể có dạng như sau:

Hình 3. Vectơ đối tượng chứa hai giá trị dấu phẩy động:
            0,13 và 0,47. Vectơ đối tượng thực tế hơn.
Hình 3. Vectơ đối tượng thực tế hơn.

Một mô hình không đưa ra dự đoán tốt hơn bằng cách huấn luyện từ các giá trị thực tế trong tập dữ liệu so với các giá trị đã thay đổi? Điều đáng ngạc nhiên là câu trả lời là không.

Bạn phải xác định cách tốt nhất để trình bày giá trị tập dữ liệu thô dưới dạng có thể huấn luyện trong vectơ đối tượng. Quá trình này được gọi là kỹ thuật trích xuất tính chất, và là một phần thiết yếu trong công nghệ học máy. Sau đây là những kỹ thuật kỹ thuật trích xuất tính chất phổ biến nhất:

Bài này bao gồm việc chuẩn hoá và kết hợp dữ liệu. Bài tiếp theo, Làm việc với dữ liệu phân loại, đề cập đến các hình thức khác xử lý trước, chẳng hạn như chuyển đổi dữ liệu không phải số, như chuỗi, thành các giá trị dấu phẩy động.

Mọi giá trị trong vectơ đối tượng phải là giá trị dấu phẩy động. Tuy nhiên, nhiều các đối tượng là các chuỗi tự nhiên hoặc các giá trị không phải số khác. Do đó, một phần lớn của kỹ thuật đối tượng đang biểu diễn các giá trị không phải số như giá trị số. Bạn sẽ thấy rất nhiều nội dung như vậy trong các mô-đun sau.