Dữ liệu số: Kết hợp

Kết hợp (còn gọi là phân giỏ) là một kỹ thuật trích xuất tính năng kỹ thuật nhóm các nhóm số con khác nhau vào các thùng hoặc bộ chứa. Trong nhiều trường hợp, tính năng kết hợp sẽ biến dữ liệu số thành dữ liệu phân loại. Ví dụ: hãy cân nhắc một tính năng có tên X có giá trị thấp nhất là 15 và giá trị cao nhất là 425. Bằng cách sử dụng tính năng kết hợp, bạn có thể biểu thị X bằng năm thùng sau:

  • Thùng 1: từ 15 đến 34
  • Thùng 2: 35 đến 117
  • Thùng 3: 118 đến 279
  • Thùng 4: 280 đến 392
  • Thùng 5: 393 đến 425

Thùng 1 kéo dài trong khoảng từ 15 đến 34, vì vậy, mọi giá trị của X từ 15 đến 34 kết thúc vào Thùng 1. Một mô hình được huấn luyện trên những thùng rác này sẽ phản ứng không khác gì vào các giá trị X là 17 và 29 vì cả hai giá trị đều nằm trong Thùng 1.

Vectơ tính năng biểu thị 5 thùng như sau:

Số thùngPhạm viVectơ đối tượng
1 15-34 [1.0, 0.0, 0.0, 0.0, 0.0]
2 35-117 [0,0, 1,0, 0,0, 0,0, 0,0]
3 118-279 [0,0, 0,0, 1,0, 0,0, 0,0]
4 280-392 [0,0, 0,0, 0,0, 1,0, 0,0]
5 393-425 [0,0, 0,0, 0,0, 0,0, 1,0]

Mặc dù X là một cột duy nhất trong tập dữ liệu, nhưng việc gộp nhóm sẽ khiến mô hình để coi X5 tính năng riêng biệt. Do đó, mô hình này sẽ học trọng lượng riêng cho mỗi thùng.

Kết hợp chặt chẽ là một giải pháp thay thế phù hợp cho việc điều chỉnh theo tỷ lệ hoặc cắt đoạn khi một trong hai các điều kiện sau:

  • Mối quan hệ tuyến tính tổng thể giữa tính năng và nhãn yếu hoặc không tồn tại.
  • Khi các giá trị tính năng được nhóm lại.

Việc kết hợp có thể gây khác thường vì mô hình trong ví dụ trước xử lý các giá trị 37 và 115 giống nhau. Nhưng khi một đối tượng có vẻ nóng hổi hơn so với đường thẳng, kết hợp là một cách tốt hơn nhiều để biểu thị dữ liệu.

Ví dụ về kết hợp: số lượng người mua sắm so với nhiệt độ

Giả sử bạn đang tạo một mô hình dự đoán số lượng người mua sắm theo nhiệt độ bên ngoài vào ngày đó. Sau đây là cốt truyện của so với số lượng người mua sắm:

Hình 9. Một biểu đồ tán xạ 45 điểm. 45 điểm tự nhiên
            thành 3 nhóm.
Hình 9. Một biểu đồ tán xạ 45 điểm.

Không có gì ngạc nhiên khi cốt truyện này cho thấy rằng số lượng người mua sắm đạt mức cao nhất khi nhiệt độ dễ chịu nhất.

Bạn có thể biểu thị đối tượng dưới dạng giá trị thô: nhiệt độ 35,0 ở tập dữ liệu sẽ là 35.0 trong vectơ đối tượng. Đó có phải là ý tưởng hay nhất không?

Trong quá trình huấn luyện, mô hình hồi quy tuyến tính sẽ học một trọng số duy nhất cho mỗi của chúng tôi. Do đó, nếu nhiệt độ được biểu thị dưới dạng một đối tượng đơn lẻ, thì ở nhiệt độ 35,0 sẽ có mức ảnh hưởng gấp 5 lần (hoặc 1/5 ảnh hưởng lớn nhất) trong thông tin dự đoán khi nhiệt độ là 7,0. Tuy nhiên, cốt truyện không thực sự chỉ ra bất kỳ mối quan hệ tuyến tính nào giữa nhãn và giá trị tính năng.

Biểu đồ đề xuất 3 cụm trong các dải con sau:

  • Thùng 1 là khoảng nhiệt độ 4-11.
  • Thùng 2 là khoảng nhiệt độ 12-26.
  • Thùng 3 là khoảng nhiệt độ 27-36.
Hình 10. Cùng một biểu đồ tán xạ 45 điểm như trước đó
            nhưng có các đường thẳng đứng để làm cho thùng rác rõ ràng hơn.
Hình 10. Biểu đồ tán xạ được chia thành 3 thùng.

Mô hình này sẽ học các trọng số riêng biệt cho từng thùng.

Mặc dù có thể tạo nhiều hơn ba thùng, thậm chí là một thùng riêng cho mỗi chỉ số nhiệt độ, đây thường là một ý tưởng không hay vì những lý do sau:

  • Mô hình chỉ có thể học mối liên kết giữa một thùng và nhãn nếu có có đủ ví dụ trong thùng đó. Trong ví dụ đã cho, mỗi thùng trong số 3 thùng chứa ít nhất 10 ví dụ, có thể đủ để huấn luyện. Với 33 thùng riêng biệt, sẽ không có thùng nào chứa đủ ví dụ để mô hình huấn luyện.
  • Một thùng riêng cho từng nhiệt độ sẽ dẫn đến 33 tính năng điều chỉnh nhiệt độ riêng biệt. Tuy nhiên, thông thường, bạn nên giảm thiểu số lượng tính năng trong một mô hình.

Bài tập: Kiểm tra kiến thức

Biểu đồ sau đây thể hiện giá nhà trung bình theo mỗi 0,2 độ vĩ độ của quốc gia Freedonia trong thần thoại:

Hình 11. Biểu đồ giá trị nhà theo vĩ độ. Ngôi nhà thấp nhất
            giá trị cao nhất là khoảng 327 và giá trị cao nhất là 712. Vĩ độ trải rộng 41,0
            là 44,8, với một dấu chấm thể hiện giá trị căn nhà trung bình cho mỗi
            0,2 độ vĩ độ. Mẫu này rất không đều, nhưng với
            Hai cụm riêng biệt (một cụm giữa vĩ độ 41,0 và 41,8,
            và một cụm khác nằm giữa vĩ độ 42,6 và 43,4).
Hình 11. Giá trị nhà trung vị trên vĩ độ 0,2 độ.

Hình ảnh cho thấy một mẫu phi tuyến tính giữa giá trị nhà và vĩ độ, vì vậy, việc biểu diễn vĩ độ dưới dạng giá trị dấu phẩy động của nó sẽ không thể giúp ích cho một mô hình đưa ra các dự đoán khả thi. Vĩ độ phân tán có lẽ sẽ tốt hơn ý tưởng?

Chiến lược phân giỏ hàng hợp nhất là gì?
Đừng phân giỏ.
Với tính ngẫu nhiên của phần lớn cốt truyện, đây có thể là chiến lược tốt nhất.
Tạo bốn nhóm:
  • 41,0 đến 41,8
  • 42,0 đến 42,6
  • 42,8 đến 43,4
  • 43,6 đến 44,8
Một mô hình sẽ rất khó để tìm ra một trọng số dự đoán duy nhất cho tất cả các ngôi nhà trong thùng thứ hai hoặc thùng thứ tư, chứa vài ví dụ.
Đặt mỗi điểm dữ liệu thành một nhóm riêng.
Điều này sẽ chỉ hữu ích nếu tập huấn luyện chứa đủ ví dụ cho mỗi vĩ độ 0,2 độ. Nhìn chung, nhà riêng có xu hướng tập trung gần các thành phố và tương đối khan hiếm ở địa điểm.

Nhóm phân vị

Phân giỏ theo nhóm tạo ra các ranh giới phân giỏ sao cho số ví dụ trong mỗi nhóm chính xác hoặc gần bằng nhau. Phân giỏ phân vị hầu như che giấu những điểm ngoại lai.

Để minh hoạ vấn đề giải quyết bộ chứa phân vị, hãy xem xét các nhóm có cách đều nhau như minh hoạ trong hình sau, trong đó mỗi nhóm trên 10 thùng tương ứng với chính xác 10.000 đô la. Lưu ý rằng nhóm từ 0 đến 10.000 chứa hàng tá ví dụ nhưng nhóm từ 50.000 đến 60.000 chỉ chứa 5 ví dụ. Do đó, mô hình này có đủ số ví dụ để huấn luyện từ 0 đến 10.000 nhưng không đủ ví dụ để huấn luyện cho nhóm 50.000 đến 60.000.

Hình 13. Biểu đồ giá ô tô so với số lượng xe bán tại
            mức giá đó. Số lượng xe bán ra cao điểm có giá 6.000 chiếc.
            Trên mức giá 6.000 chiếc, số lượng xe bán ra thường là
            thì rất ít xe có giá bán từ 40.000 đến
            60.000. Đề tài được chia thành 6 nhóm có kích thước bằng nhau, mỗi nhóm có
            phạm vi 10.000. Như vậy, nhóm đầu tiên chứa tất cả những chiếc xe đã bán
            có giá từ 0 đến giá 10.000, lần thứ hai
            thùng chứa tất cả những chiếc xe được bán có giá từ 10.001 đến
            20.000, v.v. Nhóm đầu tiên chứa nhiều ví dụ; mỗi
            nhóm tiếp theo chứa ít ví dụ hơn.
Hình 13. Một số thùng chứa rất nhiều ô tô; những nhóm khác chứa có rất ít xe ô tô.

Ngược lại, hình sau đây sử dụng bộ chứa số phân vị để chia giá ô tô vào các thùng với cùng số lượng ví dụ trong mỗi nhóm. Lưu ý rằng một số mức giá có giới hạn giá thấp trong khi các mức giá khác bao gồm khoảng giá rất rộng.

Hình 14. Giống như hình trước, ngoại trừ các bộ chứa số phân vị.
            Tức là các bộ chứa hiện có nhiều kích thước. Bộ chứa đầu tiên
            chứa những chiếc xe được bán từ 0 đến 4.000, thùng thứ hai chứa
            những chiếc xe được bán từ 4.001 đến 6.000. Nhóm thứ sáu chứa
            xe bán từ 25.001 đến 60.000. Số xe trong mỗi nhóm
            bây giờ không thay đổi.
Hình 14. Phân nhóm quan hệ cho mỗi nhóm như nhau số lượng xe.