Hồi quy tuyến tính

Mô-đun này giới thiệu các khái niệm về hồi quy tuyến tính.

Hồi quy tuyến tính là kỹ thuật thống kê được sử dụng để tìm mối quan hệ giữa các biến. Trong học máy hồi quy tuyến tính tìm mối quan hệ giữa tính nănglabel.

Ví dụ: giả sử chúng ta muốn dự đoán hiệu suất nhiên liệu của một chiếc ô tô tính bằng dặm trên mỗi gallon dựa vào trọng lượng của xe và chúng tôi có tập dữ liệu sau:

Bảng trong 1000 giây (tính năng) Dặm trên gallon (nhãn)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Nếu vẽ những điểm này, chúng ta sẽ có đồ thị sau:

Hình 1. Các điểm dữ liệu cho thấy xu hướng đi xuống từ trái sang phải.

Hình 1 Trọng lượng của ô tô (tính bằng pound) so với số dặm trên mỗi gallon (tính bằng pound). Là một thì xe trở nên nặng hơn thì mức xếp hạng số dặm trên mỗi gallon thường giảm.

Chúng ta có thể tạo mô hình của riêng mình bằng cách vẽ một đường phù hợp nhất thông qua các điểm:

Hình 2. Các điểm dữ liệu có đường kẻ phù hợp nhất được vẽ qua các điểm đó để biểu thị mô hình.

Hình 2. Đường phù hợp nhất được vẽ dựa trên dữ liệu của hình trước.

Phương trình hồi quy tuyến tính

Trong đại số, mô hình sẽ được định nghĩa là $ y = mx + b $, trong đó

  • $ y $ là số dặm trên mỗi gallon – giá trị mà chúng ta muốn dự đoán.
  • $ m $ là hệ số góc của đường thẳng.
  • $ x $ là pao – giá trị đầu vào của chúng ta.
  • $ b $ là giao điểm y.

Trong học máy, chúng tôi viết phương trình cho mô hình hồi quy tuyến tính như sau:

$$ y' = b + w_1x_1 $$

trong đó:

  • $ y' $ là nhãn được dự đoán — đầu ra.
  • $ b $ là độ thiên vị của mô hình. Độ lệch là khái niệm tương tự như giao điểm y trong đại số phương trình của một đường thẳng. Trong ML, độ lệch đôi khi được gọi là $ w_0 $. Thiên vị là tham số của mô hình và được tính toán trong quá trình huấn luyện.
  • $ w_1 $ là trọng số của của chúng tôi. Trọng lượng cũng có khái niệm như độ dốc $ m $ trong đại số phương trình của một đường thẳng. Trọng lượng là tham số của mô hình và là được tính trong quá trình huấn luyện.
  • $ x_1 $ là một tính năng— đầu vào.

Trong quá trình huấn luyện, mô hình sẽ tính toán trọng số và độ chệch, đưa ra kết quả mô hình.

Hình 3. Phương trình y' = b + w1x1, với mỗi thành phần được chú thích với mục đích của nó.

Hình 3. Biểu diễn toán học của mô hình tuyến tính.

Trong ví dụ này, chúng ta sẽ tính trọng số và độ chệch từ đường chúng ta đã vẽ. Chiến lược phát hành đĩa đơn độ lệch là 30 (trong đó đường thẳng giao với trục y) và trọng số là -3,6 (giá trị hệ số góc của đường thẳng). Mô hình sẽ được định nghĩa là $ y' = 30 + (-3, 6)(x_1) $ và chúng tôi có thể dựa vào đó để đưa ra dự đoán. Ví dụ: khi sử dụng mô hình này, một Chiếc xe 4.000 pound sẽ có hiệu suất nhiên liệu dự đoán là 15,6 dặm mỗi lần gallon.

Hình 4. Tương tự đồ thị như Hình 2, với điểm (4, 15.6) được làm nổi bật.

Hình 4. Bằng cách sử dụng mô hình này, một chiếc xe nặng 4.000 pound có dự đoán hiệu suất nhiên liệu 15,6 dặm/gallon.

Mô hình có nhiều tính năng

Mặc dù ví dụ trong phần này chỉ sử dụng một tính năng—mức độ nặng của chiếc xe—một mô hình tinh vi hơn có thể dựa vào nhiều tính năng, mỗi cái có trọng số riêng ($ w_1 $, $ w_2 $, v.v.). Ví dụ: một mô hình dựa vào năm tính năng sẽ được viết như sau:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Ví dụ: một mô hình dự đoán mức tiêu thụ nhiên liệu có thể sử dụng thêm các tính năng chẳng hạn như:

  • Dung tích xi lanh của động cơ
  • Gia tốc
  • Số lượng xi lanh
  • Mã lực

Mô hình này sẽ được viết như sau:

Hình 5. Phương trình hồi quy tuyến tính với năm tính năng.

Hình 5. Mô hình có 5 tính năng giúp dự đoán số dặm trên mỗi gallon của một chiếc ô tô xếp hạng.

Bằng cách vẽ biểu đồ trong số những tính năng bổ sung này, chúng ta có thể thấy rằng chúng cũng có mối quan hệ tuyến tính với nhãn, dặm trên gallon:

Hình 6. Độ dịch chuyển tính bằng centimet khối được lập biểu đồ theo số dặm trên gallon thể hiện mối quan hệ tuyến tính âm.

Hình 6. Dung tích của một chiếc ô tô tính bằng centimet khối và số dặm trên mỗi gallon xếp hạng. Khi động cơ ô tô trở nên lớn hơn, mức xếp hạng số dặm trên mỗi gallon thường sẽ là giảm xuống.

Hình 7. Gia tốc từ 0 đến 60 giây trong biểu đồ so với số dặm trên gallon cho thấy mối quan hệ tuyến tính tích cực.

Hình 7. Gia tốc của ô tô và điểm xếp hạng số dặm trên mỗi gallon của ô tô. Như xe ô tô mất nhiều thời gian hơn, thì mức phân loại số dặm trên mỗi gallon thường tăng lên.

Hình 8. Mã lực được lập biểu đồ theo số dặm trên gallon thể hiện mối quan hệ tuyến tính âm.

Hình 8. Mã lực của ô tô và định mức số dặm trên mỗi gallon. Như xe ô tô mã lực tăng lên, thì định mức số dặm trên mỗi gallon thường giảm.

Bài tập: Kiểm tra kiến thức

Những phần nào của phương trình hồi quy tuyến tính được cập nhật trong quá trình huấn luyện?
Độ lệch và trọng số
Trong quá trình huấn luyện, mô hình này sẽ cập nhật độ lệch và trọng lượng dựa trên tổn thất.
Gợi ý
Thông tin dự đoán không được cập nhật trong quá trình huấn luyện.
Các giá trị của tính năng
Các giá trị của đối tượng là một phần của tập dữ liệu nên chúng sẽ không được cập nhật trong quá trình huấn luyện.