Hồi quy tuyến tính

Mô-đun này giới thiệu các khái niệm về hồi quy tuyến tính.

Phương pháp hồi quy tuyến tính là một kỹ thuật thống kê dùng để tìm mối quan hệ giữa các biến. Trong ngữ cảnh học máy, hồi quy tuyến tính tìm mối quan hệ giữa các đặc điểmnhãn.

Ví dụ: giả sử chúng ta muốn dự đoán mức tiết kiệm nhiên liệu của một chiếc ô tô tính theo dặm trên gallon dựa trên trọng lượng của chiếc ô tô và chúng ta có tập dữ liệu sau:

1.000 bảng Anh (tính năng) Dặm trên galông (nhãn)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4.42 14
2,37 24

Nếu lập biểu đồ các điểm này, chúng ta sẽ có biểu đồ sau:

Hình 1. Các điểm dữ liệu cho thấy xu hướng giảm dần từ trái sang phải.

Hình 1 Trọng lượng của xe (tính bằng pound) so với mức xếp hạng dặm/gallon. Khi một ô tô nặng hơn, mức tiêu thụ nhiên liệu (dặm/gallon) thường giảm.

Chúng ta có thể tạo mô hình của riêng mình bằng cách vẽ một đường phù hợp nhất qua các điểm:

Hình 2. Các điểm dữ liệu có đường phù hợp nhất được vẽ qua các điểm đó đại diện cho mô hình.

Hình 2. Đường phù hợp nhất được vẽ qua dữ liệu trong hình trước.

Phương trình hồi quy tuyến tính

Về mặt đại số, mô hình này được xác định là $ y = mx + b $, trong đó

  • $ y $ là số dặm trên gallon – giá trị mà chúng ta muốn dự đoán.
  • $ m $ là độ dốc của đường thẳng.
  • $ x $ là bảng Anh – giá trị đầu vào của chúng ta.
  • $ b $ là tung độ gốc.

Trong học máy, chúng ta viết phương trình cho mô hình hồi quy tuyến tính như sau:

$$ y' = b + w_1x_1 $$

trong đó:

  • $ y' $ là nhãn được dự đoán – kết quả.
  • $ b $ là sai số của mô hình. Độ lệch cũng là một khái niệm tương tự như giá trị y-intercept trong phương trình đại số của một đường thẳng. Trong học máy, độ lệch đôi khi được gọi là $ w_0 $. Độ lệch là một tham số của mô hình và được tính toán trong quá trình huấn luyện.
  • $ w_1 $ là trọng số của tính năng. Trọng số là khái niệm tương tự như độ dốc $ m $ trong phương trình đại số cho một đường thẳng. Trọng số là một tham số của mô hình và được tính toán trong quá trình huấn luyện.
  • $ x_1 $ là một tính năng – dữ liệu đầu vào.

Trong quá trình huấn luyện, mô hình sẽ tính toán trọng số và độ lệch để tạo ra mô hình tốt nhất.

Hình 3. Phương trình y' = b + w1x1, trong đó mỗi thành phần được chú thích bằng mục đích của thành phần đó.

Hình 3. Biểu diễn toán học của mô hình tuyến tính.

Trong ví dụ này, chúng ta sẽ tính trọng số và độ lệch từ đường kẻ đã vẽ. Độ nghiêng là 30 (nơi đường này giao với trục y) và trọng số là -3,6 (độ dốc của đường). Mô hình này được xác định là $ y' = 30 + (-3.6)(x_1) $ và chúng ta có thể sử dụng mô hình này để đưa ra dự đoán. Ví dụ: khi sử dụng mô hình này, một chiếc ô tô nặng 4.000 pound sẽ có mức tiết kiệm nhiên liệu dự đoán là 15,6 dặm/gallon.

Hình 4. Biểu đồ giống như Hình 2, trong đó điểm (4, 15,6) được làm nổi bật.

Hình 4. Khi sử dụng mô hình này, một chiếc xe nặng 4.000 pound có mức tiết kiệm nhiên liệu dự đoán là 15,6 dặm/gallon.

Mô hình có nhiều tính năng

Mặc dù ví dụ trong phần này chỉ sử dụng một tính năng (trọng lượng của ô tô), nhưng một mô hình phức tạp hơn có thể dựa vào nhiều tính năng, mỗi tính năng có một trọng số riêng ($ w_1 $, $ w_2 $, v.v.). Ví dụ: một mô hình dựa trên 5 đặc điểm sẽ được viết như sau:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Ví dụ: một mô hình dự đoán quãng đường đi được của xe có thể sử dụng thêm các tính năng như sau:

  • Dung tích động cơ
  • Gia tốc
  • Số lượng xi lanh
  • Mã lực

Mô hình này sẽ được viết như sau:

Hình 5. Phương trình hồi quy tuyến tính có 5 đặc điểm.

Hình 5. Một mô hình có 5 đặc điểm để dự đoán mức tiết kiệm nhiên liệu (dặm/gallon) của một chiếc xe.

Bằng cách lập biểu đồ một số tính năng bổ sung này, chúng ta có thể thấy rằng các tính năng này cũng có mối quan hệ tuyến tính với nhãn dặm trên gallon:

Hình 6. Dung tích xi lanh tính bằng cm khối được biểu đồ hoá theo dặm trên gallon cho thấy mối quan hệ tuyến tính âm.

Hình 6. Dung tích xi lanh của ô tô tính bằng cm khối và mức tiêu thụ nhiên liệu tính bằng dặm/gallon. Khi động cơ của ô tô lớn hơn, mức xếp hạng số dặm trên mỗi gallon thường giảm.

Hình 7. Gia tốc từ 0 đến 60 trong giây được biểu đồ theo dặm trên gallon cho thấy mối quan hệ tuyến tính dương.

Hình 7. Gia tốc của ô tô và mức tiêu thụ nhiên liệu (dặm/gallon). Khi xe tăng tốc mất nhiều thời gian hơn, điểm xếp hạng về số dặm trên mỗi gallon thường tăng lên.

Hình 8. Biểu đồ công suất so với số dặm trên mỗi gallon cho thấy mối quan hệ tuyến tính âm.

Hình 8. Mã lực của ô tô và mức tiêu thụ nhiên liệu tính theo dặm/gallon. Khi công suất của ô tô tăng lên, mức xếp hạng số dặm trên mỗi gallon thường giảm.

Bài tập: Kiểm tra mức độ hiểu bài

Những phần nào của phương trình hồi quy tuyến tính được cập nhật trong quá trình huấn luyện?
Độ lệch và trọng số
Trong quá trình huấn luyện, mô hình sẽ cập nhật độ lệch và trọng số.
Kết quả dự đoán
Dự đoán không được cập nhật trong quá trình huấn luyện.
Giá trị của đặc điểm
Giá trị đặc điểm là một phần của tập dữ liệu, vì vậy, các giá trị này sẽ không được cập nhật trong quá trình huấn luyện.