Mô-đun này giới thiệu các khái niệm về hồi quy tuyến tính.
Phương pháp hồi quy tuyến tính là một kỹ thuật thống kê dùng để tìm mối quan hệ giữa các biến. Trong ngữ cảnh học máy, hồi quy tuyến tính tìm mối quan hệ giữa các đặc điểm và nhãn.
Ví dụ: giả sử chúng ta muốn dự đoán mức tiết kiệm nhiên liệu của một chiếc ô tô tính theo dặm trên gallon dựa trên trọng lượng của chiếc ô tô và chúng ta có tập dữ liệu sau:
1.000 bảng Anh (tính năng) | Dặm trên galông (nhãn) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4.42 | 14 |
2,37 | 24 |
Nếu lập biểu đồ các điểm này, chúng ta sẽ có biểu đồ sau:
Hình 1 Trọng lượng của xe (tính bằng pound) so với mức xếp hạng dặm/gallon. Khi một ô tô nặng hơn, mức tiêu thụ nhiên liệu (dặm/gallon) thường giảm.
Chúng ta có thể tạo mô hình của riêng mình bằng cách vẽ một đường phù hợp nhất qua các điểm:
Hình 2. Đường phù hợp nhất được vẽ qua dữ liệu trong hình trước.
Phương trình hồi quy tuyến tính
Về mặt đại số, mô hình này được xác định là $ y = mx + b $, trong đó
- $ y $ là số dặm trên gallon – giá trị mà chúng ta muốn dự đoán.
- $ m $ là độ dốc của đường thẳng.
- $ x $ là bảng Anh – giá trị đầu vào của chúng ta.
- $ b $ là tung độ gốc.
Trong học máy, chúng ta viết phương trình cho mô hình hồi quy tuyến tính như sau:
trong đó:
- $ y' $ là nhãn được dự đoán – kết quả.
- $ b $ là sai số của mô hình. Độ lệch cũng là một khái niệm tương tự như giá trị y-intercept trong phương trình đại số của một đường thẳng. Trong học máy, độ lệch đôi khi được gọi là $ w_0 $. Độ lệch là một tham số của mô hình và được tính toán trong quá trình huấn luyện.
- $ w_1 $ là trọng số của tính năng. Trọng số là khái niệm tương tự như độ dốc $ m $ trong phương trình đại số cho một đường thẳng. Trọng số là một tham số của mô hình và được tính toán trong quá trình huấn luyện.
- $ x_1 $ là một tính năng – dữ liệu đầu vào.
Trong quá trình huấn luyện, mô hình sẽ tính toán trọng số và độ lệch để tạo ra mô hình tốt nhất.
Hình 3. Biểu diễn toán học của mô hình tuyến tính.
Trong ví dụ này, chúng ta sẽ tính trọng số và độ lệch từ đường kẻ đã vẽ. Độ nghiêng là 30 (nơi đường này giao với trục y) và trọng số là -3,6 (độ dốc của đường). Mô hình này được xác định là $ y' = 30 + (-3.6)(x_1) $ và chúng ta có thể sử dụng mô hình này để đưa ra dự đoán. Ví dụ: khi sử dụng mô hình này, một chiếc ô tô nặng 4.000 pound sẽ có mức tiết kiệm nhiên liệu dự đoán là 15,6 dặm/gallon.
Hình 4. Khi sử dụng mô hình này, một chiếc xe nặng 4.000 pound có mức tiết kiệm nhiên liệu dự đoán là 15,6 dặm/gallon.
Mô hình có nhiều tính năng
Mặc dù ví dụ trong phần này chỉ sử dụng một tính năng (trọng lượng của ô tô), nhưng một mô hình phức tạp hơn có thể dựa vào nhiều tính năng, mỗi tính năng có một trọng số riêng ($ w_1 $, $ w_2 $, v.v.). Ví dụ: một mô hình dựa trên 5 đặc điểm sẽ được viết như sau:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Ví dụ: một mô hình dự đoán quãng đường đi được của xe có thể sử dụng thêm các tính năng như sau:
- Dung tích động cơ
- Gia tốc
- Số lượng xi lanh
- Mã lực
Mô hình này sẽ được viết như sau:
Hình 5. Một mô hình có 5 đặc điểm để dự đoán mức tiết kiệm nhiên liệu (dặm/gallon) của một chiếc xe.
Bằng cách lập biểu đồ một số tính năng bổ sung này, chúng ta có thể thấy rằng các tính năng này cũng có mối quan hệ tuyến tính với nhãn dặm trên gallon:
Hình 6. Dung tích xi lanh của ô tô tính bằng cm khối và mức tiêu thụ nhiên liệu tính bằng dặm/gallon. Khi động cơ của ô tô lớn hơn, mức xếp hạng số dặm trên mỗi gallon thường giảm.
Hình 7. Gia tốc của ô tô và mức tiêu thụ nhiên liệu (dặm/gallon). Khi xe tăng tốc mất nhiều thời gian hơn, điểm xếp hạng về số dặm trên mỗi gallon thường tăng lên.
Hình 8. Mã lực của ô tô và mức tiêu thụ nhiên liệu tính theo dặm/gallon. Khi công suất của ô tô tăng lên, mức xếp hạng số dặm trên mỗi gallon thường giảm.