Mô-đun này giới thiệu các khái niệm về hồi quy tuyến tính.
Hồi quy tuyến tính là kỹ thuật thống kê được sử dụng để tìm mối quan hệ giữa các biến. Trong học máy hồi quy tuyến tính tìm mối quan hệ giữa tính năng và label.
Ví dụ: giả sử chúng ta muốn dự đoán hiệu suất nhiên liệu của một chiếc ô tô tính bằng dặm trên mỗi gallon dựa vào trọng lượng của xe và chúng tôi có tập dữ liệu sau:
Bảng trong 1000 giây (tính năng) | Dặm trên gallon (nhãn) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4,42 | 14 |
2,37 | 24 |
Nếu vẽ những điểm này, chúng ta sẽ có đồ thị sau:
Hình 1 Trọng lượng của ô tô (tính bằng pound) so với số dặm trên mỗi gallon (tính bằng pound). Là một thì xe trở nên nặng hơn thì mức xếp hạng số dặm trên mỗi gallon thường giảm.
Chúng ta có thể tạo mô hình của riêng mình bằng cách vẽ một đường phù hợp nhất thông qua các điểm:
Hình 2. Đường phù hợp nhất được vẽ dựa trên dữ liệu của hình trước.
Phương trình hồi quy tuyến tính
Trong đại số, mô hình sẽ được định nghĩa là $ y = mx + b $, trong đó
- $ y $ là số dặm trên mỗi gallon – giá trị mà chúng ta muốn dự đoán.
- $ m $ là hệ số góc của đường thẳng.
- $ x $ là pao – giá trị đầu vào của chúng ta.
- $ b $ là giao điểm y.
Trong học máy, chúng tôi viết phương trình cho mô hình hồi quy tuyến tính như sau:
trong đó:
- $ y' $ là nhãn được dự đoán — đầu ra.
- $ b $ là độ thiên vị của mô hình. Độ lệch là khái niệm tương tự như giao điểm y trong đại số phương trình của một đường thẳng. Trong ML, độ lệch đôi khi được gọi là $ w_0 $. Thiên vị là tham số của mô hình và được tính toán trong quá trình huấn luyện.
- $ w_1 $ là trọng số của của chúng tôi. Trọng lượng cũng có khái niệm như độ dốc $ m $ trong đại số phương trình của một đường thẳng. Trọng lượng là tham số của mô hình và là được tính trong quá trình huấn luyện.
- $ x_1 $ là một tính năng— đầu vào.
Trong quá trình huấn luyện, mô hình sẽ tính toán trọng số và độ chệch, đưa ra kết quả mô hình.
Hình 3. Biểu diễn toán học của mô hình tuyến tính.
Trong ví dụ này, chúng ta sẽ tính trọng số và độ chệch từ đường chúng ta đã vẽ. Chiến lược phát hành đĩa đơn độ lệch là 30 (trong đó đường thẳng giao với trục y) và trọng số là -3,6 (giá trị hệ số góc của đường thẳng). Mô hình sẽ được định nghĩa là $ y' = 30 + (-3, 6)(x_1) $ và chúng tôi có thể dựa vào đó để đưa ra dự đoán. Ví dụ: khi sử dụng mô hình này, một Chiếc xe 4.000 pound sẽ có hiệu suất nhiên liệu dự đoán là 15,6 dặm mỗi lần gallon.
Hình 4. Bằng cách sử dụng mô hình này, một chiếc xe nặng 4.000 pound có dự đoán hiệu suất nhiên liệu 15,6 dặm/gallon.
Mô hình có nhiều tính năng
Mặc dù ví dụ trong phần này chỉ sử dụng một tính năng—mức độ nặng của chiếc xe—một mô hình tinh vi hơn có thể dựa vào nhiều tính năng, mỗi cái có trọng số riêng ($ w_1 $, $ w_2 $, v.v.). Ví dụ: một mô hình dựa vào năm tính năng sẽ được viết như sau:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Ví dụ: một mô hình dự đoán mức tiêu thụ nhiên liệu có thể sử dụng thêm các tính năng chẳng hạn như:
- Dung tích xi lanh của động cơ
- Gia tốc
- Số lượng xi lanh
- Mã lực
Mô hình này sẽ được viết như sau:
Hình 5. Mô hình có 5 tính năng giúp dự đoán số dặm trên mỗi gallon của một chiếc ô tô xếp hạng.
Bằng cách vẽ biểu đồ trong số những tính năng bổ sung này, chúng ta có thể thấy rằng chúng cũng có mối quan hệ tuyến tính với nhãn, dặm trên gallon:
Hình 6. Dung tích của một chiếc ô tô tính bằng centimet khối và số dặm trên mỗi gallon xếp hạng. Khi động cơ ô tô trở nên lớn hơn, mức xếp hạng số dặm trên mỗi gallon thường sẽ là giảm xuống.
Hình 7. Gia tốc của ô tô và điểm xếp hạng số dặm trên mỗi gallon của ô tô. Như xe ô tô mất nhiều thời gian hơn, thì mức phân loại số dặm trên mỗi gallon thường tăng lên.
Hình 8. Mã lực của ô tô và định mức số dặm trên mỗi gallon. Như xe ô tô mã lực tăng lên, thì định mức số dặm trên mỗi gallon thường giảm.