2.2.2. Hồi qui Ridge — Deep AI KhanhBlog

2.2.2.2. bài toán hồi quy tuyến tính¶

giả sử dữ liệu đầu vào bao gồm (n ) quan sát là cặp biến đầu vào và biến đích (( mathbf {x} _1, y_1), ( mathbf {x} _2, y_2), dấu chấm, ( mathbf {x} _n, y_n) ). mô hình hồi quy sẽ tìm công cụ ước lượng ( mathbf {w} = [w_0, w_1, dot, w_p] ) để giảm thiểu hàm mất mát của dạng mse:

nhớ một chút khái niệm về hàm mất mát. trong mô hình học có giám sát machine learning, bắt đầu từ dữ liệu đầu vào, thông qua thuật toán học, chúng ta sẽ thiết lập một hàm giả thuyết (h ) (hàm giả thuyết) mô tả mối quan hệ dữ liệu giữa biến đầu vào và biến đích.

hình 1: source: andrew ng – hồi quy tuyến tính với một biến. Từ quan sát đầu vào ( mathbf {x} _i ), sau khi cung cấp hàm giả thuyết (h ), chúng tôi nhận được giá trị dự đoán ( hat {y} ) trong đầu ra. ký tự (h ) của tên hàm thể hiện từ giả thuyết có nghĩa là giả thuyết, đây là một khái niệm cũ trong thống kê. để mô hình chính xác hơn, sai số giữa giá trị dự đoán ( hat {y} ) và thực tế cơ sở (y ) phải nhỏ hơn. vậy làm cách nào để đo mức độ sai số nhỏ giữa ( hat {y} ) và (y )? các thuật toán học có giám sát trong học máy sẽ sử dụng hàm mất mát để xác định lỗi này.

Hàm mất mát cũng là mục tiêu tối ưu khi đào tạo mô hình. dữ liệu đầu vào ( mathbf {x} ) và (y ) được coi là cố định và các biến của vấn đề tối ưu hóa là các giá trị trong vectơ ( mathbf {w} ).

Giá trị của hàm mất mát mse là giá trị trung bình của tổng bình phương của các phần dư. phần còn lại là phần chênh lệch giữa giá trị thực tế và giá trị kỳ vọng. chức năng tối thiểu hóa tổn thất nhằm mục đích làm cho giá trị dự đoán ít khác với giá trị thực tế, giá trị thực tế còn được gọi là chân trị cơ bản. trước khi đào tạo mô hình, chúng tôi thực sự không biết vectơ của hệ số ( mathbf {w} ) là gì. chúng ta chỉ có thể đưa ra các giả định về hình dạng của hàm dự báo (trong trường hợp này là phương trình tuyến tính) và các hệ số hồi quy tương ứng. do đó, mục đích của giảm thiểu hàm mất mát là tìm tham số phù hợp nhất ( mathbf {w} ) mô tả chung về mối quan hệ dữ liệu giữa biến đầu vào ( mathbf {x)} ) với biến đích ( mathbf {y} ) trong tập huấn luyện.

Tuy nhiên, mối quan hệ này thường không mô tả quy luật chung của dữ liệu, do đó dẫn đến hiện tượng overfitting. một trong những lý do cho sự không khái quát của mô hình là do mô hình quá phức tạp. mức độ phức tạp cao hơn khi độ lớn của các hệ số trong mô hình hồi quy theo các bậc cao hơn có xu hướng lớn, như được phân tích trong hình sau:

hình 2: hình cho thấy mức độ phức tạp của mô hình theo sự thay đổi thứ tự. phương trình phức tạp nhất là phương trình bậc ba: (y = w_0 + w_1 x + w_2 x ^ 2 + w_3 x ^ 3 ). trong chương trình thpt chúng ta biết rằng phương trình bậc ba sẽ có 2 điểm uốn và độ phức tạp cao hơn phương trình bậc hai chỉ có 1 điểm uốn. khi (w_3 rightarrow 0 ) thì phương trình bậc hai hội tụ về phương trình bậc hai: (y = w_0 + w_1 x + w_2 x ^ 2 ), lúc này phương trình là một đường cong parabol và đã giảm độ phức tạp. tiếp tục kiểm soát độ lớn để (w_2 rightarrow 0 ) trong phương trình bậc hai, chúng ta nhận được một đường tuyến tính có dạng (y = w_0 + w_1 x ) với độ phức tạp thấp nhất.

do đó, việc kiểm soát độ lớn của công cụ ước tính, đặc biệt là với thứ tự cao hơn, sẽ giúp giảm độ phức tạp của mô hình và do đó khắc phục được việc trang bị quá mức. để tìm hiểu cách kiểm soát chúng, hãy xem chương bên dưới.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *