1.What is Drift ?

Mô hình Machine Learning được huấn luyện trên dữ liệu lịch sử (historical data). Tuy nhiên, khi áp dụng vào dữ liệu thực tế, có thể xảy ra hiện tượng dữ liệu thực tế không còn phù hợp với dữ liệu huấn luyện do bị lỗi thời, dẫn đến độ chính xác của mô hình giảm dần theo thời gian.

Drift là sự thay đổi theo thời gian trong các đặc tính thống kê của dữ liệu đã được dùng để huấn luyện mô hình học máy. Khi dữ liệu thực tế mà mô hình gặp sau này khác biệt so với dữ liệu huấn luyện ban đầu, mô hình có thể hoạt động kém hiệu quả, giảm độ chính xác, hoặc cho ra kết quả không như mong đợi. Ví dụ: bạn huấn luyện một mô hình dự đoán hành vi khách hàng dựa trên dữ liệu năm 2022. Tuy nhiên, đến năm 2024, hành vi khách hàng thay đổi do thị trường, xu hướng hoặc yếu tố kinh tế. Lúc này, mô hình có thể không còn phù hợp nữa — đó chính là hiện tượng drift.