Học BigData (BD) – Ngày 5

Thế nào là classification: bài toán phân loại với các khái niệm quan sát (observations) hay thuộc tính (attributes). Hai thuật toán phân loại nổi tiếng, k-nearest neighbors và Random Forest.

Underfitting thì chỉ đơn thuần là mô hình của ta quá đơn giản, nên ta cần thêm những thành phần đa thức để nó phức tạp hơn.

Overfitting thì công việc lại ngược lại, do mô hình quá phức tạp nên ta cần giảm bậc của hàm số hay giảm số lượng feature.

Regularization thêm một thành phần tương tự để giảm sự ảnh hưởng của tất cả các feature.

tại sao sử dụng gradient descent để tối thiểu hóa độ lỗi??

http://muricoca.github.io/crab/tutorial.html

https://ongxuanhong.wordpress.com/2015/09/30/10-tutorials-ve-scikit-learn/

http://www.kdnuggets.com/2015/05/top-10-data-mining-algorithms-explained.html

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google photo

Bạn đang bình luận bằng tài khoản Google Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s