Machine Learning chắc chắn là công nghệ được yêu cầu nhiều nhất trong thời đại. Nếu bạn là người mới bắt đầu với Machine Learning, điều quan trọng là bạn phải biết các điều kiện tiên quyết cho Machine Learning. Blog này sẽ giúp bạn hiểu các khái niệm khác nhau mà bạn cần biết trước khi bắt đầu với Machine Learning. Nếu bạn muốn tìm hiểu sâu hơn về chủ đề này, bạn phải truy cập chương trình Đào tạo Python về Máy học của chuyên gia và được chứng nhận
Để có kiến thức chuyên sâu về Machine Learning, bạn có thể đăng ký Chương trình Thạc sĩ Kỹ sư Machine Learning trực tiếp của Edureka với sự hỗ trợ 24/7 và quyền truy cập trọn đời
Dưới đây là danh sách các chủ đề được đề cập trong blog này
Điều kiện tiên quyết cho học máy
Để bắt đầu với Machine Learning, bạn phải làm quen với các khái niệm sau
Số liệu thống kê
Thống kê chứa các công cụ có thể được sử dụng để có được một số kết quả từ dữ liệu. Có thống kê mô tả được sử dụng để biến đổi dữ liệu thô trong một số thông tin quan trọng. Ngoài ra, thống kê suy luận có thể được sử dụng để lấy thông tin quan trọng từ một mẫu dữ liệu thay vì sử dụng tập dữ liệu hoàn chỉnh
Để tìm hiểu thêm về Thống kê, bạn có thể xem qua các blog sau
Đại số tuyến tính
Đại số tuyến tính liên quan đến vectơ, ma trận và phép biến đổi tuyến tính. Nó rất quan trọng trong học máy vì nó có thể được sử dụng để chuyển đổi và thực hiện các thao tác trên tập dữ liệu
giải tích
Giải tích là một lĩnh vực quan trọng trong toán học và nó đóng vai trò không thể thiếu trong nhiều thuật toán học máy. Tập dữ liệu có nhiều tính năng được sử dụng để xây dựng mô hình học máy vì các tính năng là phép tính đa biến đóng vai trò quan trọng để xây dựng mô hình học máy. Tích hợp và khác biệt là tất yếu
Nếu bạn muốn tìm hiểu chuyên sâu về AI-ML, hãy đến với chúng tôi và đăng ký các khóa học Trí tuệ nhân tạo và Máy học sau đại học tại Edureka
xác suất
Xác suất giúp dự đoán khả năng xảy ra, Nó giúp chúng ta suy luận tình huống có thể xảy ra hoặc không xảy ra lần nữa. Đối với học máy, xác suất là nền tảng
Để tìm hiểu thêm về Xác suất, bạn có thể xem qua blog Tất cả những gì bạn cần biết về Thống kê và Xác suất
Tìm hiểu Khóa đào tạo chứng chỉ Machine Learning của chúng tôi tại các thành phố hàng đầu
Ngôn ngữ lập trình
Điều cần thiết là phải biết các ngôn ngữ lập trình như R và Python để triển khai toàn bộ quy trình Machine Learning. Cả Python và R đều cung cấp các thư viện dựng sẵn giúp triển khai các thuật toán Machine Learning rất dễ dàng
Ngoài việc có kiến thức lập trình cơ bản, điều quan trọng là bạn phải biết cách trích xuất, xử lý và phân tích dữ liệu. Đây là một trong những kỹ năng quan trọng nhất cần thiết cho Machine Learning
Để tìm hiểu thêm về các ngôn ngữ lập trình cho Machine Learning, bạn có thể xem qua các blog sau
Trường hợp sử dụng máy học
Học máy là tất cả về việc tạo ra một thuật toán có thể học từ dữ liệu để đưa ra dự đoán như loại đối tượng nào trong ảnh hoặc công cụ đề xuất, sự kết hợp tốt nhất của các loại thuốc để chữa một số bệnh hoặc lọc thư rác
Học máy được xây dựng dựa trên các điều kiện tiên quyết của toán học và nếu bạn biết tại sao toán học được sử dụng trong học máy, điều đó sẽ khiến nó trở nên thú vị. Bạn cần biết toán học đằng sau các chức năng bạn sẽ sử dụng và mô hình nào phù hợp với dữ liệu và tại sao
Vì vậy, hãy bắt đầu với một vấn đề thú vị về dự đoán giá nhà, có một bộ dữ liệu chứa lịch sử các tính năng và giá khác nhau, bây giờ, chúng ta sẽ xem xét diện tích không gian sống tính bằng feet vuông và giá
Bây giờ chúng ta có một tập dữ liệu gồm hai cột như hình bên dưới
Phải có một số tương quan giữa hai biến này để tìm ra chúng ta sẽ cần xây dựng một mô hình có thể dự đoán giá nhà, chúng ta có thể làm điều đó như thế nào?
Hãy vẽ biểu đồ dữ liệu này và xem nó trông như thế nào
Ở đây trục X là giá mỗi mét vuông không gian sống và trục Y là giá của ngôi nhà. Nếu chúng tôi vẽ tất cả các điểm dữ liệu, chúng tôi sẽ nhận được một biểu đồ phân tán có thể được biểu thị bằng một đường như trong hình trên và nếu chúng tôi nhập một số dữ liệu thì nó sẽ dự đoán một số kết quả. Lý tưởng nhất là chúng ta phải tìm một đường giao nhau với các điểm dữ liệu lớn nhất
Ở đây chúng tôi đang cố gắng tạo một dòng được gọi là
Y=mX + c
Phương pháp dự đoán mối quan hệ tuyến tính giữa mục tiêu [biến phụ thuộc] và biến dự đoán [biến độc lập] được gọi là hồi quy tuyến tính. Nó cho phép chúng ta nghiên cứu và tóm tắt mối quan hệ giữa hai biến
- X = Biến độc lập
- Y = Biến phụ thuộc
- c = y-chặn
- m = Độ dốc của đường
Nếu chúng ta xem xét phương trình, chúng ta có các giá trị cho X là một biến độc lập, vì vậy tất cả những gì chúng ta phải làm là tính các giá trị cho m và c để dự đoán giá trị của Y
Vì vậy, làm thế nào để chúng ta tìm thấy các biến này?
Để tìm các biến này, chúng ta có thể thử một loạt các giá trị và cố gắng tìm ra một đường giao nhau với số lượng điểm dữ liệu tối đa. Nhưng, làm thế nào chúng ta có thể tìm thấy dòng phù hợp nhất?
Vì vậy, để tìm đường phù hợp nhất, chúng ta có thể sử dụng hàm lỗi bình phương nhỏ nhất sẽ tìm lỗi giữa giá trị thực của y và giá trị dự đoán y`
Hàm lỗi bình phương nhỏ nhất có thể được biểu diễn bằng phương trình sau
Sử dụng chức năng này, chúng tôi có thể tìm ra lỗi cho từng điểm dữ liệu được dự đoán bằng cách so sánh nó với giá trị thực của điểm dữ liệu. Sau đó, bạn lấy tổng của tất cả các lỗi này và bình phương chúng để tìm ra độ lệch trong dự đoán
Nếu chúng ta thêm trục thứ ba vào biểu đồ chứa tất cả các giá trị lỗi có thể xảy ra và vẽ biểu đồ đó trong không gian 3 chiều, nó sẽ trông như thế này
Trong hình trên, các giá trị lý tưởng sẽ nằm ở phần màu đen dưới cùng, phần này sẽ dự đoán giá gần với điểm dữ liệu thực tế. Bước tiếp theo là tìm các giá trị tốt nhất có thể cho m và c. Điều này có thể được thực hiện bằng cách sử dụng kỹ thuật tối ưu hóa được gọi là giảm độ dốc
Giảm độ dốc là một phương pháp lặp, trong đó chúng tôi bắt đầu với việc khởi tạo một số bộ giá trị cho các biến của mình và cải thiện chúng từ từ bằng cách giảm thiểu lỗi giữa giá trị thực và giá trị dự đoán
Bây giờ nếu chúng ta nghĩ thực tế giá căn hộ không thực sự chỉ phụ thuộc vào giá mỗi mét vuông, mà có rất nhiều yếu tố như số lượng phòng ngủ, phòng tắm, v.v. Nếu chúng ta cũng xem xét các tính năng đó thì phương trình sẽ giống như thế này
Y = b0 + b1x1 + b2x2 + …. +bnxn + c
Đây là hồi quy đa tuyến, nó thuộc về đại số tuyến tính, ở đây chúng ta có thể sử dụng ma trận kích thước mxn trong đó m là các đặc trưng và n là các điểm dữ liệu
Hãy xem xét một tình huống khác mà chúng ta có thể sử dụng xác suất để tìm ra tình trạng của ngôi nhà nhằm phân loại một ngôi nhà dựa trên tình trạng tốt hay xấu. Đối với điều này, để làm việc, chúng ta sẽ phải sử dụng một kỹ thuật gọi là Hồi quy logistic, hoạt động dựa trên xác suất xảy ra được biểu thị bằng hàm sigmoid
Trong bài viết này, chúng tôi đã đề cập đến các điều kiện tiên quyết của học máy và cách chúng được áp dụng trong học máy. Về cơ bản, nó bao gồm thống kê, giải tích, đại số tuyến tính và lý thuyết xác suất. Giải tích có các kỹ thuật được sử dụng để tối ưu hóa, đại số tuyến tính có các thuật toán có thể hoạt động trên các tập dữ liệu khổng lồ, với xác suất chúng ta có thể dự đoán khả năng xảy ra và thống kê giúp chúng ta suy ra những hiểu biết hữu ích từ mẫu tập dữ liệu
Bây giờ bạn đã biết Điều kiện tiên quyết cho Học máy, tôi chắc rằng bạn sẽ tò mò muốn tìm hiểu thêm. Dưới đây là một số blog sẽ giúp bạn bắt đầu với Khoa học dữ liệu
Nếu bạn muốn đăng ký một khóa học hoàn chỉnh về Học máy, Edureka có Chứng chỉ Học máy được tuyển chọn đặc biệt sẽ giúp bạn thành thạo các kỹ thuật như Học có giám sát, Học không giám sát và Xử lý ngôn ngữ tự nhiên. Hãy xem Khóa đào tạo NLP này của Edureka để nâng cấp các kỹ năng AI của bạn lên một tầm cao mới. Nó bao gồm đào tạo về những tiến bộ và phương pháp kỹ thuật mới nhất trong Trí tuệ nhân tạo & Học máy như Học sâu, Mô hình đồ họa và Học tăng cường