Học máy đang làm cho máy tính học hỏi từ việc nghiên cứu dữ liệu và thống kê.
Học máy là một bước vào hướng trí tuệ nhân tạo [AI].
Học máy là một chương trình phân tích dữ liệu và học cách dự đoán kết quả.
Bắt đầu từ đâu?
Trong hướng dẫn này, chúng tôi sẽ quay lại toán học và nghiên cứu thống kê, và cách tính toán các số quan trọng dựa trên các bộ dữ liệu.
Chúng tôi cũng sẽ học cách sử dụng các mô -đun Python khác nhau để có được câu trả lời chúng tôi cần.
Và chúng ta sẽ học cách tạo ra các chức năng có thể dự đoán kết quả dựa trên những gì chúng ta đã học được.
Bộ dữ liệu
Trong tâm trí của một máy tính, một bộ dữ liệu là bất kỳ bộ sưu tập dữ liệu nào. Nó có thể là bất cứ điều gì từ một mảng đến một cơ sở dữ liệu hoàn chỉnh.
Ví dụ về một mảng:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Ví dụ về cơ sở dữ liệu:
CARNAME | Màu sắc | Tuổi tác | Tốc độ, vận tốc | Autopass |
xe BMW | màu đỏ | 5 | 99 | Y |
Volvo | màu đen | 7 | 86 | Y |
Volvo | màu đen | 8 | 87 | Vw |
Volvo | màu đen | 7 | 88 | Y |
Volvo | màu đen | 2 | 111 | Y |
Volvo | màu đen | 17 | 86 | Y |
Volvo | màu đỏ | 2 | 103 | Y |
xe BMW | màu đen | 9 | 87 | Y |
Volvo | màu đen | 4 | 94 | Vw |
Volvo | màu đen | 11 | 78 | Vw |
xám | màu đen | 12 | 77 | Vw |
Volvo | màu đen | 9 | 85 | Vw |
xám | N | 6 | 86 | Y |
Volvo
màu đen
Vw
xám
N
trắng
Ford
- Tesla
- Toyota
- màu xanh da trời
Bằng cách nhìn vào mảng, chúng ta có thể đoán rằng giá trị trung bình có thể là khoảng 80 hoặc 90, và chúng ta cũng có thể xác định giá trị cao nhất và giá trị thấp nhất, nhưng chúng ta có thể làm gì khác? data are numbers, and can be split into two numerical categories:
- Và bằng cách nhìn vào cơ sở dữ liệu, chúng ta có thể thấy rằng màu phổ biến nhất là màu trắng và chiếc xe cũ nhất là 17 năm, nhưng nếu chúng ta có thể dự đoán nếu một chiếc xe có một chiếc ô tô, chỉ bằng cách nhìn vào các giá trị khác thì sao?
- numbers that are limited to integers. Example: The number of cars passing by. - Đó là những gì học máy dành cho! Phân tích dữ liệu và dự đoán kết quả!
- numbers that are of infinite value. Example: The price of an item, or the size of an item
Trong học máy, việc làm việc với các bộ dữ liệu rất lớn. Trong hướng dẫn này, chúng tôi sẽ cố gắng làm cho nó dễ dàng nhất có thể để hiểu các khái niệm khác nhau về học máy và chúng tôi sẽ làm việc với các bộ dữ liệu nhỏ dễ hiểu. data are values that cannot be measured up against each other. Example: a color value, or any yes/no values.
Loại dữ liệu data are like categorical data, but can be measured up against each other. Example: school grades where A is better than B and so on.
Để phân tích dữ liệu, điều quan trọng là phải biết loại dữ liệu chúng tôi đang xử lý.
Chúng ta có thể chia các loại dữ liệu thành ba loại chính:
Học máy [ML] về cơ bản là lĩnh vực khoa học máy tính với sự trợ giúp của các hệ thống máy tính có thể cung cấp ý nghĩa cho dữ liệu theo cách tương tự như con người. Nói một cách đơn giản, ML là một loại trí tuệ nhân tạo trích xuất các mẫu ra khỏi dữ liệu thô bằng cách sử dụng thuật toán hoặc phương thức. Trọng tâm chính của ML là cho phép các hệ thống máy tính học hỏi từ kinh nghiệm mà không được lập trình rõ ràng hoặc can thiệp của con người.
Sự tiếp kiến
Hướng dẫn này sẽ hữu ích cho sinh viên tốt nghiệp, sinh viên sau đại học và sinh viên nghiên cứu có hứng thú với chủ đề này hoặc có chủ đề này như một phần của chương trình giảng dạy của họ. Người đọc có thể là người mới bắt đầu hoặc một người học nâng cao. Hướng dẫn này đã được chuẩn bị cho các sinh viên cũng như các chuyên gia để tăng nhanh. Hướng dẫn này là một bước đệm cho hành trình học máy của bạn.
Điều kiện tiên quyết
Người đọc phải có kiến thức cơ bản về trí tuệ nhân tạo. Anh ấy/cô ấy cũng nên nhận thức được Python, Numpy, Scikit-Learn, Scipy, Matplotlib. Nếu bạn chưa quen với bất kỳ khái niệm nào trong số này, chúng tôi khuyên bạn nên đưa ra các hướng dẫn liên quan đến các chủ đề này, trước khi bạn đào sâu vào hướng dẫn này.