Làm thế nào để Python xử lý các ngoại lệ?

Ngoại lệ là một mục/đối tượng dữ liệu lệch đáng kể so với phần còn lại của các đối tượng [được gọi là bình thường]. Chúng có thể được gây ra bởi lỗi đo lường hoặc thực hiện. Phân tích để phát hiện ngoại lệ được gọi là khai thác ngoại lệ. Có nhiều cách để phát hiện các ngoại lệ và quy trình xóa khung dữ liệu giống như xóa một mục dữ liệu khỏi khung dữ liệu của gấu trúc

Ở đây, khung dữ liệu gấu trúc được sử dụng cho cách tiếp cận thực tế hơn vì trong dự án trong thế giới thực cần phát hiện các điểm ngoại lệ phát sinh trong bước phân tích dữ liệu, cách tiếp cận tương tự có thể được sử dụng trên danh sách và các đối tượng kiểu chuỗi

tập dữ liệu

Bộ dữ liệu được sử dụng là bộ dữ liệu Nhà ở Boston vì nó được tải sẵn trong thư viện sklearn

Python3




# Importing

import sklearn

from sklearn.datasetsimport load_boston

import pandas as pd

import import0

 

import1

import2import3 import4

 

import5

import6import3 import8

import9import3 sklearn1

sklearn2import3 import6

sklearn5

đầu ra.  

một phần của tập dữ liệu

Phát hiện các ngoại lệ

Các ngoại lệ có thể được phát hiện bằng cách sử dụng trực quan, triển khai các công thức toán học trên tập dữ liệu hoặc sử dụng phương pháp thống kê. Tất cả những điều này được thảo luận dưới đây.  

1. Hình dung

ví dụ 1. Sử dụng Box Plot

Nó ghi lại tóm tắt dữ liệu một cách hiệu quả và hiệu quả chỉ với một hộp và râu đơn giản. Boxplot tóm tắt dữ liệu mẫu bằng phần trăm thứ 25, 50 và 75. Người ta chỉ có thể nhận thông tin chi tiết [phần tư, trung bình và ngoại lệ] vào tập dữ liệu bằng cách chỉ nhìn vào biểu đồ hộp của nó

Python3




sklearn6

import sklearn8

sklearn9from0____31

đầu ra

Boxplot- Cột DIS

Trong biểu đồ trên, có thể thấy rõ rằng các giá trị trên 10 đang đóng vai trò là giá trị ngoại lai

Python3




from2

from3______34from0from6from7from8

đầu ra

Chỉ số ngoại lệ

ví dụ 2. Sử dụng ScatterPlot

Nó được sử dụng khi bạn đã ghép nối dữ liệu số hoặc khi biến phụ thuộc của bạn có nhiều giá trị cho mỗi biến độc lập đang đọc hoặc khi cố gắng xác định mối quan hệ giữa hai biến. Trong quá trình sử dụng biểu đồ phân tán, người ta cũng có thể sử dụng nó để phát hiện ngoại lệ

Để vẽ biểu đồ phân tán, người ta yêu cầu hai biến có liên quan đến nhau bằng cách nào đó. Vì vậy, ở đây, 'Tỷ lệ mẫu đất kinh doanh không bán lẻ trên mỗi thị trấn' và 'Mức thuế suất bất động sản toàn giá trị trên 10.000 đô la' được sử dụng có tên cột lần lượt là "INDUS" và "TAX"

Python3




from9

sklearn.datasets0import3 sklearn.datasets2import3 sklearn.datasets4sklearn.datasets5sklearn.datasets6from7from8

sklearn.datasets9import0____11import2from1

 

import4

import5import6import7

 

import8

import9load_boston0import7

load_boston2

đầu ra

Âm mưu phân tán

Nhìn vào biểu đồ có thể tóm tắt rằng hầu hết các điểm dữ liệu nằm ở góc dưới cùng bên trái của biểu đồ nhưng có một số điểm chính xác; y ngược lại là góc trên cùng bên phải của biểu đồ. Những điểm ở góc trên cùng bên phải có thể được coi là Ngoại lệ

Sử dụng phép tính gần đúng có thể nói rằng tất cả các điểm dữ liệu x>20 và y>600 đều là ngoại lệ. Đoạn mã sau có thể lấy vị trí chính xác của tất cả những điểm thỏa mãn các điều kiện này.  

Python3




from2

from3______65import0from6load_boston8load_boston9import2from6import2import3

đầu ra

Chỉ số ngoại lệ

2. điểm Z

Z- Score còn gọi là điểm chuẩn. Giá trị/điểm số này giúp hiểu rằng điểm dữ liệu cách giá trị trung bình bao xa. Và sau khi thiết lập giá trị ngưỡng, người ta có thể sử dụng giá trị điểm số z của các điểm dữ liệu để xác định các giá trị ngoại lệ

Điểm Z = [điểm dữ liệu -trung bình] / tiêu chuẩn. độ lệch

Python3




import4

from import6import import8

import pandas as pd0

 

pandas as pd1import3 pandas as pd3pandas as pd4pandas as pd5from0pandas as pd7

from3____89

đầu ra

một phần của danh sách [z]

Đầu ra ở trên chỉ là ảnh chụp nhanh một phần dữ liệu; . Nó in các giá trị điểm z của từng mục dữ liệu của cột

Bây giờ để xác định giá trị ngưỡng ngoại lệ được chọn, thường là 3. 0. như 99. 7% số điểm dữ liệu nằm trong khoảng +/- 3 độ lệch chuẩn [sử dụng phương pháp Phân phối Gaussian]

Python3




import0import3 import2

 

import3

from3____15____12from8

đầu ra

Chỉ số ngoại lệ

3. IQR [Phạm vi liên vùng]

Phương pháp IQR [Phạm vi liên tứ phân vị] Phương pháp tiếp cận phạm vi liên tứ phân vị để tìm ra các ngoại lệ là phương pháp được sử dụng phổ biến nhất và đáng tin cậy nhất được sử dụng trong lĩnh vực nghiên cứu

IQR = Phần tư3 – Phần tư1

Python3




import8

import9import3 import01from0import03import04sklearn.datasets6

import06import07import3 import09import7

 

import11import3 import01from0import03import16sklearn.datasets6

import06import07import3 import09import7

import23import3 import11______126 import9

đầu ra

Để xác định giá trị cơ sở ngoại lệ được xác định bên trên và bên dưới phạm vi bình thường của tập dữ liệu cụ thể là Giới hạn trên và Giới hạn dưới, hãy xác định giới hạn trên và giới hạn dưới [1. 5*giá trị IQR được xem xét]

trên = Q3 +1. 5*IQR

thấp hơn = Q1 – 1. 5*IQR

Trong công thức trên theo thống kê thì 0. 5 mở rộng IQR [new_IQR = IQR + 0. 5*IQR] được lấy để xem xét tất cả dữ liệu giữa 2. 7 độ lệch chuẩn trong Phân phối Gaussian

Python3




import28

import29import3 import31from0import33import3 import35import36import37import38import39

 

from3____44import42import43

from3____145

 

import46

import47import3 sklearn26from0import51import3 import53import26import37import38sklearn34

Python xử lý dữ liệu ngoại lệ như thế nào?

Bước 1 - Nhập thư viện
Bước 2 - Tạo DataFrame
Phương pháp 1 - Loại bỏ các ngoại lệ
Phương pháp 2 - Đánh dấu các ngoại lệ
Phương pháp 3 - Thay đổi tỷ lệ dữ liệu

Làm thế nào các giá trị ngoại lệ có thể được xử lý?

Có nhiều cách tiếp cận khác nhau, chẳng hạn như thay thế giá trị ngoại lệ bằng giá trị trung bình hoặc giá trị trung bình hoặc trong một số trường hợp, loại bỏ quan sát bằng ngoại lệ bị nghi ngờ để tránh bất kỳ sai lệch nào trong đó . Chúng tôi có xu hướng xóa ngoại lệ nếu chúng là do lỗi nhập liệu do lỗi của con người, lỗi xử lý dữ liệu. . We tend to delete the outlier if they are due to data entry errors caused due to human error, data processing errors.

Làm thế nào để Python phát hiện các ngoại lệ trong gấu trúc?

Sử dụng IQR .
Sắp xếp dữ liệu theo thứ tự tăng dần
Tính phần tư đầu tiên [q1] và phần tư thứ ba [q3]
Tìm phạm vi liên vùng [q3-q1]
Tìm cận dưới q1*1. 5
Tìm cận trên q3*1. 5
Bất cứ điều gì nằm ngoài giới hạn dưới và trên là một ngoại lệ

Các ngoại lệ được xử lý như thế nào trong học máy?

Tuy nhiên, trong học máy, có một cách để giải quyết các điểm khác biệt. nó được gọi là “ phân loại một loại ” [OCC]. Điều này liên quan đến việc điều chỉnh một mô hình trên dữ liệu “bình thường”, sau đó dự đoán liệu dữ liệu mới được thu thập là bình thường hay bất thường.

Chủ Đề