Hướng dẫn which python library is used for data cleaning? - thư viện python nào được sử dụng để làm sạch dữ liệu?

Ngày 23 tháng 9 năm 2021

Hầu hết các cuộc khảo sát chỉ ra rằng các nhà khoa học dữ liệu và các nhà phân tích dữ liệu dành 70-80% thời gian làm sạch và chuẩn bị dữ liệu để phân tích. Đối với nhiều nhân viên dữ liệu, việc làm sạch và chuẩn bị dữ liệu cũng là phần ít yêu thích nhất trong công việc của họ, vì vậy họ dành 20-30% thời gian khác của họ để phàn nàn về nó. . . Hoặc vì vậy trò đùa đi. . .

Thật không may, dữ liệu luôn luôn có một số mâu thuẫn, đầu vào bị thiếu, thông tin không liên quan, thông tin trùng lặp hoặc lỗi hết sức; Ở đó, không có xung quanh đó. Đặc biệt là khi dữ liệu đến từ các nguồn khác nhau, mỗi nguồn sẽ có bộ lạ, thách thức và bất thường của riêng mình. Dữ liệu lộn xộn là dữ liệu vô dụng, đó là lý do tại sao các nhà khoa học dữ liệu dành phần lớn thời gian của họ để hiểu về tất cả những điều vô nghĩa.

Không có nghi ngờ rằng việc làm sạch và chuẩn bị dữ liệu là tẻ nhạt và siêng năng như nó là quan trọng. Dữ liệu của bạn càng sạch sẽ và nhiều hơn, mọi thứ sẽ nhanh hơn, dễ dàng và hiệu quả hơn. Tại DataQuest, chúng tôi biết cuộc đấu tranh, vì vậy chúng tôi rất vui khi chia sẻ 15 lựa chọn hàng đầu của chúng tôi cho các thư viện Python hữu ích nhất để làm sạch dữ liệu.

Numpy
Gấu trúc
Matplotlib
DataCleaner
Dora
SeaBall
Mũi tên
Scrubadub
Tabulation
Mất tích
Modin
Ftfy
Scipy
Dabl
Imblearn

Numpy

Gấu trúc

MatplotlibPython for data analysis. Thanks to its speed and versatility, NumPy’s vectorization, indexing, and broadcasting concepts represent the de facto standard for array computing; however, NumPy really shines when working with multi-dimensional arrays. It also offers a comprehensive toolbox of numerical computing tools like linear algebra routines, Fourier transforms, and more.

DataCleaner

Dora

Gấu trúc

Matplotlib

DataCleaner

Dora

SeaBall

Matplotlib

DataCleaner

Doradata visualizations using Python.

SeaBall

DataCleaner

Dora

Với DataCleaner, bạn có thể dễ dàng thay thế các giá trị bị thiếu bằng chế độ hoặc trung bình trên cơ sở từng cột, mã hóa các biến phân loại và các hàng thả với các giá trị bị thiếu.

Dora

Thư viện Dora sử dụng scikit-learn, gấu trúc và matplotlib để phân tích khám phá, hay cụ thể hơn là để tự động hóa các khía cạnh không mong muốn nhất của phân tích khám phá. Ngoài việc chăm sóc lựa chọn tính năng và trích xuất và trực quan hóa, Dora còn tối ưu hóa và tự động hóa việc làm sạch dữ liệu.

Dora sẽ giúp bạn tiết kiệm thời gian và nỗ lực quý giá với một số tính năng làm sạch dữ liệu như buộc các giá trị bị thiếu, đọc dữ liệu với các giá trị bị thiếu và tỷ lệ kém và các giá trị mở rộng của các biến đầu vào.

Ngoài ra, Dora có một giao diện đơn giản để chụp ảnh dữ liệu của bạn khi bạn chuyển đổi nó và nó khác biệt với các gói Python khác với các khả năng phiên bản dữ liệu độc đáo của nó.

SeaBall

Trước đó trong bài viết này, chúng tôi đã thảo luận về tầm quan trọng của việc trực quan hóa dữ liệu để tiết lộ sự thiếu hụt dữ liệu và sự không nhất quán. Trước khi bạn có thể giải quyết các vấn đề trong dữ liệu của mình, bạn cần biết chúng là gì và chúng ở đâu: Trực quan hóa dữ liệu là câu trả lời. Đối với nhiều người dùng Python, Matplotlib là thư viện truy cập để trực quan hóa dữ liệu. Tuy nhiên, một số người dùng đã tìm thấy những hạn chế của matplotlib liên quan đến việc tùy chỉnh các tùy chọn trực quan hóa dữ liệu bực bội. Đó là lý do tại sao bây giờ chúng ta có Seaborn.

Seaborn là một gói trực quan hóa dữ liệu xây dựng trên matplotlib và tạo ra đồ họa thống kê hấp dẫn và thông tin trong khi cung cấp trực quan hóa dữ liệu có thể tùy chỉnh.

Mặc dù nhiều người dùng thích Seaborn vì các tính năng tùy biến của nó, nhưng nó cũng cải thiện một trong những vấn đề chức năng của người tiền nhiệm: cụ thể là, Seaborn hoạt động trơn tru hơn trong các khung dữ liệu của Pandas, làm cho phân tích khám phá và làm sạch dữ liệu dễ chịu hơn nhiều.

Mũi tên

Một khía cạnh quan trọng của việc cải thiện chất lượng dữ liệu của bạn là tạo ra tính đồng nhất và tính nhất quán trong toàn bộ dữ liệu của bạn. Nó có thể gây khó chịu cho các nhà phát triển Python cố gắng tạo ra sự đồng nhất đó khi xử lý ngày và thời gian. Vô số giờ và dòng mã sau đó, và những khó khăn đặc biệt của định dạng ngày và thời gian vẫn còn.

Mũi tên là một thư viện Python được xây dựng đặc biệt để xử lý những khó khăn chính xác đó và tạo ra tính nhất quán của dữ liệu. Các tính năng tiết kiệm thời gian của nó bao gồm chuyển đổi múi giờ; Định dạng chuỗi tự động và phân tích cú pháp; Hỗ trợ cho pytz, các đối tượng ngày, zoneinfo tzinfo; và tạo ra các phạm vi, sàn nhà, thời gian và trần cho các khung thời gian từ micro giây đến nhiều năm.

Mũi tên là thời gian nhận thức [không giống như thư viện Python tiêu chuẩn] và theo mặc định là UTC. Nó cấp cho người dùng nhiều lệnh ADEPT theo thao tác ngày và giờ với ít mã hơn và ít đầu vào hơn. Điều đó có nghĩa là bạn có thể mang lại sự đồng nhất lớn hơn cho dữ liệu của mình trong khi dành ít thời gian để đấu vật với đồng hồ.

Scrubadub

Một yêu thích trong số các nhà khoa học dữ liệu tài chính và chăm sóc sức khỏe, Scrubadub là một thư viện Python chuyên loại bỏ thông tin nhận dạng cá nhân [PII] khỏi văn bản miễn phí.

Gói đơn giản, miễn phí và nguồn mở này giúp bạn dễ dàng xóa thông tin cá nhân nhạy cảm khỏi dữ liệu của bạn và bảo tồn quyền riêng tư và bảo mật của những người tin tưởng bạn với nó.

Scrubadub hiện cho phép người dùng thanh lọc dữ liệu của họ về thông tin sau:

Địa chỉ email
URL
Tên
Tên người dùng Skype
Số điện thoại
Kết hợp mật khẩu/tên người dùng
Số an sinh xã hội

Tabulation

Chỉ với một cuộc gọi chức năng duy nhất, Tabulation sẽ sử dụng dữ liệu của bạn để tạo các bảng nhỏ và hấp dẫn, dễ đọc nhờ một số tính năng như định dạng số, tiêu đề và căn chỉnh cột theo số thập phân.

Thư viện nguồn mở này cũng cho phép người dùng làm việc với dữ liệu bảng trong các công cụ và ngôn ngữ khác bằng cách cho phép người dùng xuất dữ liệu ở các định dạng phổ biến khác như HTML, PHP hoặc Markdown Extra.open-source library also allows users to work with tabular data in other tools and languages by enabling the user to output data in other popular formats like HTML, PHP, or Markdown Extra.

Mất tích

Xử lý các giá trị bị thiếu là một trong những khía cạnh chính của việc làm sạch dữ liệu. Thư viện mất tích làm điều đó. Nó xác định và trực quan hóa các giá trị bị thiếu trong cột DataFrame theo cột để người dùng có thể thấy trạng thái dữ liệu của họ đang ở.

Trực quan hóa vấn đề là bước đầu tiên để giải quyết vấn đề, và MissingNo là một thư viện đơn giản và tiện dụng để hoàn thành công việc.

Modin

Pandas đã là một thư viện nhanh, như chúng tôi đã đề cập ở trên. Nhưng Modin đưa gấu trúc lên một cấp độ hoàn toàn mới. Modin tăng cường hiệu suất của Pandas bằng cách phân phối dữ liệu và tốc độ tính toán.

Người dùng Modin sẽ được hưởng lợi từ việc tích hợp mượt mà và không phô trương với cú pháp Pandas, có thể tăng tốc độ của Pandas lên tới 400%!

Ftfy

Một thư viện chuyên dụng khác, FTFY rất đơn giản và giỏi những gì nó làm. Nó có tất cả trong tên, ftfy hoặc bản sửa lỗi cho bạn. FTFY được sinh ra cho một nhiệm vụ đơn giản: lấy các ký tự unicode xấu và vô dụng và biến chúng thành dữ liệu văn bản có liên quan và có thể đọc được.

Examples:

â€œquoteâ€\x9d = "quote"
uÌˆ = ü
lt;3 =


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Hướng dẫn interleave in python - xen kẽ trong con trăn

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn html5 connect to mysql database - html5 kết nối với cơ sở dữ liệu mysql

		
	

		
		
		   
		   
		   
		
		
			Lãi suất ngân hàng 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn can you run python in chrome? - bạn có thể chạy python trong chrome không?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python group duplicates in list - nhóm python trùng lặp trong danh sách

		
	

		
		
		   
		   
		   
		
		
			Tổng hợp nhạc bts 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you check if a vowel is in a word python? - làm thế nào để bạn kiểm tra xem một nguyên âm có trong một từ python không?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn data [: 2 python - data [: 2 python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn chữ nghiêng trong html

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn foreach loop php - vòng lặp foreach php

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn count json objects python - đếm đối tượng json python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn reverse a string in javascript using for loop - đảo ngược một chuỗi trong javascript bằng vòng lặp for

		
	

		
		
		   
		   
		   
		
		
			Ngày 8 1 2023 tốt hay xấu

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn display sql server data in html table - hiển thị dữ liệu máy chủ sql trong bảng html

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn what is an escape code in python? - mã thoát trong python là gì?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how to render html file in javascript - làm thế nào để hiển thị tệp html trong javascript

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn please install python-dnf from distribution system - vui lòng cài đặt python-dnf từ hệ thống phân phối

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you print like a table in python? - làm thế nào để bạn in như một bảng trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python answers finder - công cụ tìm câu trả lời python

		
	

		
		
		   
		   
		   
		
		
			How much is the 2023 Land Cruiser?

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 7 sự tích hồ gươm - ngữ văn lớp 6 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 7 gdcd 6 bài 1 kết nối tri thức 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 7 ý nghĩa của xây dựng gia đình văn hóa 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 6 mẫu hợp đồng mượn đất làm nhà xưởng 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 3 tổng tài biến thái tôi yêu anh tập 27 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 6 kết thực phim mỹ nhân vô lệ 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 9 trong những câu thơ sau câu nào sử dụng thành ngữ 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 8 đề tài và chủ de của tác phẩm tắt đèn 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 5 tiểu sử của thầy thích pháp hòa 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Hạt giống nguyên chủng là gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			De thi học kì 1 hóa 9 tphcm năm 2024

		
	

		
		
		   
		   
		   
		
		
			Phục hồi nút erase trong cs6 bị lỗi năm 2024

		
	

		
		
		   
		   
		   
		
		
			Nhung loai rau cu tot cho gan và tiên hóa năm 2024

		
	

		
		
		   
		   
		   
		
		
			Dì ruột bán cháu ở thường xuân thanh hóa năm 2024

		
	

		
		
		   
		   
		   
		
		
			Kiến bu quần lót là hiện tượng gì năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Toplist
		  Là gì
		  Bài Tập
		  Địa Điểm Hay
		  Mẹo Hay
		  Học Tốt
		  Nghĩa của từ
		  Công Nghệ
		  Khỏe Đẹp
		  bao nhiêu
		  Top List
		  Tiếng anh
		  Bao nhiêu
		  Sản phẩm tốt
		  Xây Đựng
		  Ngôn ngữ
		  javascript
		  Ở đâu
		  Đại học
		  Hướng dẫn
		  Bài tập
		  Tại sao
		  Dịch 
		  So Sánh
		  Máy tính
		  Món Ngon
		  mẹo hay
		  Bao lâu
		  Thế nào
		  So sánh
		  Khoa Học
		  Vì sao
		  Lớp 9
		  Lớp 10