Hướng dẫn how much python is required for pandas? - yêu cầu bao nhiêu trăn cho gấu trúc?

Cách dễ nhất để cài đặt gấu trúc là cài đặt nó như một phần của phân phối Anaconda, phân phối nền tảng chéo để phân tích dữ liệu và điện toán khoa học. Đây là phương thức cài đặt được đề xuất cho hầu hết người dùng.

Hướng dẫn cài đặt từ Nguồn, PYPI, ActivePython, các bản phân phối Linux khác nhau hoặc phiên bản phát triển cũng được cung cấp.

Phiên bản Python hỗ trợ#

Chính thức Python 3.8, 3.9 và 3.10.

Cài đặt gấu trúc#

Cài đặt với Anaconda#

Cài đặt gấu trúc và phần còn lại của ngăn xếp Numpy và Scipy có thể hơi khó khăn cho người dùng thiếu kinh nghiệm.

Cách đơn giản nhất để cài đặt không chỉ gấu trúc, mà là Python và các gói phổ biến nhất tạo nên ngăn xếp Scipy (ipython, numpy, matplotlib, triệt) là với anaconda, phân phối python đa nền tảng (linux, macOS, windows) cho dữ liệu cho dữ liệu Phân tích và điện toán khoa học.

Sau khi chạy trình cài đặt, người dùng sẽ có quyền truy cập vào gấu trúc và phần còn lại của ngăn xếp Scipy mà không cần cài đặt bất cứ thứ gì khác và không cần phải chờ bất kỳ phần mềm nào được biên dịch.

Hướng dẫn cài đặt cho Anaconda có thể được tìm thấy ở đây.

Một danh sách đầy đủ các gói có sẵn như là một phần của phân phối Anaconda có thể được tìm thấy ở đây.

Một lợi thế khác để cài đặt Anaconda là bạn không cần quyền quản trị để cài đặt nó. Anaconda có thể cài đặt trong thư mục nhà của người dùng, điều này khiến cho việc xóa Anaconda nếu bạn quyết định (chỉ cần xóa thư mục đó).

Cài đặt với miniconda#

Phần trước đã phác thảo cách cài đặt gấu trúc như một phần của phân phối Anaconda. Tuy nhiên, phương pháp này có nghĩa là bạn sẽ cài đặt tốt hơn một trăm gói và liên quan đến việc tải xuống trình cài đặt có kích thước vài trăm megabyte.

Nếu bạn muốn có nhiều quyền kiểm soát hơn về các gói nào hoặc có băng thông internet hạn chế, thì việc cài đặt gấu trúc bằng miniconda có thể là một giải pháp tốt hơn.

Conda là người quản lý gói mà phân phối Anaconda được xây dựng. Đây là một trình quản lý gói vừa là đa nền tảng và bất khả tri về ngôn ngữ (nó có thể đóng vai trò tương tự như kết hợp PIP và VirtualEnv).

Miniconda cho phép bạn tạo một cài đặt Python khép kín tối thiểu, sau đó sử dụng lệnh Conda để cài đặt các gói bổ sung.

Đầu tiên bạn sẽ cần Conda để được cài đặt và tải xuống và chạy miniconda sẽ làm điều này cho bạn. Trình cài đặt có thể được tìm thấy ở đây

Bước tiếp theo là tạo ra một môi trường Conda mới. Môi trường Conda giống như một ảo ảnh cho phép bạn chỉ định một phiên bản cụ thể của Python và bộ thư viện. Chạy các lệnh sau từ cửa sổ đầu cuối:

conda create -n name_of_my_env python

Điều này sẽ tạo ra một môi trường tối thiểu chỉ với python được cài đặt trong đó. Để đặt bản thân của bạn vào trong môi trường này chạy:

source activate name_of_my_env

Trên Windows, lệnh là:

Bước cuối cùng cần thiết là cài đặt gấu trúc. Điều này có thể được thực hiện với lệnh sau:

Để cài đặt một phiên bản gấu trúc cụ thể:

conda install pandas=0.20.3

Để cài đặt các gói khác, ví dụ: ipython: ví dụ:

Để cài đặt toàn bộ phân phối Anaconda:

Nếu bạn cần các gói có sẵn cho PIP nhưng không phải Conda, thì hãy cài đặt PIP, sau đó sử dụng PIP để cài đặt các gói đó:

conda install pip
pip install django

Cài đặt từ pypi#

Gấu trúc có thể được cài đặt thông qua PIP từ PYPI.

Ghi chú

Bạn phải có pip>=19.3 để cài đặt từ PYPI.

Cài đặt với ActivePython#

Hướng dẫn cài đặt cho ActivePython có thể được tìm thấy ở đây. Phiên bản 2.7, 3,5 và 3,6 bao gồm gấu trúc.

Cài đặt bằng cách sử dụng trình quản lý gói phân phối Linux của bạn.##

Các lệnh trong bảng này sẽ cài đặt Pandas cho Python 3 từ phân phối của bạn.

Phân bổ

Trạng thái

Liên kết tải xuống / kho lưu trữ

Phương thức cài đặt

Debian

ổn định

Kho lưu trữ Debian chính thức

sudo apt-get install python3-pandas

Debian & Ubuntu

Không ổn định (các gói mới nhất)

Neurodebian

sudo apt-get install python3-pandas

Ubuntu

ổn định

Kho lưu trữ Debian chính thức

sudo apt-get install python3-pandas

Debian & Ubuntu

ổn định

Kho lưu trữ Debian chính thức

zypper in python3-pandas

Debian & Ubuntu

ổn định

Kho lưu trữ Debian chính thức

source activate name_of_my_env
0

Centos/RHEL

ổn định

Kho lưu trữ Debian chính thức

source activate name_of_my_env
1

Debian & Ubuntu, the packages in the linux package managers are often a few versions behind, so to get the newest version of pandas, it’s recommended to install using the

source activate name_of_my_env
2 or
source activate name_of_my_env
3 methods described above.

Không ổn định (các gói mới nhất)

Neurodebian

Ubuntu

Rất khuyến khích sử dụng

source activate name_of_my_env
3, để cài đặt nhanh và để cập nhật gói và phụ thuộc. Bạn có thể tìm thấy các hướng dẫn cài đặt đơn giản cho gấu trúc trong tài liệu này:
source activate name_of_my_env
6.

Cài đặt từ nguồn#

Xem hướng dẫn đóng góp để biết hướng dẫn đầy đủ về xây dựng từ cây nguồn Git. Hơn nữa, xem tạo ra một môi trường phát triển nếu bạn muốn tạo ra một môi trường phát triển gấu trúc.contributing guide for complete instructions on building from the git source tree. Further, see creating a development environment if you wish to create a pandas development environment.

Chạy bộ kiểm tra#

Pandas được trang bị một bộ kiểm tra đơn vị đầy đủ, chiếm khoảng 97% cơ sở mã như bài viết này. Để chạy nó trên máy của bạn để xác minh rằng mọi thứ đang hoạt động (và bạn có tất cả các phụ thuộc, mềm và cứng, được cài đặt), đảm bảo bạn có pytest> = 6.0 và giả thuyết> = 6.13.0, sau đó chạy:

>>> pd.test()
running: pytest --skip-slow --skip-network --skip-db /home/user/anaconda3/lib/python3.9/site-packages/pandas

============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [  0%]
........................................................................ [ 99%]
.......................................                                  [100%]

==================================== ERRORS ====================================

=================================== FAILURES ===================================

=============================== warnings summary ===============================

=========================== short test summary info ============================

= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =

Đây chỉ là một ví dụ về những gì thông tin được hiển thị. Bạn có thể thấy một kết quả hơi khác nhau như những gì được hiển thị ở trên.

Dependencies#

Bưu kiện

Phiên bản hỗ trợ tối thiểu

Numpy

1.20.3

python-dateutil

2.8.1

pytz

2020.1

Phụ thuộc được đề xuất#

  • NUMEXPR: Để tăng tốc một số hoạt động số.

    source activate name_of_my_env
    
    7 sử dụng nhiều lõi cũng như chunking và bộ nhớ đệm thông minh để đạt được tốc độ lớn. Nếu được cài đặt, phải là phiên bản 2.7.3 hoặc cao hơn.

  • Bổ nút: Để tăng tốc một số loại đánh giá

    source activate name_of_my_env
    
    8.
    source activate name_of_my_env
    
    9 sử dụng các thói quen Cython chuyên dụng để đạt được tốc độ lớn. Nếu được cài đặt, phải là phiên bản 1.3.2 trở lên.

Ghi chú

Bạn rất được khuyến khích cài đặt các thư viện này, vì chúng cung cấp các cải tiến tốc độ, đặc biệt là khi làm việc với các bộ dữ liệu lớn.

Phụ thuộc tùy chọn#

Pandas có nhiều phụ thuộc tùy chọn chỉ được sử dụng cho các phương pháp cụ thể. Ví dụ:

conda install pandas=0.20.3
0 yêu cầu gói
conda install pandas=0.20.3
1, trong khi
conda install pandas=0.20.3
2 yêu cầu gói
conda install pandas=0.20.3
3. Nếu sự phụ thuộc tùy chọn không được cài đặt, gấu trúc sẽ tăng
conda install pandas=0.20.3
4 khi phương pháp yêu cầu sự phụ thuộc đó được gọi.

Timezones#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

Tzdata

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.Note: You only need to install the pypi package if your system does not already provide the IANA tz database. However, the minimum tzdata version still applies, even if it is not enforced through an error.

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

Visualization#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

Tzdata

3.3.2

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

Jinja2

3.0.0

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

0.8.9

matplotlib

Computation#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

Tzdata

1.7.1

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

0.53.1

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.Enhancing Performance)

matplotlib

0.19.0

Đồ thị thư viện

Định dạng có điều kiện với DataFrame.style

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

Tzdata

2.0.1

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

1.3.0

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

matplotlib

1.4.3

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

matplotlib

3.0.7

Đồ thị thư viện

Định dạng có điều kiện với DataFrame.style

1.0.8

Tabulation

HTML#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

BeautifulSoup4

4.9.3

Tzdata

html5lib

1.1

Tzdata

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

4.6.3

Tzdata

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

  • Cho phép sử dụng thời gian

    conda install pandas=0.20.3
    
    5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

  • Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

    conda install pandas=0.20.3
    
    6 từ Conda-Forge.

  • matplotlib

  • Đồ thị thư việnHTML Table Parsing for reasons as to why you should probably not take this approach.

Định dạng có điều kiện với DataFrame.style

  • Tabulationnot work with only BeautifulSoup4 installed.

  • In ở định dạng thân thiện với Markdown (xem Tabulation)HTML Table Parsing gotchas. It explains issues surrounding the installation and usage of the above three libraries.

XML#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

4.5.0

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói
conda install pandas=0.20.3
6 từ Conda-Forge.

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

Tzdata

1.4.16

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

psycopg2

2.8.6

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

1.0.2

matplotlib

Đồ thị thư viện

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

Tzdata

3.6.1

2022.1 (PYPI)/ 2022A (cho hệ thống TZDATA)

Cho phép sử dụng thời gian

conda install pandas=0.20.3
5 với gấu trúc. Lưu ý: Bạn chỉ cần cài đặt gói PYPI nếu hệ thống của bạn chưa cung cấp cơ sở dữ liệu IANA TZ. Tuy nhiên, phiên bản TZDATA tối thiểu vẫn được áp dụng, ngay cả khi nó không được thực thi thông qua lỗi.

1.21.0

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

matplotlib

Nếu bạn muốn cập nhật phiên bản TZDATA của hệ thống, bạn nên sử dụng gói

conda install pandas=0.20.3
6 từ Conda-Forge.

matplotlib

0.4.0

Đồ thị thư viện

Định dạng có điều kiện với DataFrame.style

1.0.1

Tabulation

In ở định dạng thân thiện với Markdown (xem Tabulation)

1.1.2

Scipy

Định dạng có điều kiện với DataFrame.style

  • Tabulation

    In ở định dạng thân thiện với Markdown (xem Tabulation)

    Scipy

    Chức năng thống kê linh tinh

    tê liệt

    Công cụ thực hiện thay thế cho các hoạt động lăn (xem hiệu suất tăng cường)

    Xarray

    API giống như gấu trúc cho dữ liệu n chiều

    Công cụ thực hiện thay thế cho các hoạt động lăn (xem hiệu suất tăng cường)

    Xarray

    API giống như gấu trúc cho dữ liệu n chiều

    Xarray

    Xarray

API giống như gấu trúc cho dữ liệu n chiều

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

FSSPEC

2021.7.0

Xử lý các tệp ngoài địa phương đơn giản và HTTP

GCSFS

2021.7.0

Truy cập lưu trữ đám mây Google

pandas-gbq

0.15.0

Truy cập truy vấn lớn của Google

s3fs

2021.08.0

Amazon S3 truy cập

Clipboard#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

PyQt4/PyQt5

FSSPEC

Xử lý các tệp ngoài địa phương đơn giản và HTTP

FSSPEC

Xử lý các tệp ngoài địa phương đơn giản và HTTP

GCSFS

Truy cập lưu trữ đám mây Google

GCSFS

Compression#

Sự phụ thuộc

Phiên bản tối thiểu

Ghi chú

FSSPEC

0.7.0

Xử lý các tệp ngoài địa phương đơn giản và HTTP

python-snappy

0.6.0

GCSFS

Truy cập lưu trữ đám mây Google

0.15.2

Truy cập truy vấn lớn của Google

Tôi cần biết bao nhiêu python cho gấu trúc?

Pandas là một gói được xây dựng cho Python, vì vậy bạn cần phải nắm bắt chắc chắn cú pháp Python cơ bản trước khi bạn bắt đầu với gấu trúc. Rất dễ bị sa lầy khi học cú pháp, vì các khóa học giới thiệu thường làm cho việc học một việc vặt bằng cách tập trung hoàn toàn vào cú pháp Python.a firm grasp of basic Python syntax before you get started with pandas. It's very easy to get bogged down when learning syntax, as introductory courses often make learning a chore by focusing purely on Python syntax.

Python 3.8 có bao gồm gấu trúc không?

Trước khi bạn cài đặt gấu trúc, bạn phải nhớ rằng nó chỉ hỗ trợ các phiên bản Python 3.7, 3,8 và 3.9. Do đó, nếu bạn chưa cài đặt Python trên máy tính hoặc có phiên bản Python cũ hơn, bạn phải cài đặt một phiên bản hỗ trợ Pandas trên máy tính của bạn.it supports only Python versions 3.7, 3.8, and 3.9. Therefore, if you have not installed Python on your computer or have an older version of Python installed, you must install a version that supports Pandas on your computer.

Cần bao nhiêu python cho dữ liệu lớn?

Đối với khoa học dữ liệu, ước tính là một phạm vi từ 3 tháng đến một năm trong khi thực hành một cách nhất quán.Nó cũng phụ thuộc vào thời gian bạn có thể dành để học Python cho khoa học dữ liệu.Nhưng có thể nói rằng hầu hết người học phải mất ít nhất 3 tháng để hoàn thành con đường học tập khoa học dữ liệu.3 months to a year while practicing consistently. It also depends on the time you can dedicate to learn Python for data science. But it can be said that most learners take at least 3 months to complete the Python for data science learning path.

Bạn có cần gấu trúc cho Python?

Chỉ cần mọi công ty sử dụng Python để phân tích dữ liệu sẽ yêu cầu gấu trúc, đơn giản là vì tính linh hoạt của nó.Pandas rất phù hợp để làm việc với hầu hết các cấu trúc dữ liệu bảng-vì vậy bất kỳ công ty nào có dữ liệu bảng (nghĩa là, dữ liệu có thể được biểu diễn dưới dạng hàng và cột) sẽ thấy gấu trúc hữu ích., simply because of its versatility. Pandas is well-suited to working with most tabular data structures – so any company with tabular data (i.e., data that can be represented as rows and columns) would find Pandas useful.