Hướng dẫn how do you select a specific column from a dataset in python? - làm cách nào để bạn chọn một cột cụ thể từ tập dữ liệu trong python?
In [1]: import pandas as pd Show
Làm cách nào để chọn các cột cụ thể từ ________ 23?#
Mỗi cột trong A In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 là In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float646. Khi một cột duy nhất được chọn, đối tượng được trả về là một gấu trúc In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float646. Chúng tôi có thể xác minh điều này bằng cách kiểm tra loại đầu ra: In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series Và xem In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float648 của đầu ra: In [7]: titanic["Age"].shape Out[7]: (891,) In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float649 là một thuộc tính (hãy nhớ hướng dẫn về đọc và viết, không sử dụng dấu ngoặc đơn cho các thuộc tính) của một gấu trúc In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float646 và In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 chứa số lượng hàng và cột: (NROWS, NCOLUMNS). Một loạt gấu trúc là 1 chiều và chỉ có số lượng hàng được trả về.tutorial on reading and writing, do not use parentheses for attributes) of a pandas In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float646 and In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 containing the number of rows and columns: (nrows, ncolumns). A pandas Series is 1-dimensional and only the number of rows is returned.
Ghi chú Các dấu ngoặc vuông bên trong xác định danh sách Python với tên cột, trong khi các dấu ngoặc bên ngoài được sử dụng để chọn dữ liệu từ một gấu trúc In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 như đã thấy trong ví dụ trước.Python list with column names, whereas the outer brackets are used to select the data from a pandas In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 as seen in the previous example. Kiểu dữ liệu được trả về là một gấu trúc DataFrame: In [10]: type(titanic[["Age", "Sex"]]) Out[10]: pandas.core.frame.DataFrame In [11]: titanic[["Age", "Sex"]].shape Out[11]: (891, 2) Lựa chọn đã trả về In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 với 891 hàng và 2 cột. Hãy nhớ rằng, In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 là 2 chiều với cả kích thước hàng và cột. Làm cách nào để lọc các hàng cụ thể từ ________ 23?#
Điều kiện bên trong khung lựa chọn In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series8 Kiểm tra các hàng cột In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series9 có giá trị lớn hơn 35: In [14]: titanic["Age"] > 35 Out[14]: 0 False 1 True 2 False 3 False 4 False ... 886 False 887 False 888 False 889 False 890 False Name: Age, Length: 891, dtype: bool Đầu ra của biểu thức có điều kiện ( In [7]: titanic["Age"].shape Out[7]: (891,)0, nhưng cũng In [7]: titanic["Age"].shape Out[7]: (891,)1, In [7]: titanic["Age"].shape Out[7]: (891,)2, In [7]: titanic["Age"].shape Out[7]: (891,)3, ________ 44, sẽ hoạt động) thực sự là một gấu trúc In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float646 của các giá trị boolean (hoặc In [7]: titanic["Age"].shape Out[7]: (891,)6 hoặc In [7]: titanic["Age"].shape Out[7]: (891,)7) với cùng một số của các hàng như ____. Một In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float646 của các giá trị Boolean như vậy có thể được sử dụng để lọc In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 bằng cách đặt nó vào giữa các dấu ngoặc chọn In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float644. Chỉ các hàng mà giá trị là In [7]: titanic["Age"].shape Out[7]: (891,)6 sẽ được chọn. Chúng tôi biết từ trước đó rằng Titanic In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 ban đầu bao gồm 891 hàng. Hãy để một cái nhìn về số lượng hàng đáp ứng điều kiện bằng cách kiểm tra thuộc tính In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float648 của kết quả In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 In [8]: age_sex = titanic[["Age", "Sex"]] In [9]: age_sex.head() Out[9]: Age Sex 0 22.0 male 1 38.0 female 2 26.0 female 3 35.0 female 4 35.0 male6: In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S [5 rows x 12 columns]0
Trên đây tương đương với việc lọc theo các hàng mà lớp là 2 hoặc 3 và kết hợp hai câu lệnh với toán tử In [10]: type(titanic[["Age", "Sex"]]) Out[10]: pandas.core.frame.DataFrame2 (hoặc): In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S [5 rows x 12 columns]2 Ghi chú Các dấu ngoặc vuông bên trong xác định danh sách Python với tên cột, trong khi các dấu ngoặc bên ngoài được sử dụng để chọn dữ liệu từ một gấu trúc In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float643 như đã thấy trong ví dụ trước.
Làm cách nào để lọc các hàng cụ thể từ ________ 23?# In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S [5 rows x 12 columns]4 Tôi quan tâm đến các hành khách trên 35 tuổi. Để chọn các hàng dựa trên biểu thức có điều kiện, hãy sử dụng một điều kiện bên trong khung lựa chọn In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float644.handling missing data. Điều kiện bên trong khung lựa chọn In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series 8 Kiểm tra các hàng cột In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series 9 có giá trị lớn hơn 35:
Khi sử dụng tên cột, nhãn hàng hoặc biểu thức điều kiện, hãy sử dụng toán tử In [11]: titanic[["Age", "Sex"]].shape Out[11]: (891, 2)6 ở phía trước khung lựa chọn In [4]: ages = titanic["Age"] In [5]: ages.head() Out[5]: 0 22.0 1 38.0 2 26.0 3 35.0 4 35.0 Name: Age, dtype: float644. Đối với cả phần trước và sau dấu phẩy, bạn có thể sử dụng một nhãn duy nhất, một danh sách các nhãn, một lát nhãn, biểu thức có điều kiện hoặc dấu hai chấm. Sử dụng đại tràng chỉ định bạn muốn chọn tất cả các hàng hoặc cột.
Khi chọn các hàng và/hoặc cột cụ thể với In [11]: titanic[["Age", "Sex"]].shape Out[11]: (891, 2)6 hoặc In [11]: titanic[["Age", "Sex"]].shape Out[11]: (891, 2)7, các giá trị mới có thể được gán cho dữ liệu đã chọn. Ví dụ: để gán tên In [12]: above_35 = titanic[titanic["Age"] > 35] In [13]: above_35.head() Out[13]: PassengerId Survived Pclass ... Fare Cabin Embarked 1 2 1 1 ... 71.2833 C85 C 6 7 0 1 ... 51.8625 E46 S 11 12 1 1 ... 26.5500 C103 S 13 14 0 3 ... 31.2750 NaN S 15 16 1 2 ... 16.0000 NaN S [5 rows x 12 columns]8 cho 3 phần tử đầu tiên của cột thứ ba: In [2]: titanic = pd.read_csv("data/titanic.csv") In [3]: titanic.head() Out[3]: PassengerId Survived Pclass ... Fare Cabin Embarked 0 1 0 3 ... 7.2500 NaN S 1 2 1 1 ... 71.2833 C85 C 2 3 1 3 ... 7.9250 NaN S 3 4 1 1 ... 53.1000 C123 S 4 5 0 3 ... 8.0500 NaN S [5 rows x 12 columns]7 NHỚ
|