Hướng dẫn how do you select a specific column from a dataset in python? - làm cách nào để bạn chọn một cột cụ thể từ tập dữ liệu trong python?

In [1]: import pandas as pd

  • Dữ liệu Titanic

    Hướng dẫn này sử dụng bộ dữ liệu Titanic, được lưu trữ dưới dạng CSV. Dữ liệu bao gồm các cột dữ liệu sau:

    • Pascetengerid: ID của mỗi hành khách.

    • Sống sót: Dấu hiệu cho dù hành khách có sống sót hay không.

      In [2]: titanic = pd.read_csv("data/titanic.csv")
      
      In [3]: titanic.head()
      Out[3]: 
         PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
      0            1         0       3  ...   7.2500   NaN         S
      1            2         1       1  ...  71.2833   C85         C
      2            3         1       3  ...   7.9250   NaN         S
      3            4         1       1  ...  53.1000  C123         S
      4            5         0       3  ...   8.0500   NaN         S
      
      [5 rows x 12 columns]
      
      8 cho Có và
      In [2]: titanic = pd.read_csv("data/titanic.csv")
      
      In [3]: titanic.head()
      Out[3]: 
         PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
      0            1         0       3  ...   7.2500   NaN         S
      1            2         1       1  ...  71.2833   C85         C
      2            3         1       3  ...   7.9250   NaN         S
      3            4         1       1  ...  53.1000  C123         S
      4            5         0       3  ...   8.0500   NaN         S
      
      [5 rows x 12 columns]
      
      9 cho không.

    • Trò chơi là một trong 3 lớp vé: Lớp

      In [2]: titanic = pd.read_csv("data/titanic.csv")
      
      In [3]: titanic.head()
      Out[3]: 
         PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
      0            1         0       3  ...   7.2500   NaN         S
      1            2         1       1  ...  71.2833   C85         C
      2            3         1       3  ...   7.9250   NaN         S
      3            4         1       1  ...  53.1000  C123         S
      4            5         0       3  ...   8.0500   NaN         S
      
      [5 rows x 12 columns]
      
      9, Lớp
      In [4]: ages = titanic["Age"]
      
      In [5]: ages.head()
      Out[5]: 
      0    22.0
      1    38.0
      2    26.0
      3    35.0
      4    35.0
      Name: Age, dtype: float64
      
      1 và Lớp
      In [4]: ages = titanic["Age"]
      
      In [5]: ages.head()
      Out[5]: 
      0    22.0
      1    38.0
      2    26.0
      3    35.0
      4    35.0
      Name: Age, dtype: float64
      
      2.

    • Tên: Tên của hành khách.

    • Tình dục: Giới tính của hành khách.

    • Tuổi: Tuổi của hành khách trong nhiều năm.

    • SIBSP: Số anh chị em hoặc vợ hoặc chồng trên tàu.

    • PARCH: Số lượng cha mẹ hoặc con cái trên tàu.

    • Vé: Vé số hành khách.

    • Giá vé: Chỉ ra giá vé.

    • Cabin: Cabin Số hành khách.

    • Bắt đầu: Cảng bắt đầu.

    Để dữ liệu thô

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    

Làm cách nào để chọn các cột cụ thể từ ________ 23?#

Hướng dẫn how do you select a specific column from a dataset in python? - làm cách nào để bạn chọn một cột cụ thể từ tập dữ liệu trong python?
  • Tôi quan tâm đến tuổi của hành khách Titanic.

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    

    Để chọn một cột duy nhất, hãy sử dụng dấu ngoặc vuông

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4 với tên cột của cột quan tâm.

Mỗi cột trong A

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 là
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6. Khi một cột duy nhất được chọn, đối tượng được trả về là một gấu trúc
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6. Chúng tôi có thể xác minh điều này bằng cách kiểm tra loại đầu ra:

In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series

Và xem

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
8 của đầu ra:

In [7]: titanic["Age"].shape
Out[7]: (891,)

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
9 là một thuộc tính (hãy nhớ hướng dẫn về đọc và viết, không sử dụng dấu ngoặc đơn cho các thuộc tính) của một gấu trúc
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6 và
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 chứa số lượng hàng và cột: (NROWS, NCOLUMNS). Một loạt gấu trúc là 1 chiều và chỉ có số lượng hàng được trả về.tutorial on reading and writing, do not use parentheses for attributes) of a pandas
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6 and
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 containing the number of rows and columns: (nrows, ncolumns). A pandas Series is 1-dimensional and only the number of rows is returned.

  • Tôi quan tâm đến tuổi và giới tính của các hành khách Titanic.

    In [8]: age_sex = titanic[["Age", "Sex"]]
    
    In [9]: age_sex.head()
    Out[9]: 
        Age     Sex
    0  22.0    male
    1  38.0  female
    2  26.0  female
    3  35.0  female
    4  35.0    male
    

    Để chọn nhiều cột, hãy sử dụng danh sách các tên cột trong khung lựa chọn

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4.

Ghi chú

Các dấu ngoặc vuông bên trong xác định danh sách Python với tên cột, trong khi các dấu ngoặc bên ngoài được sử dụng để chọn dữ liệu từ một gấu trúc

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 như đã thấy trong ví dụ trước.Python list with column names, whereas the outer brackets are used to select the data from a pandas
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 as seen in the previous example.

Kiểu dữ liệu được trả về là một gấu trúc DataFrame:

In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame

In [11]: titanic[["Age", "Sex"]].shape
Out[11]: (891, 2)

Lựa chọn đã trả về

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 với 891 hàng và 2 cột. Hãy nhớ rằng,
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 là 2 chiều với cả kích thước hàng và cột.

Làm cách nào để lọc các hàng cụ thể từ ________ 23?#

  • Tôi quan tâm đến các hành khách trên 35 tuổi.

    In [12]: above_35 = titanic[titanic["Age"] > 35]
    
    In [13]: above_35.head()
    Out[13]: 
        PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    1             2         1       1  ...  71.2833   C85         C
    6             7         0       1  ...  51.8625   E46         S
    11           12         1       1  ...  26.5500  C103         S
    13           14         0       3  ...  31.2750   NaN         S
    15           16         1       2  ...  16.0000   NaN         S
    
    [5 rows x 12 columns]
    

    Để chọn các hàng dựa trên biểu thức có điều kiện, hãy sử dụng một điều kiện bên trong khung lựa chọn

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4.

Điều kiện bên trong khung lựa chọn

In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series
8 Kiểm tra các hàng cột
In [6]: type(titanic["Age"])
Out[6]: pandas.core.series.Series
9 có giá trị lớn hơn 35:

In [14]: titanic["Age"] > 35
Out[14]: 
0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

Đầu ra của biểu thức có điều kiện (

In [7]: titanic["Age"].shape
Out[7]: (891,)
0, nhưng cũng
In [7]: titanic["Age"].shape
Out[7]: (891,)
1,
In [7]: titanic["Age"].shape
Out[7]: (891,)
2,
In [7]: titanic["Age"].shape
Out[7]: (891,)
3, ________ 44, sẽ hoạt động) thực sự là một gấu trúc
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6 của các giá trị boolean (hoặc
In [7]: titanic["Age"].shape
Out[7]: (891,)
6 hoặc
In [7]: titanic["Age"].shape
Out[7]: (891,)
7) với cùng một số của các hàng như ____. Một
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
6 của các giá trị Boolean như vậy có thể được sử dụng để lọc
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 bằng cách đặt nó vào giữa các dấu ngoặc chọn
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
4. Chỉ các hàng mà giá trị là
In [7]: titanic["Age"].shape
Out[7]: (891,)
6 sẽ được chọn.

Chúng tôi biết từ trước đó rằng Titanic

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 ban đầu bao gồm 891 hàng. Hãy để một cái nhìn về số lượng hàng đáp ứng điều kiện bằng cách kiểm tra thuộc tính
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
8 của kết quả
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3
In [8]: age_sex = titanic[["Age", "Sex"]]

In [9]: age_sex.head()
Out[9]: 
    Age     Sex
0  22.0    male
1  38.0  female
2  26.0  female
3  35.0  female
4  35.0    male
6:

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
0

  • Tôi quan tâm đến các hành khách Titanic từ Cabin Class 2 và 3.

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    1

    Tương tự như biểu thức có điều kiện, hàm có điều kiện

    In [8]: age_sex = titanic[["Age", "Sex"]]
    
    In [9]: age_sex.head()
    Out[9]: 
        Age     Sex
    0  22.0    male
    1  38.0  female
    2  26.0  female
    3  35.0  female
    4  35.0    male
    
    7 trả về
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    6 cho mỗi hàng, các giá trị nằm trong danh sách được cung cấp. Để lọc các hàng dựa trên một hàm như vậy, hãy sử dụng hàm có điều kiện bên trong khung lựa chọn
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4. Trong trường hợp này, điều kiện bên trong khung lựa chọn
    In [10]: type(titanic[["Age", "Sex"]])
    Out[10]: pandas.core.frame.DataFrame
    
    0 kiểm tra các hàng cột
    In [10]: type(titanic[["Age", "Sex"]])
    Out[10]: pandas.core.frame.DataFrame
    
    1 là 2 hoặc 3.

Trên đây tương đương với việc lọc theo các hàng mà lớp là 2 hoặc 3 và kết hợp hai câu lệnh với toán tử

In [10]: type(titanic[["Age", "Sex"]])
Out[10]: pandas.core.frame.DataFrame
2 (hoặc):

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
2

Ghi chú

Các dấu ngoặc vuông bên trong xác định danh sách Python với tên cột, trong khi các dấu ngoặc bên ngoài được sử dụng để chọn dữ liệu từ một gấu trúc

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
3 như đã thấy trong ví dụ trước.

  • Kiểu dữ liệu được trả về là một gấu trúc DataFrame:

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    3

    Lựa chọn đã trả về

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    3 với 891 hàng và 2 cột. Hãy nhớ rằng,
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    3 là 2 chiều với cả kích thước hàng và cột.

Làm cách nào để lọc các hàng cụ thể từ ________ 23?#

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
4

Tôi quan tâm đến các hành khách trên 35 tuổi.

Để chọn các hàng dựa trên biểu thức có điều kiện, hãy sử dụng một điều kiện bên trong khung lựa chọn

In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
4.handling missing data.

Điều kiện bên trong khung lựa chọn In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series 8 Kiểm tra các hàng cột In [6]: type(titanic["Age"]) Out[6]: pandas.core.series.Series 9 có giá trị lớn hơn 35:

  • Đầu ra của biểu thức có điều kiện (

    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    0, nhưng cũng
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    1,
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    2,
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    3, ________ 44, sẽ hoạt động) thực sự là một gấu trúc
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    6 của các giá trị boolean (hoặc
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    6 hoặc
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    7) với cùng một số của các hàng như ____. Một
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    6 của các giá trị Boolean như vậy có thể được sử dụng để lọc
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    3 bằng cách đặt nó vào giữa các dấu ngoặc chọn
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4. Chỉ các hàng mà giá trị là
    In [7]: titanic["Age"].shape
    Out[7]: (891,)
    
    6 sẽ được chọn.

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    5

    Trong trường hợp này, một tập hợp con của cả hai hàng và cột được thực hiện trong một lần và chỉ sử dụng dấu ngoặc chọn

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4 là không đủ nữa. Các toán tử ____ 76/________ 77 được yêu cầu trước khung lựa chọn
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4. Khi sử dụng ________ 76/________ 77, phần trước dấu phẩy là hàng bạn muốn và phần sau dấu phẩy là các cột bạn muốn chọn.

Khi sử dụng tên cột, nhãn hàng hoặc biểu thức điều kiện, hãy sử dụng toán tử

In [11]: titanic[["Age", "Sex"]].shape
Out[11]: (891, 2)
6 ở phía trước khung lựa chọn
In [4]: ages = titanic["Age"]

In [5]: ages.head()
Out[5]: 
0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64
4. Đối với cả phần trước và sau dấu phẩy, bạn có thể sử dụng một nhãn duy nhất, một danh sách các nhãn, một lát nhãn, biểu thức có điều kiện hoặc dấu hai chấm. Sử dụng đại tràng chỉ định bạn muốn chọn tất cả các hàng hoặc cột.

  • Tôi quan tâm đến các hàng 10 đến 25 và cột 3 đến 5.

    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
    0            1         0       3  ...   7.2500   NaN         S
    1            2         1       1  ...  71.2833   C85         C
    2            3         1       3  ...   7.9250   NaN         S
    3            4         1       1  ...  53.1000  C123         S
    4            5         0       3  ...   8.0500   NaN         S
    
    [5 rows x 12 columns]
    
    6

    Một lần nữa, một tập hợp con của cả hai hàng và cột được thực hiện trong một lần và chỉ sử dụng giá đỡ lựa chọn

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4 là không đủ nữa. Khi cụ thể quan tâm đến một số hàng và/hoặc cột dựa trên vị trí của chúng trong bảng, hãy sử dụng toán tử
    In [11]: titanic[["Age", "Sex"]].shape
    Out[11]: (891, 2)
    
    7 trước khung lựa chọn
    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4.

Khi chọn các hàng và/hoặc cột cụ thể với

In [11]: titanic[["Age", "Sex"]].shape
Out[11]: (891, 2)
6 hoặc
In [11]: titanic[["Age", "Sex"]].shape
Out[11]: (891, 2)
7, các giá trị mới có thể được gán cho dữ liệu đã chọn. Ví dụ: để gán tên
In [12]: above_35 = titanic[titanic["Age"] > 35]

In [13]: above_35.head()
Out[13]: 
    PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
1             2         1       1  ...  71.2833   C85         C
6             7         0       1  ...  51.8625   E46         S
11           12         1       1  ...  26.5500  C103         S
13           14         0       3  ...  31.2750   NaN         S
15           16         1       2  ...  16.0000   NaN         S

[5 rows x 12 columns]
8 cho 3 phần tử đầu tiên của cột thứ ba:

In [2]: titanic = pd.read_csv("data/titanic.csv")

In [3]: titanic.head()
Out[3]: 
   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
7

NHỚ

  • Khi chọn tập hợp con của dữ liệu, dấu ngoặc vuông

    In [4]: ages = titanic["Age"]
    
    In [5]: ages.head()
    Out[5]: 
    0    22.0
    1    38.0
    2    26.0
    3    35.0
    4    35.0
    Name: Age, dtype: float64
    
    4 được sử dụng.

  • Bên trong các dấu ngoặc này, bạn có thể sử dụng một nhãn/nhãn một cột, một danh sách các nhãn cột/hàng, một lát nhãn, biểu thức có điều kiện hoặc dấu hai chấm.

  • Chọn các hàng và/hoặc cột cụ thể bằng cách sử dụng

    In [11]: titanic[["Age", "Sex"]].shape
    Out[11]: (891, 2)
    
    6 khi sử dụng tên hàng và cột.

  • Chọn các hàng và/hoặc cột cụ thể bằng cách sử dụng

    In [11]: titanic[["Age", "Sex"]].shape
    Out[11]: (891, 2)
    
    7 khi sử dụng các vị trí trong bảng.

  • Bạn có thể gán các giá trị mới cho một lựa chọn dựa trên ________ 76/________ 77.