Xóa chuỗi con khỏi chuỗi khung dữ liệu python

Tôi đang cố xóa tất cả các từ


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
3 khỏi Dataframe bên dưới

d = {'keep': ["not useful", "useful", "not useful", "useful", "useful"]}
df = pd.DataFrame(data=d)
df['keep'] = df['keep'].replace('not', '', inplace=True)
df

Điều này dẫn đến cột 'keep' của tôi bằng


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
4. Không chắc chắn những gì tôi đang làm sai ở đây

Cảm ơn

Bạn muốn


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
5 có dấu chấm theo nghĩa đen, vì vậy hãy tắt biểu thức chính quy trong cuộc gọi của bạn tới

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
6

df_bucket['Uri'].str.replace('www.', '', regex=False)

Hoặc, nếu bạn muốn sử dụng


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
6 ở chế độ biểu thức chính quy mặc định, hãy thoát khỏi dấu chấm bằng dấu gạch chéo ngược

df_bucket['Uri'].str.replace('www\.', '')

Bạn có thể tìm hiểu cách thay thế chuỗi con trong một cột của pandas DataFrame bằng cách sử dụng DataFrame. thay thế () bằng các hàm


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
3. Trong bài viết này, tôi sẽ giải thích cách thay thế chuỗi con trong cột DataFrame bằng nhiều ví dụ

  • Thay thế một chuỗi con bằng một chuỗi con khác trong gấu trúc
  • Thay thế một mẫu chuỗi con bằng một chuỗi con khác bằng biểu thức chính quy

1. Ví dụ nhanh để thay thế chuỗi con

Nếu bạn đang vội, bên dưới là một số ví dụ nhanh về cách thay thế một chuỗi con trong một cột của DataFrame gấu trúc


# Below are some quick examples.

# Replace substring
df2 = df.replace('Py','Python with ', regex=True)

# Replace substring
df2 = df.replace('Py','Python with ', regex=True)

# Replace multiple substrings
df2 = df.replace({'Courses': 'Py', 'Duration': 'days'}, 
    {'Courses': 'Python with', 'Duration': ' Days'}, regex=True)

# Replace pattern of Substring using regular expression.
df2=df.replace(regex=['Language'],value='Lang')

# Using str.replace()
df['Courses'] = df['Courses'].str.replace('Language','Lang')

# Replace SubString using apply() function with lambda.
df2 = df.apply(lambda x: x.replace(
    {'Py':'Python with', 'Language':'Lang'},
    regex=True))

Bây giờ, hãy tạo một Khung dữ liệu gấu trúc với một vài hàng và cột, thực hiện các ví dụ này và xác thực kết quả. Khung dữ liệu của chúng tôi chứa các tên cột 


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
4, 

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
5 và

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
6


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)

Sản lượng dưới sản lượng


         Courses    Fee Duration
0          Spark  22000   30days
1        PySpark  25000   50days
2          Spark  23000   30days
3  Java Language  24000   60days
4        PySpark  26000   35days
5   PHP Language  27000   30days

2. Thay thế chuỗi con bằng cách sử dụng phương thức replace()

Bạn có thể thay thế chuỗi con của cột DataFrame của gấu trúc bằng cách sử dụng DataFrame. phương thức thay thế (). Theo mặc định, phương thức này tìm giá trị khớp chính xác và thay thế giá trị đó bằng giá trị đã chỉ định. Sử dụng


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
7 để thay thế chuỗi con

df_bucket['Uri'].str.replace('www.', '', regex=False)
1

Sản lượng dưới sản lượng. Ví dụ trên đã thay thế giá trị chuỗi con


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
8 bằng

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
9 trên cột

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
4

df_bucket['Uri'].str.replace('www.', '', regex=False)
5

Phương thức này trả về một DataFrame mới sau khi thay thế chuỗi con. Sử dụng inplace=True để thay thế trên đối tượng DataFrame hiện có

3. Thay thế nhiều chuỗi con

Hãy xem cách thay thế chuỗi con trên nhiều cột, để làm điều này, tôi sẽ sử dụng dict với tên và giá trị cột để thay thế

df_bucket['Uri'].str.replace('www.', '', regex=False)
6

Sản lượng dưới sản lượng

df_bucket['Uri'].str.replace('www.', '', regex=False)
7

4. Thay thế mẫu của chuỗi con bằng biểu thức chính quy

Sử dụng biểu thức chính quy, bạn có thể thay thế chuỗi con phù hợp bằng một chuỗi khác. Các ví dụ dưới đây tìm chuỗi


         Courses    Fee Duration
0          Spark  22000   30days
1        PySpark  25000   50days
2          Spark  23000   30days
3  Java Language  24000   60days
4        PySpark  26000   35days
5   PHP Language  27000   30days
1 và thay thế nó bằng

         Courses    Fee Duration
0          Spark  22000   30days
1        PySpark  25000   50days
2          Spark  23000   30days
3  Java Language  24000   60days
4        PySpark  26000   35days
5   PHP Language  27000   30days
2

df_bucket['Uri'].str.replace('www\.', '')
0

Sản lượng dưới sản lượng

df_bucket['Uri'].str.replace('www\.', '')
1

5. Bằng cách sử dụng str. thay thế () trên DataFrame

Ngoài ra, hãy sử dụng 


         Courses    Fee Duration
0          Spark  22000   30days
1        PySpark  25000   50days
2          Spark  23000   30days
3  Java Language  24000   60days
4        PySpark  26000   35days
5   PHP Language  27000   30days
3 để thay thế một chuỗi con, 

         Courses    Fee Duration
0          Spark  22000   30days
1        PySpark  25000   50days
2          Spark  23000   30days
3  Java Language  24000   60days
4        PySpark  26000   35days
5   PHP Language  27000   30days
4 tìm kiếm các kết quả khớp chính xác trừ khi bạn chuyển một mẫu biểu thức chính quy và tham số 

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
7

df_bucket['Uri'].str.replace('www\.', '')
5

Mang lại sản lượng tương tự như trên. Lưu ý rằng điều này thay thế giá trị trên cột


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
4 trong đối tượng DataFrame hiện có

6. Thay thế chuỗi con bằng hàm apply() bằng lambda

Trong phần này, Bạn có thể tìm hiểu cách thay thế chuỗi con bằng DataFrame. apply() và hàm


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
3. Phương thức apply() cho phép bạn áp dụng một hàm cùng với một trong các trục của DataFrame. Ví dụ dưới đây thay thế nhiều chuỗi con


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
0

Sản lượng dưới sản lượng


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
1

7. Ví dụ hoàn chỉnh về gấu trúc Thay thế chuỗi con


# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
2

Sự kết luận

Trong bài viết này, Bạn đã học cách thay thế chuỗi con của DataFrame gấu trúc bằng cách sử dụng hàm


         Courses    Fee Duration
0          Spark  22000   30days
1        PySpark  25000   50days
2          Spark  23000   30days
3  Java Language  24000   60days
4        PySpark  26000   35days
5   PHP Language  27000   30days
8 với hàm

# Create a pandas DataFrame.
import pandas as pd
import numpy as np
technologies= {
    'Courses':["Spark","PySpark","Spark","Java Language","PySpark","PHP Language"],
    'Fee' :[22000,25000,23000,24000,26000,27000],
    'Duration':['30days','50days','30days','60days','35days','30days']
          }
df = pd.DataFrame(technologies)
print(df)
3 với một số ví dụ