Python có tốt cho thao tác văn bản không?

Các mô-đun được mô tả trong chương này cung cấp một loạt các thao tác xử lý chuỗi và các dịch vụ xử lý văn bản khác

Mô-đun

word[0]
7 được mô tả trong Dịch vụ dữ liệu nhị phân cũng rất phù hợp với xử lý văn bản. Ngoài ra, hãy xem tài liệu về kiểu chuỗi tích hợp sẵn của Python trong Kiểu chuỗi văn bản — str .

  • word[0]
    8 — Các thao tác chuỗi phổ biến
    • Hằng chuỗi
    • Định dạng chuỗi tùy chỉnh
    • Cú pháp chuỗi định dạng
      • Đặc tả định dạng Ngôn ngữ nhỏ
      • định dạng ví dụ
    • Chuỗi mẫu
    • chức năng trợ giúp
  • word[0]
    9 — Các phép toán biểu thức chính quy
    • Cú pháp biểu thức chính quy
    • Nội dung mô-đun
      • cờ
      • Chức năng
      • ngoại lệ
    • Đối tượng biểu thức chính quy
    • đối tượng phù hợp
    • Ví dụ biểu thức chính quy
      • Kiểm tra một cặp
      • Mô phỏng scanf[]
      • tìm kiếm [] so với. cuộc thi đấu[]
      • Lập danh bạ
      • Nhắn tin
      • Tìm tất cả trạng từ
      • Tìm tất cả các trạng từ và vị trí của chúng
      • Ký hiệu chuỗi thô
      • Viết mã thông báo
  • word[6:12]
    0 — Trình trợ giúp tính toán đồng bằng
    • Đối tượng SequenceMatcher
    • Các ví dụ về SequenceMatcher
    • đối tượng khác nhau
    • Ví dụ khác
    • Giao diện dòng lệnh cho difflib
  • word[6:12]
    1 — Gói và điền văn bản
  • word[6:12]
    2 — Cơ sở dữ liệu Unicode
  • word[6:12]
    3 — Chuẩn bị chuỗi Internet
  • word[6:12]
    4 — Giao diện đường đọc GNU
    • tập tin ban đầu
    • bộ đệm dòng
    • Tập tin lịch sử
    • danh sách lịch sử
    • móc khởi động
    • Hoàn thành
    • Thí dụ
  • word[6:12]
    5 — Chức năng hoàn thành cho dòng đọc GNU
    • đối tượng hoàn thành

Bây giờ chúng ta hãy chuyển sang một lĩnh vực chủ đề lớn nhưng rất thú vị khác từ lĩnh vực Khoa học dữ liệu. Xử lý ngôn ngữ tự nhiên

Tôi đã đề cập đến chủ đề Thao tác chuỗi một lần khi bắt đầu loạt blog của mình về Khoa học dữ liệu với Python. Đó là về việc xử lý các cột văn bản với các chức năng như

  • Riêng biệt
  • Đoàn kết và
  • tiền tố

Trong phần sau, chúng ta sẽ tìm hiểu sâu hơn về chủ đề xử lý văn bản để có thể trích xuất những hiểu biết có giá trị từ các biến văn bản bằng cách sử dụng máy học

1. 1 NLP là gì?

Xử lý ngôn ngữ tự nhiên [NLP], là một nhánh của trí tuệ nhân tạo và thường được định nghĩa là thao tác tự động đối với ngôn ngữ tự nhiên, chẳng hạn như lời nói và văn bản, bằng phần mềm. Giao diện Xử lý ngôn ngữ tự nhiên với nhiều lĩnh vực, bao gồm khoa học máy tính và ngôn ngữ học tính toán, để thu hẹp khoảng cách giữa giao tiếp của con người và sự hiểu biết của máy tính

NLP không phải là một khoa học mới theo nghĩa này và đã có từ rất lâu. Trong những năm gần đây, nhu cầu và sự quan tâm đến giao tiếp giữa người và máy đã tăng lên đáng kể, do đó, với sự sẵn có của dữ liệu lớn và máy tính ngày càng mạnh mẽ, công nghệ cho NLP cũng đã phát triển nhanh chóng và hiện có thể tiếp cận được với nhiều bên quan tâm.

1. 2 Viễn cảnh tương lai cho NLP

Quy mô thị trường Xử lý ngôn ngữ tự nhiên [NLP] toàn cầu dự kiến ​​sẽ tăng từ 11 USD. 6 tỷ vào năm 2020 lên 35 USD. 1 tỷ vào năm 2026, theo thống kê từ MarketsandMarkets. Việc áp dụng ngày càng nhiều các ứng dụng dựa trên NLP trong các ngành công nghiệp khác nhau dự kiến ​​sẽ mang lại cơ hội to lớn cho các nhà cung cấp NLP

1. 3 lĩnh vực ứng dụng của NLP

Cùng điểm qua 11 ứng dụng thú vị nhất của xử lý ngôn ngữ tự nhiên trong kinh doanh

  • Phân tích tình cảm
  • Phân loại văn bản
  • Chatbot & Trợ lý ảo
  • trích xuất văn bản
  • Dịch máy
  • Tóm tắt văn bản
  • Thông tin thị trường
  • Tự động sửa lỗi
  • Phân loại ý định
  • Phát hiện khẩn cấp
  • Nhận dạng giọng nói

Tôi sẽ bắt đầu ở đây với những điều cơ bản và sau đó từ bài đăng này sang bài đăng khác bao gồm các chủ đề sâu hơn và sâu hơn như được mô tả ở trên

2 Thao tác văn bản

Trước khi chúng ta có thể thực hiện những bước đầu tiên đối với NLP, chúng ta nên biết những điều cơ bản về thao tác văn bản. Chúng là những điều cơ bản nhưng chúng rất cần thiết để thực hiện các bước tiếp theo đối với việc đào tạo người mẫu

2. 1 biến chuỗi

Trước hết, chúng ta gán một chuỗi mẫu cho một đối tượng

word = "Hello World!"

print[word]

2. 2 Sử dụng dấu ngoặc kép

Nếu bạn muốn sử dụng dấu ngoặc kép trong một chuỗi, bạn nên chọn một trong hai tùy chọn sau và tuân theo biến thể đã chọn vì mục đích nhất quán để tránh các sự cố sau này

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]

2. 3 Lấy thông tin cụ thể từ một chuỗi

Truy cập ký tự đầu tiên của chuỗi

word[0]

Truy cập các ký tự cụ thể của một chuỗi thông qua cắt

word[6:12]

word[:5]

Lấy độ dài của một chuỗi

len[word]

Đếm số lượng chữ cái cụ thể [ở đây là 'l'] trong một chuỗi

word.count['l']

Tìm chỉ mục của một chữ cái cụ thể

________số 8

Đúng vậy, chữ W của từ World nằm ở vị trí chỉ số 6 trong chuỗi của chúng ta. Chúng tôi không chỉ phải tìm kiếm một số chữ cái nhất định [có thể có một số chữ cái giống hệt nhau trong một chuỗi, trong trường hợp này, giá trị chỉ mục của chữ cái đầu tiên được tìm thấy sẽ được xuất ra] mà chúng tôi cũng có thể xuất chỉ mục bắt đầu từ một từ nhất định

word.index['World']

2. Thao tác 4 chuỗi

Đối với các ví dụ sau, chúng ta hãy xem loại chuỗi ví dụ này

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
0

Chuyển đổi tất cả các ký tự thành chữ hoa

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
1

Chuyển đổi tất cả các ký tự thành chữ thường

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
2

Viết hoa chữ cái đầu tiên của mỗi từ

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
3

Chỉ viết hoa chữ cái đầu tiên của câu

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
4

Bạn cũng có khả năng đảo ngược chữ hoa và chữ thường của một chuỗi. Hãy lấy câu ví dụ này cho điều này

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
5

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
6

2. 5 phép tính số học

Các phép toán cũng có thể thực hiện được với các chuỗi. Xem các ví dụ sau

Bổ sung một phần chuỗi khác

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
7

Có một chuỗi phát lại nhiều lần

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
8

Hoặc đẹp hơn một chút

quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
9

Với phép nối, chúng ta có thể chèn khoảng trắng giữa các chữ cái riêng lẻ

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
0

hoặc đảo ngược thứ tự của sting

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
1

2. 6 Kiểm tra thuộc tính chuỗi

Sau đây tôi sẽ kiểm tra một số thuộc tính của chuỗi

Ở đây một lần nữa chuỗi

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
2

Kiểm tra xem tất cả các ký tự của sting có phải là chữ và số không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
3

Kiểm tra xem tất cả các ký tự của sting có phải là chữ cái không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
4

Kiểm tra xem chuỗi có chứa chữ số không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
5

Kiểm tra xem chuỗi có chứa từ tiêu đề không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
6

Kiểm tra xem chuỗi hoàn chỉnh có viết hoa không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
7

Kiểm tra xem chuỗi hoàn chỉnh có ở dạng chữ thường không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
8

Kiểm tra xem chuỗi có chứa khoảng trắng không

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
9

Kiểm tra xem chuỗi có kết thúc bằng a không

word[0]
0

Kiểm tra xem chuỗi có bắt đầu bằng chữ 'H' không

word[0]
1

2. 7 Thay thế một số ký tự trong chuỗi

Rất thường được sử dụng trong thực tế để thay thế các bộ phận chuỗi

quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
2

word[0]
3

word[0]
4

2. 8 Đối với Vòng lặp có Chuỗi

Cuối cùng, hai ví dụ về cách sử dụng vòng lặp for kết hợp với chuỗi

word[0]
5

word[0]
6

3. Kết luận

Trong bài đăng này, tôi đã giới thiệu chủ đề về NLP và chỉ ra những điều cơ bản về thao tác văn bản. Sau đây tôi sẽ bắt đầu với chủ đề tiền xử lý văn bản

Thao tác văn bản trong Python là gì?

Thao tác với văn bản liên quan đến các thao tác như tách chuỗi, tìm kiếm, thay thế và phân tích cú pháp . Mặc dù nhiều tác vụ trong số này có thể được thực hiện bằng cách sử dụng các phương thức chuỗi tích hợp trong python, nhưng các thao tác phức tạp hơn yêu cầu các biểu thức chính quy.

Bạn có thể thao tác một chuỗi trong Python không?

Bạn có thể tách chuỗi bằng phương thức split[] để thực hiện thao tác chuỗi trong Python . Phương thức split[], khi được gọi trên một chuỗi, sẽ lấy một ký tự làm đối số đầu vào của nó. Sau khi thực hiện, nó sẽ tách chuỗi tại ký tự được chỉ định và trả về danh sách các chuỗi con như hình bên dưới.

Gói nào tốt cho thao tác văn bản?

Gói nguyên tử cung cấp các hành động để thao tác với văn bản. Chuyển đổi giữa các tab và dấu cách. Xóa tất cả dấu câu khỏi văn bản. Cắt tất cả các khoảng trắng ở cuối các dòng đã chọn.

Python không nên được sử dụng để làm gì?

Không phù hợp với Phát triển trò chơi và thiết bị di động . Nó không được coi là lý tưởng để phát triển ứng dụng di động và phát triển trò chơi do tiêu tốn nhiều bộ nhớ hơn và tốc độ xử lý chậm so với các ngôn ngữ lập trình khác.

Chủ Đề