Các mô-đun được mô tả trong chương này cung cấp một loạt các thao tác xử lý chuỗi và các dịch vụ xử lý văn bản khác
Mô-đun
word[0]
7 được mô tả trong Dịch vụ dữ liệu nhị phân cũng rất phù hợp với xử lý văn bản. Ngoài ra, hãy xem tài liệu về kiểu chuỗi tích hợp sẵn của Python trong Kiểu chuỗi văn bản — str .
8 — Các thao tác chuỗi phổ biếnword[0]
- Hằng chuỗi
- Định dạng chuỗi tùy chỉnh
- Cú pháp chuỗi định dạng
- Đặc tả định dạng Ngôn ngữ nhỏ
- định dạng ví dụ
- Chuỗi mẫu
- chức năng trợ giúp
9 — Các phép toán biểu thức chính quyword[0]
- Cú pháp biểu thức chính quy
- Nội dung mô-đun
- cờ
- Chức năng
- ngoại lệ
- Đối tượng biểu thức chính quy
- đối tượng phù hợp
- Ví dụ biểu thức chính quy
- Kiểm tra một cặp
- Mô phỏng scanf[]
- tìm kiếm [] so với. cuộc thi đấu[]
- Lập danh bạ
- Nhắn tin
- Tìm tất cả trạng từ
- Tìm tất cả các trạng từ và vị trí của chúng
- Ký hiệu chuỗi thô
- Viết mã thông báo
0 — Trình trợ giúp tính toán đồng bằngword[6:12]
- Đối tượng SequenceMatcher
- Các ví dụ về SequenceMatcher
- đối tượng khác nhau
- Ví dụ khác
- Giao diện dòng lệnh cho difflib
1 — Gói và điền văn bảnword[6:12]
2 — Cơ sở dữ liệu Unicodeword[6:12]
3 — Chuẩn bị chuỗi Internetword[6:12]
4 — Giao diện đường đọc GNUword[6:12]
- tập tin ban đầu
- bộ đệm dòng
- Tập tin lịch sử
- danh sách lịch sử
- móc khởi động
- Hoàn thành
- Thí dụ
5 — Chức năng hoàn thành cho dòng đọc GNUword[6:12]
- đối tượng hoàn thành
Bây giờ chúng ta hãy chuyển sang một lĩnh vực chủ đề lớn nhưng rất thú vị khác từ lĩnh vực Khoa học dữ liệu. Xử lý ngôn ngữ tự nhiên
Tôi đã đề cập đến chủ đề Thao tác chuỗi một lần khi bắt đầu loạt blog của mình về Khoa học dữ liệu với Python. Đó là về việc xử lý các cột văn bản với các chức năng như
- Riêng biệt
- Đoàn kết và
- tiền tố
Trong phần sau, chúng ta sẽ tìm hiểu sâu hơn về chủ đề xử lý văn bản để có thể trích xuất những hiểu biết có giá trị từ các biến văn bản bằng cách sử dụng máy học
1. 1 NLP là gì?
Xử lý ngôn ngữ tự nhiên [NLP], là một nhánh của trí tuệ nhân tạo và thường được định nghĩa là thao tác tự động đối với ngôn ngữ tự nhiên, chẳng hạn như lời nói và văn bản, bằng phần mềm. Giao diện Xử lý ngôn ngữ tự nhiên với nhiều lĩnh vực, bao gồm khoa học máy tính và ngôn ngữ học tính toán, để thu hẹp khoảng cách giữa giao tiếp của con người và sự hiểu biết của máy tính
NLP không phải là một khoa học mới theo nghĩa này và đã có từ rất lâu. Trong những năm gần đây, nhu cầu và sự quan tâm đến giao tiếp giữa người và máy đã tăng lên đáng kể, do đó, với sự sẵn có của dữ liệu lớn và máy tính ngày càng mạnh mẽ, công nghệ cho NLP cũng đã phát triển nhanh chóng và hiện có thể tiếp cận được với nhiều bên quan tâm.
1. 2 Viễn cảnh tương lai cho NLP
Quy mô thị trường Xử lý ngôn ngữ tự nhiên [NLP] toàn cầu dự kiến sẽ tăng từ 11 USD. 6 tỷ vào năm 2020 lên 35 USD. 1 tỷ vào năm 2026, theo thống kê từ MarketsandMarkets. Việc áp dụng ngày càng nhiều các ứng dụng dựa trên NLP trong các ngành công nghiệp khác nhau dự kiến sẽ mang lại cơ hội to lớn cho các nhà cung cấp NLP
1. 3 lĩnh vực ứng dụng của NLP
Cùng điểm qua 11 ứng dụng thú vị nhất của xử lý ngôn ngữ tự nhiên trong kinh doanh
- Phân tích tình cảm
- Phân loại văn bản
- Chatbot & Trợ lý ảo
- trích xuất văn bản
- Dịch máy
- Tóm tắt văn bản
- Thông tin thị trường
- Tự động sửa lỗi
- Phân loại ý định
- Phát hiện khẩn cấp
- Nhận dạng giọng nói
Tôi sẽ bắt đầu ở đây với những điều cơ bản và sau đó từ bài đăng này sang bài đăng khác bao gồm các chủ đề sâu hơn và sâu hơn như được mô tả ở trên
2 Thao tác văn bản
Trước khi chúng ta có thể thực hiện những bước đầu tiên đối với NLP, chúng ta nên biết những điều cơ bản về thao tác văn bản. Chúng là những điều cơ bản nhưng chúng rất cần thiết để thực hiện các bước tiếp theo đối với việc đào tạo người mẫu
2. 1 biến chuỗi
Trước hết, chúng ta gán một chuỗi mẫu cho một đối tượng
word = "Hello World!"
print[word]
2. 2 Sử dụng dấu ngoặc kép
Nếu bạn muốn sử dụng dấu ngoặc kép trong một chuỗi, bạn nên chọn một trong hai tùy chọn sau và tuân theo biến thể đã chọn vì mục đích nhất quán để tránh các sự cố sau này
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
2. 3 Lấy thông tin cụ thể từ một chuỗi
Truy cập ký tự đầu tiên của chuỗi
word[0]
Truy cập các ký tự cụ thể của một chuỗi thông qua cắt
word[6:12]
word[:5]
Lấy độ dài của một chuỗi
len[word]
Đếm số lượng chữ cái cụ thể [ở đây là 'l'] trong một chuỗi
word.count['l']
Tìm chỉ mục của một chữ cái cụ thể
________số 8Đúng vậy, chữ W của từ World nằm ở vị trí chỉ số 6 trong chuỗi của chúng ta. Chúng tôi không chỉ phải tìm kiếm một số chữ cái nhất định [có thể có một số chữ cái giống hệt nhau trong một chuỗi, trong trường hợp này, giá trị chỉ mục của chữ cái đầu tiên được tìm thấy sẽ được xuất ra] mà chúng tôi cũng có thể xuất chỉ mục bắt đầu từ một từ nhất định
word.index['World']
2. Thao tác 4 chuỗi
Đối với các ví dụ sau, chúng ta hãy xem loại chuỗi ví dụ này
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
0Chuyển đổi tất cả các ký tự thành chữ hoa
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
1Chuyển đổi tất cả các ký tự thành chữ thường
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
2Viết hoa chữ cái đầu tiên của mỗi từ
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
3Chỉ viết hoa chữ cái đầu tiên của câu
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
4Bạn cũng có khả năng đảo ngược chữ hoa và chữ thường của một chuỗi. Hãy lấy câu ví dụ này cho điều này
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
5quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
62. 5 phép tính số học
Các phép toán cũng có thể thực hiện được với các chuỗi. Xem các ví dụ sau
Bổ sung một phần chuỗi khác
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
7Có một chuỗi phát lại nhiều lần
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
8Hoặc đẹp hơn một chút
quotation_marks_var1 = 'Hi, my name is "Alice"'
print[quotation_marks_var1]
9Với phép nối, chúng ta có thể chèn khoảng trắng giữa các chữ cái riêng lẻ
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
0hoặc đảo ngược thứ tự của sting
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
12. 6 Kiểm tra thuộc tính chuỗi
Sau đây tôi sẽ kiểm tra một số thuộc tính của chuỗi
Ở đây một lần nữa chuỗi
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
2Kiểm tra xem tất cả các ký tự của sting có phải là chữ và số không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
3Kiểm tra xem tất cả các ký tự của sting có phải là chữ cái không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
4Kiểm tra xem chuỗi có chứa chữ số không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
5Kiểm tra xem chuỗi có chứa từ tiêu đề không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
6Kiểm tra xem chuỗi hoàn chỉnh có viết hoa không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
7Kiểm tra xem chuỗi hoàn chỉnh có ở dạng chữ thường không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
8Kiểm tra xem chuỗi có chứa khoảng trắng không
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
9Kiểm tra xem chuỗi có kết thúc bằng a không
word[0]
0Kiểm tra xem chuỗi có bắt đầu bằng chữ 'H' không
word[0]
12. 7 Thay thế một số ký tự trong chuỗi
Rất thường được sử dụng trong thực tế để thay thế các bộ phận chuỗi
quotation_marks_var2 = "Hi, my name is 'Alice'"
print[quotation_marks_var2]
2word[0]
3word[0]
42. 8 Đối với Vòng lặp có Chuỗi
Cuối cùng, hai ví dụ về cách sử dụng vòng lặp for kết hợp với chuỗi
word[0]
5word[0]
63. Kết luận
Trong bài đăng này, tôi đã giới thiệu chủ đề về NLP và chỉ ra những điều cơ bản về thao tác văn bản. Sau đây tôi sẽ bắt đầu với chủ đề tiền xử lý văn bản