Python có tốt cho thao tác văn bản không?
Các mô-đun được mô tả trong chương này cung cấp một loạt các thao tác xử lý chuỗi và các dịch vụ xử lý văn bản khác Show
Mô-đun 7 được mô tả trong Dịch vụ dữ liệu nhị phân cũng rất phù hợp với xử lý văn bản. Ngoài ra, hãy xem tài liệu về kiểu chuỗi tích hợp sẵn của Python trong Kiểu chuỗi văn bản — str .
Bây giờ chúng ta hãy chuyển sang một lĩnh vực chủ đề lớn nhưng rất thú vị khác từ lĩnh vực Khoa học dữ liệu. Xử lý ngôn ngữ tự nhiên Tôi đã đề cập đến chủ đề Thao tác chuỗi một lần khi bắt đầu loạt blog của mình về Khoa học dữ liệu với Python. Đó là về việc xử lý các cột văn bản với các chức năng như
Trong phần sau, chúng ta sẽ tìm hiểu sâu hơn về chủ đề xử lý văn bản để có thể trích xuất những hiểu biết có giá trị từ các biến văn bản bằng cách sử dụng máy học 1. 1 NLP là gì?Xử lý ngôn ngữ tự nhiên (NLP), là một nhánh của trí tuệ nhân tạo và thường được định nghĩa là thao tác tự động đối với ngôn ngữ tự nhiên, chẳng hạn như lời nói và văn bản, bằng phần mềm. Giao diện Xử lý ngôn ngữ tự nhiên với nhiều lĩnh vực, bao gồm khoa học máy tính và ngôn ngữ học tính toán, để thu hẹp khoảng cách giữa giao tiếp của con người và sự hiểu biết của máy tính NLP không phải là một khoa học mới theo nghĩa này và đã có từ rất lâu. Trong những năm gần đây, nhu cầu và sự quan tâm đến giao tiếp giữa người và máy đã tăng lên đáng kể, do đó, với sự sẵn có của dữ liệu lớn và máy tính ngày càng mạnh mẽ, công nghệ cho NLP cũng đã phát triển nhanh chóng và hiện có thể tiếp cận được với nhiều bên quan tâm. 1. 2 Viễn cảnh tương lai cho NLPQuy mô thị trường Xử lý ngôn ngữ tự nhiên (NLP) toàn cầu dự kiến sẽ tăng từ 11 USD. 6 tỷ vào năm 2020 lên 35 USD. 1 tỷ vào năm 2026, theo thống kê từ MarketsandMarkets. Việc áp dụng ngày càng nhiều các ứng dụng dựa trên NLP trong các ngành công nghiệp khác nhau dự kiến sẽ mang lại cơ hội to lớn cho các nhà cung cấp NLP 1. 3 lĩnh vực ứng dụng của NLPCùng điểm qua 11 ứng dụng thú vị nhất của xử lý ngôn ngữ tự nhiên trong kinh doanh
Tôi sẽ bắt đầu ở đây với những điều cơ bản và sau đó từ bài đăng này sang bài đăng khác bao gồm các chủ đề sâu hơn và sâu hơn như được mô tả ở trên 2 Thao tác văn bản Trước khi chúng ta có thể thực hiện những bước đầu tiên đối với NLP, chúng ta nên biết những điều cơ bản về thao tác văn bản. Chúng là những điều cơ bản nhưng chúng rất cần thiết để thực hiện các bước tiếp theo đối với việc đào tạo người mẫu 2. 1 biến chuỗiTrước hết, chúng ta gán một chuỗi mẫu cho một đối tượng
2. 2 Sử dụng dấu ngoặc képNếu bạn muốn sử dụng dấu ngoặc kép trong một chuỗi, bạn nên chọn một trong hai tùy chọn sau và tuân theo biến thể đã chọn vì mục đích nhất quán để tránh các sự cố sau này
2. 3 Lấy thông tin cụ thể từ một chuỗiTruy cập ký tự đầu tiên của chuỗi
Truy cập các ký tự cụ thể của một chuỗi thông qua cắt
Lấy độ dài của một chuỗi
Đếm số lượng chữ cái cụ thể (ở đây là 'l') trong một chuỗi
Tìm chỉ mục của một chữ cái cụ thể ________số 8Đúng vậy, chữ W của từ World nằm ở vị trí chỉ số 6 trong chuỗi của chúng ta. Chúng tôi không chỉ phải tìm kiếm một số chữ cái nhất định (có thể có một số chữ cái giống hệt nhau trong một chuỗi, trong trường hợp này, giá trị chỉ mục của chữ cái đầu tiên được tìm thấy sẽ được xuất ra) mà chúng tôi cũng có thể xuất chỉ mục bắt đầu từ một từ nhất định
2. Thao tác 4 chuỗiĐối với các ví dụ sau, chúng ta hãy xem loại chuỗi ví dụ này 0Chuyển đổi tất cả các ký tự thành chữ hoa 1Chuyển đổi tất cả các ký tự thành chữ thường 2Viết hoa chữ cái đầu tiên của mỗi từ 3Chỉ viết hoa chữ cái đầu tiên của câu 4Bạn cũng có khả năng đảo ngược chữ hoa và chữ thường của một chuỗi. Hãy lấy câu ví dụ này cho điều này 5 62. 5 phép tính số họcCác phép toán cũng có thể thực hiện được với các chuỗi. Xem các ví dụ sau Bổ sung một phần chuỗi khác 7Có một chuỗi phát lại nhiều lần 8Hoặc đẹp hơn một chút 9Với phép nối, chúng ta có thể chèn khoảng trắng giữa các chữ cái riêng lẻ 0hoặc đảo ngược thứ tự của sting 12. 6 Kiểm tra thuộc tính chuỗiSau đây tôi sẽ kiểm tra một số thuộc tính của chuỗi Ở đây một lần nữa chuỗi 2Kiểm tra xem tất cả các ký tự của sting có phải là chữ và số không 3Kiểm tra xem tất cả các ký tự của sting có phải là chữ cái không 4Kiểm tra xem chuỗi có chứa chữ số không 5Kiểm tra xem chuỗi có chứa từ tiêu đề không 6Kiểm tra xem chuỗi hoàn chỉnh có viết hoa không 7Kiểm tra xem chuỗi hoàn chỉnh có ở dạng chữ thường không 8Kiểm tra xem chuỗi có chứa khoảng trắng không 9Kiểm tra xem chuỗi có kết thúc bằng a không 0Kiểm tra xem chuỗi có bắt đầu bằng chữ 'H' không 12. 7 Thay thế một số ký tự trong chuỗiRất thường được sử dụng trong thực tế để thay thế các bộ phận chuỗi 2 3 42. 8 Đối với Vòng lặp có ChuỗiCuối cùng, hai ví dụ về cách sử dụng vòng lặp for kết hợp với chuỗi 5 63. Kết luận Trong bài đăng này, tôi đã giới thiệu chủ đề về NLP và chỉ ra những điều cơ bản về thao tác văn bản. Sau đây tôi sẽ bắt đầu với chủ đề tiền xử lý văn bản Thao tác văn bản trong Python là gì?Thao tác với văn bản liên quan đến các thao tác như tách chuỗi, tìm kiếm, thay thế và phân tích cú pháp . Mặc dù nhiều tác vụ trong số này có thể được thực hiện bằng cách sử dụng các phương thức chuỗi tích hợp trong python, nhưng các thao tác phức tạp hơn yêu cầu các biểu thức chính quy.
Bạn có thể thao tác một chuỗi trong Python không?Bạn có thể tách chuỗi bằng phương thức split() để thực hiện thao tác chuỗi trong Python . Phương thức split(), khi được gọi trên một chuỗi, sẽ lấy một ký tự làm đối số đầu vào của nó. Sau khi thực hiện, nó sẽ tách chuỗi tại ký tự được chỉ định và trả về danh sách các chuỗi con như hình bên dưới.
Gói nào tốt cho thao tác văn bản?Gói nguyên tử cung cấp các hành động để thao tác với văn bản. Chuyển đổi giữa các tab và dấu cách. Xóa tất cả dấu câu khỏi văn bản. Cắt tất cả các khoảng trắng ở cuối các dòng đã chọn.
Python không nên được sử dụng để làm gì?Không phù hợp với Phát triển trò chơi và thiết bị di động
. Nó không được coi là lý tưởng để phát triển ứng dụng di động và phát triển trò chơi do tiêu tốn nhiều bộ nhớ hơn và tốc độ xử lý chậm so với các ngôn ngữ lập trình khác. |