Chúng ta có thể đánh giá các giá trị và biến bằng cách sử dụng hàm bool[] của Python. Phương thức này được sử dụng để trả về hoặc chuyển đổi một giá trị thành giá trị Boolean i. e. , Đúng hay Sai, sử dụng quy trình kiểm tra sự thật tiêu chuẩn
Cú pháp.
bool[[x]]
Thí dụ. Phương thức bool[] trong Python
# Returns False as x is not equal to y
x = 5
y = 10
print[bool[x==y]]
# Returns False as x is None
x = None
print[bool[x]]
# Returns False as x is an empty sequence
x = []
print[bool[x]]
# Returns False as x is an empty mapping
x = {}
print[bool[x]]
# Returns False as x is 0
x = 0.0
print[bool[x]]
# Returns True as x is a non empty string
x = 'GeeksforGeeks'
print[bool[x]]
Đầu ra
Sai
Sai
Sai
Sai
False
True
Số nguyên và Floats dưới dạng Booleans
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
Đầu ra.
Sai
Đúng
Đúng
kiểu int
int [Số nguyên] là số nguyên, kể cả số âm nhưng không phải phân số. Trong Python, không có giới hạn về thời lượng của một giá trị số nguyên
Đây là bài viết đầu tiên trong loạt bài viết của tôi về Python cho Xử lý ngôn ngữ tự nhiên [NLP]. Trong bài viết này, chúng ta sẽ bắt đầu với những điều cơ bản về Python cho NLP. Chúng ta sẽ xem cách chúng ta có thể làm việc với các tệp văn bản và tệp PDF đơn giản bằng Python
Làm việc với tệp văn bản
Các tệp văn bản có lẽ là loại tệp cơ bản nhất mà bạn sẽ gặp trong nỗ lực NLP của mình. Trong phần này, chúng ta sẽ xem cách đọc từ tệp văn bản trong Python, tạo tệp văn bản và ghi dữ liệu vào tệp văn bản
Đọc một tệp văn bản
Tạo một tệp văn bản với văn bản sau và lưu nó vào thư mục cục bộ của bạn với phần mở rộng ". txt" tiện ích mở rộng
Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
Trong trường hợp của tôi, tôi đã lưu tệp có tên "myfile. txt" trong thư mục gốc của tôi "D. " danh mục
Đọc tất cả nội dung tệpBây giờ hãy xem làm thế nào chúng ta có thể đọc toàn bộ nội dung của tệp. Bước đầu tiên là chỉ định đường dẫn của tệp, như hình bên dưới
myfile = open["D:\myfile.txt"]
Để mở tệp, bạn có thể sử dụng hàm
8 tích hợp sẵn của Python. Nếu bạn thực thi đoạn code trên mà không thấy báo lỗi nghĩa là file của bạn đã được mở thành công. Đảm bảo thay đổi đường dẫn tệp thành vị trí bạn đã lưu tệp văn bản của mìnhBây giờ chúng ta hãy xem những gì được lưu trữ trong biến
9print[myfile]
Đầu ra trông như thế này
Đầu ra đọc rằng biến
9 là một trình bao bọc cho tệp myfile222 = open["D:\myfile222.txt"]
print[myfile222]
1 và mở tệp ở chế độ chỉ đọcNếu bạn chỉ định đường dẫn tệp sai, bạn có thể gặp lỗi sau
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
1Bất cứ khi nào bạn nhận được Errno 2, có thể có hai lý do. Tệp của bạn không tồn tại hoặc bạn đã cung cấp sai đường dẫn tệp đến hàm
8Bây giờ, hãy đọc nội dung của tệp. Để làm như vậy, bạn cần gọi hàm
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
3 trên biến
9, như hình bên dướiNumbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
5Ở đầu ra, bạn sẽ thấy văn bản của tệp, như hình bên dưới
Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
Bây giờ nếu bạn thử gọi lại phương thức
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
5, bạn sẽ thấy rằng không có gì được in trên bàn điều khiểnNumbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
8Điều này là do khi bạn gọi phương thức
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
5, con trỏ sẽ được di chuyển đến cuối văn bản. Do đó, khi bạn gọi đọc lại, không có gì được hiển thị vì không có thêm văn bản để inMột giải pháp cho vấn đề này là sau khi gọi phương thức
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
3, hãy gọi phương thức myfile222 = open["D:\myfile222.txt"]
print[myfile222]
8 và chuyển 0 làm đối số. Điều này sẽ di chuyển con trỏ trở lại đầu tệp văn bản. Nhìn vào đoạn script sau để xem nó hoạt động như thế nàoWelcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
2Ở đầu ra, bạn sẽ thấy nội dung của tệp văn bản được in hai lần
Sau khi bạn làm việc xong với tệp, điều quan trọng là phải đóng tệp để các ứng dụng khác có thể truy cập tệp. Để làm như vậy, bạn cần gọi phương thức
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
9myfile = open["D:\myfile.txt"]
0Đọc từng dòng tệpThay vì đọc tất cả nội dung của tệp cùng một lúc, chúng ta cũng có thể đọc nội dung tệp theo từng dòng. Để làm như vậy, chúng ta cần thực thi phương thức
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
10, phương thức này trả về từng dòng trong tệp văn bản dưới dạng mục danh sáchmyfile = open["D:\myfile.txt"]
1Ở đầu ra, bạn sẽ thấy mỗi dòng trong tệp văn bản dưới dạng một mục danh sách
myfile = open["D:\myfile.txt"]
2Trong nhiều trường hợp, điều này làm cho văn bản dễ làm việc hơn. Ví dụ: giờ đây chúng ta có thể dễ dàng lặp qua từng dòng và in từ đầu tiên trong dòng
myfile = open["D:\myfile.txt"]
3Đầu ra trông như thế này
myfile = open["D:\myfile.txt"]
4Ghi vào tệp văn bản
Để ghi vào tệp văn bản, bạn chỉ cần mở tệp có chế độ được đặt thành
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
11 hoặc Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
12. Cái trước mở tệp ở chế độ ghi, trong khi cái sau mở tệp ở cả chế độ đọc và ghi. Nếu tệp không tồn tại, nó sẽ được tạo. Điều quan trọng cần đề cập là nếu bạn mở một tệp đã chứa một số văn bản ở chế độ Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
11 hoặc Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
12, thì tất cả nội dung tệp hiện có sẽ bị xóa, như minh họa bên dướimyfile = open["D:\myfile.txt"]
5Ở đầu ra, bạn sẽ không thấy gì được in trên màn hình vì tệp được mở bằng chế độ
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
12, tất cả nội dung của tệp đã bị xóa. Nếu bạn muốn tránh điều này thì thay vào đó, bạn sẽ muốn nối thêm văn bản, mà tôi cũng đề cập bên dướiBây giờ, hãy viết một số nội dung trong tệp bằng phương pháp
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
16myfile = open["D:\myfile.txt"]
6Trong đoạn mã trên, chúng tôi viết văn bản vào tệp và sau đó gọi phương thức
myfile222 = open["D:\myfile222.txt"]
print[myfile222]
8 để dịch chuyển con trỏ trở lại điểm bắt đầu và sau đó gọi phương thức myfile222 = open["D:\myfile222.txt"]
print[myfile222]
5 để đọc nội dung của tệp. Trong đầu ra, bạn sẽ thấy nội dung mới được thêm vào như hình bên dướimyfile = open["D:\myfile.txt"]
7Thông thường, bạn không chỉ cần xóa sạch nội dung hiện có của tệp. Thay vào đó, bạn có thể cần thêm nội dung vào cuối tệp
Để làm như vậy, bạn cần mở tệp bằng chế độ
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
19 có nghĩa là nối thêm và đọcMột lần nữa tạo một tệp có nội dung sau và lưu nó với tên "myfile. txt" trong thư mục "D"
Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
Thực thi tập lệnh sau để mở tệp bằng chế độ chắp thêm
myfile = open["D:\myfile.txt"]
9Hãy xem hướng dẫn thực hành, thực tế của chúng tôi để học Git, với các phương pháp hay nhất, tiêu chuẩn được ngành chấp nhận và bao gồm bảng gian lận. Dừng các lệnh Git trên Google và thực sự tìm hiểu nó
Ở đầu ra, bạn sẽ thấy nội dung của tệp
Tiếp theo, hãy thêm một số văn bản vào tệp
print[myfile]
0Bây giờ chúng ta hãy đọc lại nội dung tập tin
print[myfile]
1Ở đầu ra, bạn sẽ thấy dòng mới được thêm vào cuối văn bản như hình bên dưới
print[myfile]
2Cuối cùng, trước khi chuyển sang phần tiếp theo, hãy xem cách sử dụng trình quản lý ngữ cảnh để tự động đóng tệp sau khi thực hiện các thao tác mong muốn
print[myfile]
3Sử dụng từ khóa
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
50, như được hiển thị ở trên, bạn không cần phải đóng tệp một cách rõ ràng. Thay vào đó, tập lệnh trên sẽ mở tệp, đọc nội dung của tệp và sau đó tự động đóng tệpLàm việc với tệp PDF
Ngoài các tệp văn bản, chúng ta thường phải làm việc với các tệp PDF để thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác nhau. Theo mặc định, Python không đi kèm với bất kỳ thư viện tích hợp nào có thể được sử dụng để đọc hoặc ghi tệp PDF. Thay vào đó, chúng ta có thể sử dụng thư viện PyPDF2
Trước khi có thể sử dụng thư viện PyPDF2, chúng ta cần cài đặt nó. Nếu bạn đang sử dụng trình cài đặt pip, bạn có thể sử dụng lệnh sau để cài đặt thư viện PyPDF2
print[myfile]
4Ngoài ra, nếu bạn đang sử dụng Python từ môi trường Anaconda, bạn có thể thực hiện lệnh sau tại dấu nhắc lệnh conda
print[myfile]
5Ghi chú. Điều quan trọng cần đề cập ở đây là tài liệu PDF có thể được tạo từ các nguồn khác nhau như tài liệu soạn thảo văn bản, hình ảnh, v.v. Trong bài viết này, chúng tôi sẽ chỉ xử lý các tài liệu PDF được tạo bằng trình xử lý văn bản. Đối với các tài liệu PDF được tạo bằng hình ảnh, có các thư viện chuyên biệt khác mà tôi sẽ giải thích trong một bài viết sau. Hiện tại, chúng tôi sẽ chỉ làm việc với các tài liệu PDF được tạo bằng trình xử lý văn bản
Là một tài liệu giả để chơi xung quanh, bạn có thể tải xuống bản PDF từ liên kết này
http. //www. thợ may bav. com/wp-content/uploads/2018/10/Lorem-Ipsum. pdf
Tải xuống tài liệu cục bộ tại thư mục gốc của ổ đĩa "D"
Đọc tài liệu PDF
Để đọc một tài liệu PDF, trước tiên chúng ta phải mở nó như bất kỳ tệp thông thường nào. Nhìn vào đoạn script sau
print[myfile]
6Điều quan trọng cần đề cập là khi mở tệp PDF, chế độ phải được đặt thành
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
51, viết tắt của "đọc nhị phân" vì hầu hết các tệp PDF đều ở định dạng nhị phânKhi tệp được mở, chúng ta sẽ cần gọi hàm
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
52 của thư viện PyPDF2, như hình bên dướiprint[myfile]
7Bây giờ sử dụng biến
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
53, chúng ta có thể thực hiện nhiều chức năng đọc khác nhau. Chẳng hạn, để lấy tổng số trang trong tài liệu PDF, chúng ta có thể sử dụng thuộc tính Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
54print[myfile]
8Vì chúng tôi chỉ có một trang 1 nên trong tài liệu PDF của chúng tôi, bạn sẽ thấy 1 ở đầu ra
Cuối cùng, để trích xuất văn bản từ tài liệu PDF, trước tiên bạn cần lấy trang của tài liệu PDF bằng hàm
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
55Tiếp theo, bạn có thể gọi hàm
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
56 để trích xuất văn bản từ trang cụ thể đóTập lệnh sau trích xuất văn bản từ trang đầu tiên của PDF và sau đó in nó trên bảng điều khiển
print[myfile]
9Ở đầu ra, bạn sẽ thấy văn bản từ trang đầu tiên của PDF
Ghi vào tài liệu PDF
Không thể viết trực tiếp các chuỗi Python vào tài liệu PDF bằng thư viện PyPDF2 do phông chữ và các ràng buộc khác. Tuy nhiên, để minh họa, chúng tôi sẽ đọc nội dung từ tài liệu PDF của mình và sau đó sẽ ghi nội dung đó vào một tệp PDF khác mà chúng tôi sẽ tạo
Trước tiên hãy đọc nội dung của trang đầu tiên trong tài liệu PDF của chúng tôi
0Đoạn script trên đọc trang đầu tiên của tài liệu PDF của chúng tôi. Bây giờ chúng ta có thể viết nội dung từ trang đầu tiên sang tài liệu PDF mới bằng cách sử dụng tập lệnh sau
1Đoạn script trên tạo một đối tượng có thể được sử dụng để ghi nội dung vào tệp PDF. Đầu tiên, chúng tôi sẽ thêm một trang vào đối tượng này và chuyển cho nó trang mà chúng tôi đã truy xuất từ tệp PDF khác
2Tiếp theo, chúng ta cần mở một tệp mới với quyền
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
57 [ghi nhị phân]. Mở tệp có quyền như vậy sẽ tạo tệp mới nếu tệp không tồn tại
3Cuối cùng, chúng ta cần gọi phương thức
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
16 trên đối tượng trình ghi PDF và chuyển tệp mới tạo cho nó
4Đóng cả hai tệp
Numbers have zero as a value is considered
as False, while if they are having value as any
positive or negative number then it is considered
as True.
var1 = 0
print[bool[var1]]
var2 = 1
print[bool[var2]]
var3 = -9.7
print[bool[var3]]
59 và Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
0 và chuyển đến thư mục làm việc của chương trình. Bạn sẽ thấy một tệp mới Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
1 trong trình chỉnh sửa của mình. Mở tệp và bạn sẽ thấy rằng nó chứa nội dung từ trang đầu tiên từ tệp PDF gốc của chúng tôiHãy thử đọc nội dung của tài liệu PDF mới tạo của chúng tôi
5Bây giờ hãy làm việc với một tệp PDF lớn hơn. Tải xuống tệp PDF từ liên kết này
http. //ctan. môn Toán. utah. edu/ctan/tex-archive/macro/latex/contrib/lipsum/lipsum. pdf
Lưu nó trong thư mục địa phương của bạn. Tên của tệp đã tải xuống sẽ là "lipsum. pdf"
Thực thi đoạn script sau để xem số trang trong tệp
6Ở đầu ra, bạn sẽ thấy 87 trang được in ra vì PDF có 87 trang. Hãy in tất cả các trang trong tài liệu trên bàn điều khiển
7Ở đầu ra, bạn sẽ thấy tất cả các trang của tài liệu PDF, được in trên màn hình
Sự kết luận
Đọc và viết văn bản là bước cơ bản để phát triển các ứng dụng xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi đã giải thích cách chúng tôi có thể làm việc với các tệp văn bản và PDF bằng Python. Chúng tôi đã thấy cách đọc và viết các tệp văn bản và PDF
Trong bài viết tiếp theo, chúng ta sẽ bắt đầu thảo luận về một số tác vụ NLP khác như tạo gốc, từ vựng hóa, mã thông báo với thư viện spaCy