Kiểu dữ liệu python cheat sheet pdf

Chúng ta có thể đánh giá các giá trị và biến bằng cách sử dụng hàm bool() của Python. Phương thức này được sử dụng để trả về hoặc chuyển đổi một giá trị thành giá trị Boolean i. e. , Đúng hay Sai, sử dụng quy trình kiểm tra sự thật tiêu chuẩn

Cú pháp.

bool([x])

Thí dụ. Phương thức bool() trong Python

# Returns False as x is not equal to y
x = 5
y = 10
print(bool(x==y))
 
# Returns False as x is None
x = None
print(bool(x))
 
# Returns False as x is an empty sequence
x = ()
print(bool(x))
 
# Returns False as x is an empty mapping
x = {}
print(bool(x))
 
# Returns False as x is 0
x = 0.0
print(bool(x))
 
# Returns True as x is a non empty string
x = 'GeeksforGeeks'
print(bool(x))

Đầu ra
Sai
Sai
Sai
Sai
False
True

 

Số nguyên và Floats dưới dạng Booleans

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))

Đầu ra.

Sai
Đúng
Đúng

kiểu int

int (Số nguyên) là số nguyên, kể cả số âm nhưng không phải phân số. Trong Python, không có giới hạn về thời lượng của một giá trị số nguyên

Đây là bài viết đầu tiên trong loạt bài viết của tôi về Python cho Xử lý ngôn ngữ tự nhiên (NLP). Trong bài viết này, chúng ta sẽ bắt đầu với những điều cơ bản về Python cho NLP. Chúng ta sẽ xem cách chúng ta có thể làm việc với các tệp văn bản và tệp PDF đơn giản bằng Python

Làm việc với tệp văn bản

Các tệp văn bản có lẽ là loại tệp cơ bản nhất mà bạn sẽ gặp trong nỗ lực NLP của mình. Trong phần này, chúng ta sẽ xem cách đọc từ tệp văn bản trong Python, tạo tệp văn bản và ghi dữ liệu vào tệp văn bản

Đọc một tệp văn bản

Tạo một tệp văn bản với văn bản sau và lưu nó vào thư mục cục bộ của bạn với phần mở rộng ". txt" tiện ích mở rộng

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.

Trong trường hợp của tôi, tôi đã lưu tệp có tên "myfile. txt" trong thư mục gốc của tôi "D. " danh mục

Đọc tất cả nội dung tệp

Bây giờ hãy xem làm thế nào chúng ta có thể đọc toàn bộ nội dung của tệp. Bước đầu tiên là chỉ định đường dẫn của tệp, như hình bên dưới

myfile = open("D:\myfile.txt")

Để mở tệp, bạn có thể sử dụng hàm

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
8 tích hợp sẵn của Python. Nếu bạn thực thi đoạn code trên mà không thấy báo lỗi nghĩa là file của bạn đã được mở thành công. Đảm bảo thay đổi đường dẫn tệp thành vị trí bạn đã lưu tệp văn bản của mình

Bây giờ chúng ta hãy xem những gì được lưu trữ trong biến

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
9

print(myfile)

Đầu ra trông như thế này

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>

Đầu ra đọc rằng biến

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
9 là một trình bao bọc cho tệp
myfile222 = open("D:\myfile222.txt")
print(myfile222)
1 và mở tệp ở chế độ chỉ đọc

Nếu bạn chỉ định đường dẫn tệp sai, bạn có thể gặp lỗi sau

myfile222 = open("D:\myfile222.txt")
print(myfile222)
Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
1

Bất cứ khi nào bạn nhận được Errno 2, có thể có hai lý do. Tệp của bạn không tồn tại hoặc bạn đã cung cấp sai đường dẫn tệp đến hàm

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
8

Bây giờ, hãy đọc nội dung của tệp. Để làm như vậy, bạn cần gọi hàm

myfile222 = open("D:\myfile222.txt")
print(myfile222)
3 trên biến
<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
9, như hình bên dưới

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
5

Ở đầu ra, bạn sẽ thấy văn bản của tệp, như hình bên dưới

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.

Bây giờ nếu bạn thử gọi lại phương thức

myfile222 = open("D:\myfile222.txt")
print(myfile222)
5, bạn sẽ thấy rằng không có gì được in trên bàn điều khiển

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
8

Điều này là do khi bạn gọi phương thức

myfile222 = open("D:\myfile222.txt")
print(myfile222)
5, con trỏ sẽ được di chuyển đến cuối văn bản. Do đó, khi bạn gọi đọc lại, không có gì được hiển thị vì không có thêm văn bản để in

Một giải pháp cho vấn đề này là sau khi gọi phương thức

myfile222 = open("D:\myfile222.txt")
print(myfile222)
3, hãy gọi phương thức
myfile222 = open("D:\myfile222.txt")
print(myfile222)
8 và chuyển 0 làm đối số. Điều này sẽ di chuyển con trỏ trở lại đầu tệp văn bản. Nhìn vào đoạn script sau để xem nó hoạt động như thế nào

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
2

Ở đầu ra, bạn sẽ thấy nội dung của tệp văn bản được in hai lần

Sau khi bạn làm việc xong với tệp, điều quan trọng là phải đóng tệp để các ứng dụng khác có thể truy cập tệp. Để làm như vậy, bạn cần gọi phương thức

myfile222 = open("D:\myfile222.txt")
print(myfile222)
9

myfile = open("D:\myfile.txt")
0
Đọc từng dòng tệp

Thay vì đọc tất cả nội dung của tệp cùng một lúc, chúng ta cũng có thể đọc nội dung tệp theo từng dòng. Để làm như vậy, chúng ta cần thực thi phương thức

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
10, phương thức này trả về từng dòng trong tệp văn bản dưới dạng mục danh sách

myfile = open("D:\myfile.txt")
1

Ở đầu ra, bạn sẽ thấy mỗi dòng trong tệp văn bản dưới dạng một mục danh sách

myfile = open("D:\myfile.txt")
2

Trong nhiều trường hợp, điều này làm cho văn bản dễ làm việc hơn. Ví dụ: giờ đây chúng ta có thể dễ dàng lặp qua từng dòng và in từ đầu tiên trong dòng

myfile = open("D:\myfile.txt")
3

Đầu ra trông như thế này

myfile = open("D:\myfile.txt")
4

Ghi vào tệp văn bản

Để ghi vào tệp văn bản, bạn chỉ cần mở tệp có chế độ được đặt thành

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
11 hoặc
Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
12. Cái trước mở tệp ở chế độ ghi, trong khi cái sau mở tệp ở cả chế độ đọc và ghi. Nếu tệp không tồn tại, nó sẽ được tạo. Điều quan trọng cần đề cập là nếu bạn mở một tệp đã chứa một số văn bản ở chế độ
Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
11 hoặc
Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
12, thì tất cả nội dung tệp hiện có sẽ bị xóa, như minh họa bên dưới

myfile = open("D:\myfile.txt")
5

Ở đầu ra, bạn sẽ không thấy gì được in trên màn hình vì tệp được mở bằng chế độ

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
12, tất cả nội dung của tệp đã bị xóa. Nếu bạn muốn tránh điều này thì thay vào đó, bạn sẽ muốn nối thêm văn bản, mà tôi cũng đề cập bên dưới

Bây giờ, hãy viết một số nội dung trong tệp bằng phương pháp

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
16

myfile = open("D:\myfile.txt")
6

Trong đoạn mã trên, chúng tôi viết văn bản vào tệp và sau đó gọi phương thức

myfile222 = open("D:\myfile222.txt")
print(myfile222)
8 để dịch chuyển con trỏ trở lại điểm bắt đầu và sau đó gọi phương thức
myfile222 = open("D:\myfile222.txt")
print(myfile222)
5 để đọc nội dung của tệp. Trong đầu ra, bạn sẽ thấy nội dung mới được thêm vào như hình bên dưới

myfile = open("D:\myfile.txt")
7

Thông thường, bạn không chỉ cần xóa sạch nội dung hiện có của tệp. Thay vào đó, bạn có thể cần thêm nội dung vào cuối tệp

Để làm như vậy, bạn cần mở tệp bằng chế độ

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
19 có nghĩa là nối thêm và đọc

Một lần nữa tạo một tệp có nội dung sau và lưu nó với tên "myfile. txt" trong thư mục "D"

Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.

Thực thi tập lệnh sau để mở tệp bằng chế độ chắp thêm

myfile = open("D:\myfile.txt")
9

Hãy xem hướng dẫn thực hành, thực tế của chúng tôi để học Git, với các phương pháp hay nhất, tiêu chuẩn được ngành chấp nhận và bao gồm bảng gian lận. Dừng các lệnh Git trên Google và thực sự tìm hiểu nó

Ở đầu ra, bạn sẽ thấy nội dung của tệp

Tiếp theo, hãy thêm một số văn bản vào tệp

print(myfile)
0

Bây giờ chúng ta hãy đọc lại nội dung tập tin

print(myfile)
1

Ở đầu ra, bạn sẽ thấy dòng mới được thêm vào cuối văn bản như hình bên dưới

print(myfile)
2

Cuối cùng, trước khi chuyển sang phần tiếp theo, hãy xem cách sử dụng trình quản lý ngữ cảnh để tự động đóng tệp sau khi thực hiện các thao tác mong muốn

print(myfile)
3

Sử dụng từ khóa

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
50, như được hiển thị ở trên, bạn không cần phải đóng tệp một cách rõ ràng. Thay vào đó, tập lệnh trên sẽ mở tệp, đọc nội dung của tệp và sau đó tự động đóng tệp

Làm việc với tệp PDF

Ngoài các tệp văn bản, chúng ta thường phải làm việc với các tệp PDF để thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác nhau. Theo mặc định, Python không đi kèm với bất kỳ thư viện tích hợp nào có thể được sử dụng để đọc hoặc ghi tệp PDF. Thay vào đó, chúng ta có thể sử dụng thư viện PyPDF2

Trước khi có thể sử dụng thư viện PyPDF2, chúng ta cần cài đặt nó. Nếu bạn đang sử dụng trình cài đặt pip, bạn có thể sử dụng lệnh sau để cài đặt thư viện PyPDF2

print(myfile)
4

Ngoài ra, nếu bạn đang sử dụng Python từ môi trường Anaconda, bạn có thể thực hiện lệnh sau tại dấu nhắc lệnh conda

print(myfile)
5

Ghi chú. Điều quan trọng cần đề cập ở đây là tài liệu PDF có thể được tạo từ các nguồn khác nhau như tài liệu soạn thảo văn bản, hình ảnh, v.v. Trong bài viết này, chúng tôi sẽ chỉ xử lý các tài liệu PDF được tạo bằng trình xử lý văn bản. Đối với các tài liệu PDF được tạo bằng hình ảnh, có các thư viện chuyên biệt khác mà tôi sẽ giải thích trong một bài viết sau. Hiện tại, chúng tôi sẽ chỉ làm việc với các tài liệu PDF được tạo bằng trình xử lý văn bản

Là một tài liệu giả để chơi xung quanh, bạn có thể tải xuống bản PDF từ liên kết này

http. //www. thợ may bav. com/wp-content/uploads/2018/10/Lorem-Ipsum. pdf

Tải xuống tài liệu cục bộ tại thư mục gốc của ổ đĩa "D"

Đọc tài liệu PDF

Để đọc một tài liệu PDF, trước tiên chúng ta phải mở nó như bất kỳ tệp thông thường nào. Nhìn vào đoạn script sau

print(myfile)
6

Điều quan trọng cần đề cập là khi mở tệp PDF, chế độ phải được đặt thành

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
51, viết tắt của "đọc nhị phân" vì hầu hết các tệp PDF đều ở định dạng nhị phân

Khi tệp được mở, chúng ta sẽ cần gọi hàm

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
52 của thư viện PyPDF2, như hình bên dưới

print(myfile)
7

Bây giờ sử dụng biến

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
53, chúng ta có thể thực hiện nhiều chức năng đọc khác nhau. Chẳng hạn, để lấy tổng số trang trong tài liệu PDF, chúng ta có thể sử dụng thuộc tính
Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
54

print(myfile)
8

Vì chúng tôi chỉ có một trang 1 nên trong tài liệu PDF của chúng tôi, bạn sẽ thấy 1 ở đầu ra

Cuối cùng, để trích xuất văn bản từ tài liệu PDF, trước tiên bạn cần lấy trang của tài liệu PDF bằng hàm

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
55

Tiếp theo, bạn có thể gọi hàm

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
56 để trích xuất văn bản từ trang cụ thể đó

Tập lệnh sau trích xuất văn bản từ trang đầu tiên của PDF và sau đó in nó trên bảng điều khiển

print(myfile)
9

Ở đầu ra, bạn sẽ thấy văn bản từ trang đầu tiên của PDF

Ghi vào tài liệu PDF

Không thể viết trực tiếp các chuỗi Python vào tài liệu PDF bằng thư viện PyPDF2 do phông chữ và các ràng buộc khác. Tuy nhiên, để minh họa, chúng tôi sẽ đọc nội dung từ tài liệu PDF của mình và sau đó sẽ ghi nội dung đó vào một tệp PDF khác mà chúng tôi sẽ tạo

Trước tiên hãy đọc nội dung của trang đầu tiên trong tài liệu PDF của chúng tôi

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
0

Đoạn script trên đọc trang đầu tiên của tài liệu PDF của chúng tôi. Bây giờ chúng ta có thể viết nội dung từ trang đầu tiên sang tài liệu PDF mới bằng cách sử dụng tập lệnh sau

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
1

Đoạn script trên tạo một đối tượng có thể được sử dụng để ghi nội dung vào tệp PDF. Đầu tiên, chúng tôi sẽ thêm một trang vào đối tượng này và chuyển cho nó trang mà chúng tôi đã truy xuất từ ​​tệp PDF khác

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
2

Tiếp theo, chúng ta cần mở một tệp mới với quyền

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
57 (ghi nhị phân). Mở tệp có quyền như vậy sẽ tạo tệp mới nếu tệp không tồn tại

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
3

Cuối cùng, chúng ta cần gọi phương thức

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
16 trên đối tượng trình ghi PDF và chuyển tệp mới tạo cho nó

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
4

Đóng cả hai tệp

Numbers have zero as a value is considered 
as False, while if they are having value as any 
positive or negative number then it is considered 
as True.

var1 = 0
print(bool(var1))

var2 = 1
print(bool(var2))

var3 = -9.7
print(bool(var3))
59 và
Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
0 và chuyển đến thư mục làm việc của chương trình. Bạn sẽ thấy một tệp mới
Welcome to Natural Language Processing
It is one of the most exciting research areas as of today
We will see how Python can be used to work with text files.
1 trong trình chỉnh sửa của mình. Mở tệp và bạn sẽ thấy rằng nó chứa nội dung từ trang đầu tiên từ tệp PDF gốc của chúng tôi

Hãy thử đọc nội dung của tài liệu PDF mới tạo của chúng tôi

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
5

Bây giờ hãy làm việc với một tệp PDF lớn hơn. Tải xuống tệp PDF từ liên kết này

http. //ctan. môn Toán. utah. edu/ctan/tex-archive/macro/latex/contrib/lipsum/lipsum. pdf

Lưu nó trong thư mục địa phương của bạn. Tên của tệp đã tải xuống sẽ là "lipsum. pdf"

Thực thi đoạn script sau để xem số trang trong tệp

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
6

Ở đầu ra, bạn sẽ thấy 87 trang được in ra vì PDF có 87 trang. Hãy in tất cả các trang trong tài liệu trên bàn điều khiển

<_io.TextIOWrapper name='D:\\myfile.txt' mode='r' encoding='cp1252'>
7

Ở đầu ra, bạn sẽ thấy tất cả các trang của tài liệu PDF, được in trên màn hình

Sự kết luận

Đọc và viết văn bản là bước cơ bản để phát triển các ứng dụng xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi đã giải thích cách chúng tôi có thể làm việc với các tệp văn bản và PDF bằng Python. Chúng tôi đã thấy cách đọc và viết các tệp văn bản và PDF

Trong bài viết tiếp theo, chúng ta sẽ bắt đầu thảo luận về một số tác vụ NLP khác như tạo gốc, từ vựng hóa, mã thông báo với thư viện spaCy