Kiểu dữ liệu python cheat sheet pdf
Chúng ta có thể đánh giá các giá trị và biến bằng cách sử dụng hàm bool() của Python. Phương thức này được sử dụng để trả về hoặc chuyển đổi một giá trị thành giá trị Boolean i. e. , Đúng hay Sai, sử dụng quy trình kiểm tra sự thật tiêu chuẩn Show Cú pháp. Thí dụ. Phương thức bool() trong Python
Đầu ra Số nguyên và Floats dưới dạng Booleans
Đầu ra. kiểu intint (Số nguyên) là số nguyên, kể cả số âm nhưng không phải phân số. Trong Python, không có giới hạn về thời lượng của một giá trị số nguyên Đây là bài viết đầu tiên trong loạt bài viết của tôi về Python cho Xử lý ngôn ngữ tự nhiên (NLP). Trong bài viết này, chúng ta sẽ bắt đầu với những điều cơ bản về Python cho NLP. Chúng ta sẽ xem cách chúng ta có thể làm việc với các tệp văn bản và tệp PDF đơn giản bằng Python Làm việc với tệp văn bảnCác tệp văn bản có lẽ là loại tệp cơ bản nhất mà bạn sẽ gặp trong nỗ lực NLP của mình. Trong phần này, chúng ta sẽ xem cách đọc từ tệp văn bản trong Python, tạo tệp văn bản và ghi dữ liệu vào tệp văn bản Đọc một tệp văn bảnTạo một tệp văn bản với văn bản sau và lưu nó vào thư mục cục bộ của bạn với phần mở rộng ". txt" tiện ích mở rộng
Trong trường hợp của tôi, tôi đã lưu tệp có tên "myfile. txt" trong thư mục gốc của tôi "D. " danh mục Đọc tất cả nội dung tệpBây giờ hãy xem làm thế nào chúng ta có thể đọc toàn bộ nội dung của tệp. Bước đầu tiên là chỉ định đường dẫn của tệp, như hình bên dưới
Để mở tệp, bạn có thể sử dụng hàm 8 tích hợp sẵn của Python. Nếu bạn thực thi đoạn code trên mà không thấy báo lỗi nghĩa là file của bạn đã được mở thành công. Đảm bảo thay đổi đường dẫn tệp thành vị trí bạn đã lưu tệp văn bản của mìnhBây giờ chúng ta hãy xem những gì được lưu trữ trong biến 9
Đầu ra trông như thế này
Đầu ra đọc rằng biến 9 là một trình bao bọc cho tệp 1 và mở tệp ở chế độ chỉ đọcNếu bạn chỉ định đường dẫn tệp sai, bạn có thể gặp lỗi sau
1Bất cứ khi nào bạn nhận được Errno 2, có thể có hai lý do. Tệp của bạn không tồn tại hoặc bạn đã cung cấp sai đường dẫn tệp đến hàm 8Bây giờ, hãy đọc nội dung của tệp. Để làm như vậy, bạn cần gọi hàm 3 trên biến 9, như hình bên dưới 5Ở đầu ra, bạn sẽ thấy văn bản của tệp, như hình bên dưới
Bây giờ nếu bạn thử gọi lại phương thức 5, bạn sẽ thấy rằng không có gì được in trên bàn điều khiển 8Điều này là do khi bạn gọi phương thức 5, con trỏ sẽ được di chuyển đến cuối văn bản. Do đó, khi bạn gọi đọc lại, không có gì được hiển thị vì không có thêm văn bản để inMột giải pháp cho vấn đề này là sau khi gọi phương thức 3, hãy gọi phương thức 8 và chuyển 0 làm đối số. Điều này sẽ di chuyển con trỏ trở lại đầu tệp văn bản. Nhìn vào đoạn script sau để xem nó hoạt động như thế nào 2Ở đầu ra, bạn sẽ thấy nội dung của tệp văn bản được in hai lần Sau khi bạn làm việc xong với tệp, điều quan trọng là phải đóng tệp để các ứng dụng khác có thể truy cập tệp. Để làm như vậy, bạn cần gọi phương thức 9 0Đọc từng dòng tệpThay vì đọc tất cả nội dung của tệp cùng một lúc, chúng ta cũng có thể đọc nội dung tệp theo từng dòng. Để làm như vậy, chúng ta cần thực thi phương thức 10, phương thức này trả về từng dòng trong tệp văn bản dưới dạng mục danh sách 1Ở đầu ra, bạn sẽ thấy mỗi dòng trong tệp văn bản dưới dạng một mục danh sách 2Trong nhiều trường hợp, điều này làm cho văn bản dễ làm việc hơn. Ví dụ: giờ đây chúng ta có thể dễ dàng lặp qua từng dòng và in từ đầu tiên trong dòng 3Đầu ra trông như thế này 4Ghi vào tệp văn bảnĐể ghi vào tệp văn bản, bạn chỉ cần mở tệp có chế độ được đặt thành 11 hoặc 12. Cái trước mở tệp ở chế độ ghi, trong khi cái sau mở tệp ở cả chế độ đọc và ghi. Nếu tệp không tồn tại, nó sẽ được tạo. Điều quan trọng cần đề cập là nếu bạn mở một tệp đã chứa một số văn bản ở chế độ 11 hoặc 12, thì tất cả nội dung tệp hiện có sẽ bị xóa, như minh họa bên dưới 5Ở đầu ra, bạn sẽ không thấy gì được in trên màn hình vì tệp được mở bằng chế độ 12, tất cả nội dung của tệp đã bị xóa. Nếu bạn muốn tránh điều này thì thay vào đó, bạn sẽ muốn nối thêm văn bản, mà tôi cũng đề cập bên dướiBây giờ, hãy viết một số nội dung trong tệp bằng phương pháp 16 6Trong đoạn mã trên, chúng tôi viết văn bản vào tệp và sau đó gọi phương thức 8 để dịch chuyển con trỏ trở lại điểm bắt đầu và sau đó gọi phương thức 5 để đọc nội dung của tệp. Trong đầu ra, bạn sẽ thấy nội dung mới được thêm vào như hình bên dưới 7Thông thường, bạn không chỉ cần xóa sạch nội dung hiện có của tệp. Thay vào đó, bạn có thể cần thêm nội dung vào cuối tệp Để làm như vậy, bạn cần mở tệp bằng chế độ 19 có nghĩa là nối thêm và đọcMột lần nữa tạo một tệp có nội dung sau và lưu nó với tên "myfile. txt" trong thư mục "D"
Thực thi tập lệnh sau để mở tệp bằng chế độ chắp thêm 9Hãy xem hướng dẫn thực hành, thực tế của chúng tôi để học Git, với các phương pháp hay nhất, tiêu chuẩn được ngành chấp nhận và bao gồm bảng gian lận. Dừng các lệnh Git trên Google và thực sự tìm hiểu nó Ở đầu ra, bạn sẽ thấy nội dung của tệp Tiếp theo, hãy thêm một số văn bản vào tệp 0Bây giờ chúng ta hãy đọc lại nội dung tập tin 1Ở đầu ra, bạn sẽ thấy dòng mới được thêm vào cuối văn bản như hình bên dưới 2Cuối cùng, trước khi chuyển sang phần tiếp theo, hãy xem cách sử dụng trình quản lý ngữ cảnh để tự động đóng tệp sau khi thực hiện các thao tác mong muốn 3Sử dụng từ khóa 50, như được hiển thị ở trên, bạn không cần phải đóng tệp một cách rõ ràng. Thay vào đó, tập lệnh trên sẽ mở tệp, đọc nội dung của tệp và sau đó tự động đóng tệpLàm việc với tệp PDFNgoài các tệp văn bản, chúng ta thường phải làm việc với các tệp PDF để thực hiện các tác vụ xử lý ngôn ngữ tự nhiên khác nhau. Theo mặc định, Python không đi kèm với bất kỳ thư viện tích hợp nào có thể được sử dụng để đọc hoặc ghi tệp PDF. Thay vào đó, chúng ta có thể sử dụng thư viện PyPDF2 Trước khi có thể sử dụng thư viện PyPDF2, chúng ta cần cài đặt nó. Nếu bạn đang sử dụng trình cài đặt pip, bạn có thể sử dụng lệnh sau để cài đặt thư viện PyPDF2 4Ngoài ra, nếu bạn đang sử dụng Python từ môi trường Anaconda, bạn có thể thực hiện lệnh sau tại dấu nhắc lệnh conda 5Ghi chú. Điều quan trọng cần đề cập ở đây là tài liệu PDF có thể được tạo từ các nguồn khác nhau như tài liệu soạn thảo văn bản, hình ảnh, v.v. Trong bài viết này, chúng tôi sẽ chỉ xử lý các tài liệu PDF được tạo bằng trình xử lý văn bản. Đối với các tài liệu PDF được tạo bằng hình ảnh, có các thư viện chuyên biệt khác mà tôi sẽ giải thích trong một bài viết sau. Hiện tại, chúng tôi sẽ chỉ làm việc với các tài liệu PDF được tạo bằng trình xử lý văn bản Là một tài liệu giả để chơi xung quanh, bạn có thể tải xuống bản PDF từ liên kết này http. //www. thợ may bav. com/wp-content/uploads/2018/10/Lorem-Ipsum. pdf Tải xuống tài liệu cục bộ tại thư mục gốc của ổ đĩa "D" Đọc tài liệu PDFĐể đọc một tài liệu PDF, trước tiên chúng ta phải mở nó như bất kỳ tệp thông thường nào. Nhìn vào đoạn script sau 6Điều quan trọng cần đề cập là khi mở tệp PDF, chế độ phải được đặt thành 51, viết tắt của "đọc nhị phân" vì hầu hết các tệp PDF đều ở định dạng nhị phânKhi tệp được mở, chúng ta sẽ cần gọi hàm 52 của thư viện PyPDF2, như hình bên dưới 7Bây giờ sử dụng biến 53, chúng ta có thể thực hiện nhiều chức năng đọc khác nhau. Chẳng hạn, để lấy tổng số trang trong tài liệu PDF, chúng ta có thể sử dụng thuộc tính 54 8Vì chúng tôi chỉ có một trang 1 nên trong tài liệu PDF của chúng tôi, bạn sẽ thấy 1 ở đầu ra Cuối cùng, để trích xuất văn bản từ tài liệu PDF, trước tiên bạn cần lấy trang của tài liệu PDF bằng hàm 55Tiếp theo, bạn có thể gọi hàm 56 để trích xuất văn bản từ trang cụ thể đóTập lệnh sau trích xuất văn bản từ trang đầu tiên của PDF và sau đó in nó trên bảng điều khiển 9Ở đầu ra, bạn sẽ thấy văn bản từ trang đầu tiên của PDF Ghi vào tài liệu PDFKhông thể viết trực tiếp các chuỗi Python vào tài liệu PDF bằng thư viện PyPDF2 do phông chữ và các ràng buộc khác. Tuy nhiên, để minh họa, chúng tôi sẽ đọc nội dung từ tài liệu PDF của mình và sau đó sẽ ghi nội dung đó vào một tệp PDF khác mà chúng tôi sẽ tạo Trước tiên hãy đọc nội dung của trang đầu tiên trong tài liệu PDF của chúng tôi 0Đoạn script trên đọc trang đầu tiên của tài liệu PDF của chúng tôi. Bây giờ chúng ta có thể viết nội dung từ trang đầu tiên sang tài liệu PDF mới bằng cách sử dụng tập lệnh sau 1Đoạn script trên tạo một đối tượng có thể được sử dụng để ghi nội dung vào tệp PDF. Đầu tiên, chúng tôi sẽ thêm một trang vào đối tượng này và chuyển cho nó trang mà chúng tôi đã truy xuất từ tệp PDF khác 2Tiếp theo, chúng ta cần mở một tệp mới với quyền 57 (ghi nhị phân). Mở tệp có quyền như vậy sẽ tạo tệp mới nếu tệp không tồn tại 3Cuối cùng, chúng ta cần gọi phương thức 16 trên đối tượng trình ghi PDF và chuyển tệp mới tạo cho nó 4Đóng cả hai tệp 59 và 0 và chuyển đến thư mục làm việc của chương trình. Bạn sẽ thấy một tệp mới 1 trong trình chỉnh sửa của mình. Mở tệp và bạn sẽ thấy rằng nó chứa nội dung từ trang đầu tiên từ tệp PDF gốc của chúng tôiHãy thử đọc nội dung của tài liệu PDF mới tạo của chúng tôi 5Bây giờ hãy làm việc với một tệp PDF lớn hơn. Tải xuống tệp PDF từ liên kết này http. //ctan. môn Toán. utah. edu/ctan/tex-archive/macro/latex/contrib/lipsum/lipsum. pdf Lưu nó trong thư mục địa phương của bạn. Tên của tệp đã tải xuống sẽ là "lipsum. pdf" Thực thi đoạn script sau để xem số trang trong tệp 6Ở đầu ra, bạn sẽ thấy 87 trang được in ra vì PDF có 87 trang. Hãy in tất cả các trang trong tài liệu trên bàn điều khiển 7Ở đầu ra, bạn sẽ thấy tất cả các trang của tài liệu PDF, được in trên màn hình Sự kết luậnĐọc và viết văn bản là bước cơ bản để phát triển các ứng dụng xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi đã giải thích cách chúng tôi có thể làm việc với các tệp văn bản và PDF bằng Python. Chúng tôi đã thấy cách đọc và viết các tệp văn bản và PDF Trong bài viết tiếp theo, chúng ta sẽ bắt đầu thảo luận về một số tác vụ NLP khác như tạo gốc, từ vựng hóa, mã thông báo với thư viện spaCy |