nhập docx
từ tài liệu nhập docx
nhập gấu trúc dưới dạng pd
list_elements=
tài liệu = docx. Document["/content/drive/MyDrive/Colab Notebooks/Localization/Case Study 3 - 20. 1. 2022_Tiếng Hindi. docx"]
ký sinh = tài liệu. đoạn văn
cho para trong para
văn bản = đoạn. chữ
kích thước = 'Không'
nếu cho. Phong cách. nét chữ. kích thước không phải là Không có
kích thước = para. Phong cách. nét chữ. kích thước. điểm
phong cách = para. Phong cách. Tên
căn chỉnh = para. căn chỉnh
màu = para. Phong cách. nét chữ. màu. rgb
font_type = Không có
cho chạy trong para. chạy
nếu chạy. Dũng cảm
font_type = 'đậm'
yêu tinh chạy. chữ nghiêng
font_type = 'nghiêng'
khác
font_type = Không có
list_elements. chắp thêm[[văn bản,kiểu,kích thước,căn chỉnh,loại_phông,màu]]
df = pd. DataFrame[list_elements,columns=[‘text’,‘style’,‘size’,‘alignment’,‘Font_type’,‘color’]]
Tôi đang sử dụng docx và regex để tìm và thay thế một số từ khóa nhất định từ tài liệu từ. Việc tìm kiếm và thay thế đang hoạt động tốt. Khi từ được thay thế, nó được đặt thành một phông chữ nhỏ hơn nhiều so với trước đây, đôi khi. Hành vi này không nhất quán - trên một số phần, văn bản được thay thế bằng cỡ chữ chính xác [khớp với văn bản trước đó]
Tôi đã không thể tìm thấy bất cứ điều gì về chủ đề này. Bất cứ ai có thể giải thích nếu đây là hành vi mong đợi và nếu vậy làm thế nào tôi có thể sửa nó?
Tôi đã thử kiểm tra kích thước phông chữ của văn bản trước và sau khi thay thế. Theo nhật ký, chúng có cùng kích thước nhưng trong tài liệu đã lưu thực tế thì chúng không
Tài liệu Word chứa văn bản được định dạng được bao bọc trong ba cấp độ đối tượng. Đối tượng cấp thấp nhất, đối tượng đoạn văn cấp trung và đối tượng tài liệu cấp cao nhất. Vì vậy, chúng ta không thể làm việc với những văn bản này bằng các trình soạn thảo văn bản thông thường. Tuy nhiên, chúng ta có thể thao tác với các tài liệu từ này trong python bằng cách sử dụng mô-đun python-docx. Lệnh Pip để cài đặt mô-đun này là
pip install python-docx
Mô-đun docx Python cho phép người dùng thao tác với tài liệu bằng cách thao tác với tài liệu hiện có hoặc tạo một tài liệu trống mới và thao tác với nó. Nó là một công cụ mạnh mẽ vì nó giúp bạn thao tác với tài liệu ở phạm vi rất lớn. Bạn cũng có thể thao tác kích thước phông chữ, màu sắc và phong cách của nó bằng mô-đun này
Cỡ chữ
Để tăng/giảm kích thước phông chữ của văn bản, trước tiên bạn phải tạo một đối tượng đoạn văn, sau đó bạn phải sử dụng phương thức add_run[] để thêm nội dung. Bạn có thể trực tiếp sử dụng phương thức add_paragraph[] để thêm đoạn nhưng nếu bạn muốn tăng/giảm kích thước phông chữ của văn bản, bạn phải sử dụng add_run[] vì tất cả định dạng cấp khối được thực hiện bằng cách sử dụng phương thức add_paragraph[] trong khi tất cả
Bây giờ để đặt kích thước phông chữ mới, chúng tôi sẽ sử dụng. nét chữ. phương pháp kích thước. Đây là phương thức của đối tượng phông chữ và được sử dụng để đặt kích thước phông chữ mới cho văn bản
cú pháp. cho. nét chữ. kích thước = Chiều dài
Tham số.
Chiều dài. Nó xác định kích thước của phông chữ. Nó có thể tính bằng inch, pt hoặc cm
ví dụ 1. Đặt kích thước phông chữ của văn bản trong một đoạn văn
Python3
# Import docx NOT python-docx
import
docx
doc.bold = True0
doc.bold = True1
import
doc.bold = True3
doc.bold = True4
doc.bold = True5
doc.bold = True6
doc.bold = True7
doc.bold = True8
doc.bold = True4
add_run[" text "].bold=True0
add_run[" text "].bold=True1
add_run[" text "].bold=True2
add_run[" text "].bold=True3
add_run[" text "].bold=True4
add_run[" text "].bold=True5
doc.bold = True4
add_run[" text "].bold=True7
add_run[" text "].bold=True1
add_run[" text "].bold=True9
add_run[" text "].bold=True3
doc.italic = True1
add_run[" text "].bold=True5
doc.italic = True3
doc.bold = True7
doc.italic = True5
doc.italic = True6_______21_______7
add_run[" text "].bold=True5
doc.italic = True9
add_run[" text "].italic=True0_______1_______7
add_run[" text "].italic=True2
add_run[" text "].italic=True3
add_run[" text "].bold=True5
doc.bold = True4
add_run[" text "].italic=True6
add_run[" text "].bold=True1
add_run[" text "].italic=True8
add_run[" text "].bold=True3
doc.italic = True1
add_run[" text "].bold=True5
doc.underline = True2
doc.italic = True6_______21_______7
add_run[" text "].bold=True5
doc.bold = True4
doc.underline = True7
doc.underline = True8
doc.underline = True9
add_run[" text "].bold=True5
đầu ra
Màu phông chữ
Để áp dụng màu phông chữ cho văn bản, trước tiên bạn phải tạo một đối tượng đoạn văn, sau đó bạn phải sử dụng phương thức add_run[] để thêm nội dung. Bạn có thể trực tiếp sử dụng phương thức add_paragraph[] để thêm đoạn văn nhưng nếu bạn muốn áp dụng màu phông chữ cho văn bản, bạn phải sử dụng add_run[] vì tất cả định dạng cấp khối được thực hiện bằng cách sử dụng phương thức add_paragraph[] trong khi tất cả ký tự-
Để đặt màu cho phông chữ, chúng tôi sẽ tạo cho chúng tôi đối tượng RGBColor[] lấy đầu vào hệ thập lục phân của màu và đặt cùng màu cho văn bản
cú pháp. cho. nét chữ. màu. rgb = RGBColor[[Giá trị màu RGB theo Hệ thập lục phân]]
Tham số
Giá trị màu RGB. Đó là giá trị thập lục phân của màu bạn muốn đặt. Nó được đưa ra ở dạng R, G, B làm đầu vào
Ghi chú. Bạn phải thêm 'từ docx. shared import RGBColor‘ câu lệnh import trước khi gọi hàm RGBColor[] trong mã của bạn
ví dụ 2. Thêm màu cho văn bản trong đoạn văn
Python3
# Import docx NOT python-docx
import
docx
doc.bold = True0
doc.bold = True1
import
add_run["text"].underline=True7
doc.bold = True4
doc.bold = True5
doc.bold = True6
doc.bold = True7
doc.bold = True8
doc.bold = True4
add_run[" text "].bold=True0
add_run[" text "].bold=True1
add_run[" text "].bold=True2
add_run[" text "].bold=True3
add_run[" text "].bold=True4
add_run[" text "].bold=True5
doc.bold = True4
import
1
add_run[" text "].bold=True1
import
3add_run[" text "].bold=True3
doc.italic = True1
add_run[" text "].bold=True5
doc.italic = True3
doc.bold = True7
doc.italic = True5
doc.italic = True6_______21_______7
add_run[" text "].bold=True5
doc.bold = True4
docx
4
docx
5
docx
6
doc.bold = True7
docx
8docx
9_______10_______3doc.bold = True01
add_run[" text "].bold=True3
docx
9add_run[" text "].bold=True5
doc.bold = True4
doc.underline = True7
doc.underline = True8
doc.underline = True9
add_run[" text "].bold=True5
đầu ra
Kiểu phông chữ
Để đặt kiểu phông chữ mới cho văn bản, trước tiên bạn phải tạo một đối tượng đoạn văn, sau đó bạn phải sử dụng phương thức add_run[] để thêm nội dung. Bạn có thể trực tiếp sử dụng phương thức add_paragraph[] để thêm đoạn văn nhưng nếu bạn muốn đặt kiểu phông chữ mới cho văn bản, bạn phải sử dụng add_run[] vì tất cả định dạng cấp khối được thực hiện bằng cách sử dụng phương thức add_paragraph[] trong khi tất cả các ký tự
Bây giờ để đặt tên phông chữ mới, chúng tôi sẽ sử dụng. nét chữ. tên phương pháp. Đây là phương thức của đối tượng phông chữ và được sử dụng để đặt tên phông chữ mới cho văn bản
cú pháp. cho. nét chữ. tên = Chuỗi s
Tham số
Dây. Đó là tên của kiểu phông chữ mới. Nếu bạn đặt bất kỳ tên ngẫu nhiên nào làm chuỗi đầu vào thì kiểu mặc định sẽ được áp dụng cho văn bản
Làm cách nào để đọc các bảng trong docx bằng Python?
Xử lý dữ liệu bảng thành pandas dataframe. Sử dụng các thuộc tính có sẵn của thư viện python-docx, đọc từng hàng của bảng và truy xuất văn bản từ từng ô và tạo danh sách python gồm danh sách chứa từng hàng. Then convert that python data structure to pandas DataFrame.Làm cách nào để sử dụng docx trong Python?
Python - Làm việc với. .Bước đầu tiên là cài đặt mô-đun bên thứ ba này python-docx. Bạn có thể sử dụng pip “pip cài đặt python-docx”Sau khi cài đặt, hãy nhập “docx” KHÔNG “python-docx”Sử dụng “docx. Document” để bắt đầu làm việc với tài liệu từChạy trong Python là gì
Lần chạy là đối tượng được liên kết chặt chẽ nhất với nội dung nội tuyến; . nội dung chính yếu tố con. . main content child elements: