programming excel

Pyspark đọc excel

Vì một số lý do, tia lửa không đọc chính xác dữ liệu từ tệp xlsx trong cột có công thức. Tôi đang đọc nó từ kho lưu trữ blob

Hãy xem xét tập dữ liệu đơn giản này

Cột "màu" có công thức cho tất cả các ô như
=VLOOKUP[A4,C3. D5,2,0]

Trong trường hợp công thức không thể trả về giá trị, nó sẽ được đọc khác bởi excel và spark.
excel - #N/A
spark - =VLOOKUP[A4,C3. D5,2,0]

Đây là mã của tôi

 df= spark.read\
   .format["com.crealytics.spark.excel"]\
   .option["header", "true"]\
   .load[input_path + input_folder_general + "test1.xlsx"]
    
 display[df]

Và đây là cách đọc tập dữ liệu trên.

Làm cách nào để nhận #N/A thay vì công thức?

azure-databricks

hình ảnh. png [1. 9 KiB]

hình ảnh. png [5. 2 KiB]

Hiển thị nhận xét 0

Bình luận

5. Cần 1600 ký tự còn lại ký tự

▼

Chuyển đổi chế độ hiển thị Nhận xét. Hiển thị hiện tại. Hiển thị với tất cả người dùng

tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB

HimanshuSinha-MSFT đã trả lời • 11 tháng 1, '22 | MoshrafulIslam-6214 được xuất bản • 21 tháng 9, '22

Xin chào @braxx,
Cảm ơn bạn đã đặt câu hỏi và sử dụng nền tảng Hỏi & Đáp của Microsoft.
Bạn đã thử tùy chọn "setErrorCellsToFallbackValues" để kiểm tra xem có hữu ích không? . Bạn có thể đọc thêm về điều này tại đây

tia lửa. đã đọc
. định dạng ["com. crealytics. tia lửa. excel"] // Hoặc. format["excel"] để triển khai V2
. tùy chọn ["địa chỉ dữ liệu", "'Trang tính của tôi'. B3. C35"] // Tùy chọn, mặc định. "A1"
. option["header", "true"] // Bắt buộc
. tùy chọn ["treatEmptyValuesAsNulls", "false"] // Tùy chọn, mặc định. đúng
. tùy chọn ["setErrorCellsToFallbackValues", "true"] // Tùy chọn, mặc định. sai, trong đó các lỗi sẽ được chuyển thành null. Nếu đúng, mọi giá trị ô LỖI [e. g. #N/A] sẽ được chuyển thành giá trị 0 của kiểu dữ liệu của cột.
. tùy chọn ["usePlainNumberFormat", "false"] // Tùy chọn, mặc định. sai, Nếu đúng, hãy định dạng các ô mà không làm tròn và ký hiệu khoa học
. tùy chọn ["inferSchema", "false"] // Tùy chọn, mặc định. sai
. tùy chọn ["addColorColumns", "true"] // Tùy chọn, mặc định. sai
. tùy chọn ["dấu thời gianĐịnh dạng", "MM-dd-yyyy HH. mm. ss"] // Tùy chọn, mặc định. yyyy-mm-dd hh. mm. ss [. ffffffff]
. tùy chọn ["maxRowsInMemory", 20] // Tùy chọn, mặc định Không có. Nếu được đặt, hãy sử dụng trình đọc phát trực tuyến có thể trợ giúp với các tệp lớn [sẽ không thành công nếu được sử dụng với các tệp định dạng xls]
. option["excerptSize", 10] // Tùy chọn, mặc định. 10. Nếu được đặt và nếu lược đồ được suy ra, thì số lượng hàng để suy ra lược đồ từ
. option["workbookPassword", "pass"] // Tùy chọn, mặc định Không có. Yêu cầu sức mạnh không giới hạn JCE cho các JVM cũ hơn
. lược đồ [myCustomSchema] // Tùy chọn, mặc định. Lược đồ được suy luận hoặc tất cả các cột đều là Chuỗi
. tải ["Thời gian làm việc. xlsx"]

Xin lỗi tôi, tôi không thể kiểm tra nó vì tôi đang gặp khó khăn trong việc cài đặt thư viện trên cụm

Vui lòng cho tôi biết mọi việc diễn ra như thế nào.
Cảm ơn
Himanshu

Xin đừng quên nhấp vào nút
hoặc ủng hộ
bất cứ khi nào thông tin được cung cấp giúp ích cho bạn. Áp phích gốc giúp cộng đồng tìm câu trả lời nhanh hơn bằng cách xác định câu trả lời đúng. Đây là cách
Muốn có lời nhắc quay lại và kiểm tra phản hồi?
Nếu bạn muốn tham gia chương trình VM và giúp định hình tương lai của Q&A. Đây là cách bạn có thể trở thành một phần của Người điều hành tình nguyện Q&A

Bình luận

Nhận xét · Hiển thị 6

Bình luận

5. Cần 1600 ký tự còn lại ký tự

▼

Chuyển đổi chế độ hiển thị Nhận xét. Hiển thị hiện tại. Hiển thị với tất cả người dùng

tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB

braxx · 18 tháng 1 năm 2022 lúc 02. 06 giờ chiều

cảm ơn,

Thật không may, tùy chọn cài đặt "setErrorCellsToFallbackValues" không thay đổi bất cứ điều gì. Đã thử với cả TRUE và FALSE và vẫn có thể tìm thấy công thức ở đầu ra

Pyspark có thể đọc tệp excel không?

Đọc tệp Excel vào Chuỗi hoặc Khung dữ liệu pandas-on-Spark . Hỗ trợ cả phần mở rộng tệp xls và xlsx từ hệ thống tệp cục bộ hoặc URL. Hỗ trợ tùy chọn đọc một trang tính hoặc danh sách các trang tính.

Gấu trúc Python có thể đọc excel không?

Trong Python, chúng ta có thể làm việc với dữ liệu trong bảng excel với sự trợ giúp của mô-đun pandas. Có một hàm gọi là hàm pandas read_excel để đọc tệp excel . Có rất nhiều tham số cho chức năng này, như "io", "sheet_name", "dtype", v.v. , để đọc dữ liệu theo nhiều cách khác nhau.

Làm thế nào để Pyspark đọc dữ liệu từ cơ sở dữ liệu?

Cách đọc bảng dữ liệu từ cơ sở dữ liệu Hive trong Pyspark .

Yêu cầu hệ thống

Bước 1. Nhập các mô-đun

Bước 2. Tạo phiên Spark

Bước 3. Xác minh cơ sở dữ liệu

Bước 4. Xác minh bảng

Bước 5. Lấy các hàng từ bảng

Bước 6. In lược đồ của bảng

Phần kết luận

Python có thể đọc các tệp xlsx không?

OpenPyXL là một thư viện Python được tạo để đọc và ghi các tệp Excel 2010 xlsx/xlsm/xltx/xltm . Nó có thể đọc cả. xlsx và. xlsm, bao gồm hỗ trợ biểu đồ, đồ thị và các hình ảnh hóa dữ liệu khác.

Pyspark có thể đọc tệp excel không?

Gấu trúc Python có thể đọc excel không?

Làm thế nào để Pyspark đọc dữ liệu từ cơ sở dữ liệu?

Python có thể đọc các tệp xlsx không?

Bài Viết Liên Quan

Toplist mới

Bài mới nhất

Chủ Đề