Pyspark đọc excel

Vì một số lý do, tia lửa không đọc chính xác dữ liệu từ tệp xlsx trong cột có công thức. Tôi đang đọc nó từ kho lưu trữ blob

Hãy xem xét tập dữ liệu đơn giản này


Cột "màu" có công thức cho tất cả các ô như
=VLOOKUP[A4,C3. D5,2,0]

Trong trường hợp công thức không thể trả về giá trị, nó sẽ được đọc khác bởi excel và spark.
excel - #N/A
spark - =VLOOKUP[A4,C3. D5,2,0]

Đây là mã của tôi

 df= spark.read\
   .format["com.crealytics.spark.excel"]\
   .option["header", "true"]\
   .load[input_path + input_folder_general + "test1.xlsx"]
    
 display[df]

Và đây là cách đọc tập dữ liệu trên.

Làm cách nào để nhận #N/A thay vì công thức?


azure-databricks

hình ảnh. png [1. 9 KiB]

hình ảnh. png [5. 2 KiB]

Hiển thị nhận xét 0

Bình luận

5. Cần 1600 ký tự còn lại ký tự

Chuyển đổi chế độ hiển thị Nhận xét. Hiển thị hiện tại. Hiển thị với tất cả người dùng

tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB

HimanshuSinha-MSFT đã trả lời 11 tháng 1, '22 | MoshrafulIslam-6214 được xuất bản 21 tháng 9, '22

Xin chào @braxx,
Cảm ơn bạn đã đặt câu hỏi và sử dụng nền tảng Hỏi & Đáp của Microsoft.
Bạn đã thử tùy chọn "setErrorCellsToFallbackValues" để kiểm tra xem có hữu ích không? . Bạn có thể đọc thêm về điều này tại đây


tia lửa. đã đọc
. định dạng ["com. crealytics. tia lửa. excel"] // Hoặc. format["excel"] để triển khai V2
. tùy chọn ["địa chỉ dữ liệu", "'Trang tính của tôi'. B3. C35"] // Tùy chọn, mặc định. "A1"
. option["header", "true"] // Bắt buộc
. tùy chọn ["treatEmptyValuesAsNulls", "false"] // Tùy chọn, mặc định. đúng
. tùy chọn ["setErrorCellsToFallbackValues", "true"] // Tùy chọn, mặc định. sai, trong đó các lỗi sẽ được chuyển thành null. Nếu đúng, mọi giá trị ô LỖI [e. g. #N/A] sẽ được chuyển thành giá trị 0 của kiểu dữ liệu của cột.
. tùy chọn ["usePlainNumberFormat", "false"] // Tùy chọn, mặc định. sai, Nếu đúng, hãy định dạng các ô mà không làm tròn và ký hiệu khoa học
. tùy chọn ["inferSchema", "false"] // Tùy chọn, mặc định. sai
. tùy chọn ["addColorColumns", "true"] // Tùy chọn, mặc định. sai
. tùy chọn ["dấu thời gianĐịnh dạng", "MM-dd-yyyy HH. mm. ss"] // Tùy chọn, mặc định. yyyy-mm-dd hh. mm. ss [. ffffffff]
. tùy chọn ["maxRowsInMemory", 20] // Tùy chọn, mặc định Không có. Nếu được đặt, hãy sử dụng trình đọc phát trực tuyến có thể trợ giúp với các tệp lớn [sẽ không thành công nếu được sử dụng với các tệp định dạng xls]
. option["excerptSize", 10] // Tùy chọn, mặc định. 10. Nếu được đặt và nếu lược đồ được suy ra, thì số lượng hàng để suy ra lược đồ từ
. option["workbookPassword", "pass"] // Tùy chọn, mặc định Không có. Yêu cầu sức mạnh không giới hạn JCE cho các JVM cũ hơn
. lược đồ [myCustomSchema] // Tùy chọn, mặc định. Lược đồ được suy luận hoặc tất cả các cột đều là Chuỗi
. tải ["Thời gian làm việc. xlsx"]

Xin lỗi tôi, tôi không thể kiểm tra nó vì tôi đang gặp khó khăn trong việc cài đặt thư viện trên cụm

Vui lòng cho tôi biết mọi việc diễn ra như thế nào.
Cảm ơn
Himanshu

  • Xin đừng quên nhấp vào nút

    hoặc ủng hộ
    bất cứ khi nào thông tin được cung cấp giúp ích cho bạn. Áp phích gốc giúp cộng đồng tìm câu trả lời nhanh hơn bằng cách xác định câu trả lời đúng. Đây là cách

  • Muốn có lời nhắc quay lại và kiểm tra phản hồi?

  • Nếu bạn muốn tham gia chương trình VM và giúp định hình tương lai của Q&A. Đây là cách bạn có thể trở thành một phần của Người điều hành tình nguyện Q&A



Bình luận

Nhận xét · Hiển thị 6

Bình luận

5. Cần 1600 ký tự còn lại ký tự

Chuyển đổi chế độ hiển thị Nhận xét. Hiển thị hiện tại. Hiển thị với tất cả người dùng

tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB

braxx · 18 tháng 1 năm 2022 lúc 02. 06 giờ chiều

cảm ơn,

Thật không may, tùy chọn cài đặt "setErrorCellsToFallbackValues" không thay đổi bất cứ điều gì. Đã thử với cả TRUE và FALSE và vẫn có thể tìm thấy công thức ở đầu ra

Pyspark có thể đọc tệp excel không?

Đọc tệp Excel vào Chuỗi hoặc Khung dữ liệu pandas-on-Spark . Hỗ trợ cả phần mở rộng tệp xls và xlsx từ hệ thống tệp cục bộ hoặc URL. Hỗ trợ tùy chọn đọc một trang tính hoặc danh sách các trang tính.

Gấu trúc Python có thể đọc excel không?

Trong Python, chúng ta có thể làm việc với dữ liệu trong bảng excel với sự trợ giúp của mô-đun pandas. Có một hàm gọi là hàm pandas read_excel để đọc tệp excel . Có rất nhiều tham số cho chức năng này, như "io", "sheet_name", "dtype", v.v. , để đọc dữ liệu theo nhiều cách khác nhau.

Làm thế nào để Pyspark đọc dữ liệu từ cơ sở dữ liệu?

Cách đọc bảng dữ liệu từ cơ sở dữ liệu Hive trong Pyspark .
Yêu cầu hệ thống
Bước 1. Nhập các mô-đun
Bước 2. Tạo phiên Spark
Bước 3. Xác minh cơ sở dữ liệu
Bước 4. Xác minh bảng
Bước 5. Lấy các hàng từ bảng
Bước 6. In lược đồ của bảng
Phần kết luận

Python có thể đọc các tệp xlsx không?

OpenPyXL là một thư viện Python được tạo để đọc và ghi các tệp Excel 2010 xlsx/xlsm/xltx/xltm . Nó có thể đọc cả. xlsx và. xlsm, bao gồm hỗ trợ biểu đồ, đồ thị và các hình ảnh hóa dữ liệu khác.

Chủ Đề