Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python
Trích xuất là các tập hợp dữ liệu được lưu mà bạn có thể sử dụng để cải thiện hiệu suất hoặc tận dụng chức năng Tableau không có sẵn hoặc được hỗ trợ trong dữ liệu gốc của bạn. Khi bạn tạo một trích đoạn dữ liệu của mình, bạn có thể giảm tổng lượng dữ liệu bằng cách sử dụng các bộ lọc và định cấu hình các giới hạn khác. Sau khi bạn tạo một trích đoạn, bạn có thể làm mới dữ liệu từ dữ liệu gốc. Khi làm mới dữ liệu, bạn có tùy chọn để làm mới đầy đủ, thay thế tất cả các nội dung trong trích xuất hoặc bạn có thể thực hiện làm mới gia tăng, chỉ thêm các hàng mới kể từ lần làm mới trước đó. Show Trích xuất là lợi thế vì nhiều lý do:
Bắt đầu với phiên bản 2020.4, trích xuất có sẵn trong máy chủ tác giả và máy chủ nội dung web. Bây giờ, bạn không còn phải sử dụng Tableau Desktop để trích xuất các nguồn dữ liệu của mình. Để biết thêm thông tin, hãy xem Tạo trích xuất trên web. Trích xuất bảng hợp lý và vật lýVới việc giới thiệu các bảng logic và bảng vật lý trong mô hình dữ liệu Tableau trong phiên bản 2020.2, các tùy chọn lưu trữ trích xuất đã thay đổi từ một bảng và nhiều bảng, sang bảng logic và bảng vật lý. Các tùy chọn này mô tả tốt hơn cách trích xuất sẽ được lưu trữ. Để biết thêm thông tin, hãy xem Quyết định cách lưu trữ dữ liệu trích xuất. Bắt đầu với phiên bản 10.5, khi bạn tạo một trích xuất mới, nó sử dụng định dạng .hyper. Trích xuất ở định dạng .hyper tận dụng lợi thế của công cụ dữ liệu được cải thiện, hỗ trợ hiệu suất phân tích và truy vấn nhanh hơn cho các bộ dữ liệu lớn hơn. Tương tự, khi một tác vụ liên quan đến trích xuất được thực hiện trên một trích xuất .tde bằng phiên bản 10.5 trở lên, trích xuất được nâng cấp thành một trích xuất .HYPER. Sau khi một trích xuất .tde được nâng cấp thành một trích xuất .hyper, nó không thể được hoàn nguyên trở lại chiết xuất .tde. Để biết thêm thông tin, xem Trích xuất nâng cấp lên định dạng .HYPER. Thay đổi đối với các giá trị và dấu trong chế độ xemĐể cải thiện hiệu quả chiết xuất và khả năng mở rộng, các giá trị trong chiết xuất có thể được tính toán khác nhau trong các phiên bản 10,5 và sau đó so với các phiên bản 10,4 trở lên. Các thay đổi về cách các giá trị được tính toán có thể ảnh hưởng đến cách các dấu trong quan điểm của bạn được điền. Trong một số trường hợp hiếm hoi, những thay đổi có thể khiến quan điểm của bạn thay đổi hình dạng hoặc trở nên trống. Những thay đổi này cũng có thể áp dụng cho các nguồn dữ liệu đa kết nối, nguồn dữ liệu sử dụng các kết nối trực tiếp với dữ liệu dựa trên nộp, nguồn dữ liệu kết nối với dữ liệu của Google Sheets, nguồn dữ liệu dựa trên đám mây, nguồn dữ liệu chỉ trích xuất và WDC & NBSP; Nguồn dữ liệu . Để có được ý tưởng về một số khác biệt mà bạn có thể thấy trong chế độ xem của mình bằng phiên bản 2022.3, hãy xem các phần bên dưới.2022.3, see the sections below. Định dạng của các giá trị ngày và ngày Trong các phiên bản 10,5 trở lên, các trích đoạn phải tuân theo các quy tắc nhất quán và chặt chẽ hơn xung quanh cách các chuỗi ngày được giải thích cho đến ngày, DateTime và DateParse & NBSP; các chức năng. Điều này ảnh hưởng đến cách ngày được phân tích cú pháp hoặc các định dạng và mẫu ngày được phép cho các chức năng này. Cụ thể hơn, các quy tắc có thể được khái quát như sau:
Các quy tắc mới này cho phép chiết xuất hiệu quả hơn và tạo ra kết quả phù hợp với cơ sở dữ liệu thương mại. Tuy nhiên, do các quy tắc này, đặc biệt là trong các kịch bản quốc tế, nơi sổ làm việc được tạo ở một ngôn ngữ khác với ngôn ngữ mà sổ làm việc được mở hoặc máy chủ mà sổ làm việc được xuất bản, bạn có thể thấy rằng 1.) Thay đổi thành các giá trị ngày và DateTime khác nhau hoặc 2.) Giá trị ngày và DateTime thay đổi thành NULL. Khi các giá trị ngày và ngày của bạn thay đổi thành các giá trị ngày và ngày khác nhau hoặc trở thành NULL, thường là một dấu hiệu cho thấy có vấn đề với dữ liệu cơ bản. Dưới đây là một số lý do phổ biến tại sao bạn có thể thấy các thay đổi đối với các giá trị ngày và dữ liệu của bạn trong nguồn dữ liệu trích xuất của bạn bằng phiên bản 10.5 trở lên.
Giả sử bạn có một sổ làm việc được tạo trong một địa phương tiếng Anh sử dụng nguồn dữ liệu trích xuất .TDE. Bảng dưới đây hiển thị một cột dữ liệu chuỗi có trong nguồn dữ liệu trích xuất.
Dựa trên địa phương tiếng Anh cụ thể, định dạng của cột ngày được xác định theo định dạng mdy (tháng, ngày và năm). Các bảng sau đây hiển thị những gì Tableau hiển thị dựa trên ngôn ngữ này khi hàm ngày được sử dụng để chuyển đổi các giá trị chuỗi thành các giá trị ngày.
Nếu trích xuất được mở tại một địa phương của Đức, bạn sẽ thấy như sau:
Tuy nhiên, sau khi trích xuất được mở ở một địa phương Đức bằng phiên bản 10.5 trở lên, định dạng DMY (ngày, tháng và năm) của địa phương Đức được thực thi nghiêm ngặt và gây ra giá trị null vì một trong các giá trị không tuân theo DMY định dạng.
31 tháng 10 năm 2018
12 tháng 10 năm 2018
Kịch bản ngày 2
12/1/2018
31 tháng 10 năm 2018 In versions 10.4 (and earlier), ISO format and other date formats could have produced differing results depending on the locale of where the workbook was created. In an English locale for example, both 2018-12-10 and 2018/12/10 could produce December 12, 2o18. However, in a German locale 2018-12-10 could produce December 12, 2018 and 2018/12/10 could produce October 12, 2018. Sắp xếp thứ tự và độ nhạy của trường hợp Trích xuất có hỗ trợ đối chiếu và do đó có thể sắp xếp các giá trị chuỗi phù hợp hơn có điểm nhấn hoặc được đặt khác nhau. Ví dụ: giả sử bạn có một bảng các giá trị chuỗi. Về thứ tự sắp xếp, điều này có nghĩa là một giá trị chuỗi như égypte hiện được liệt kê một cách thích hợp sau Estonie và trước Fidji. Về dữ liệu excel: & nbsp; Liên quan đến vỏ, điều này có nghĩa là cách các giá trị lưu trữ Tableau đã thay đổi giữa phiên bản 10.4 (và trước đó) và phiên bản 10.5 (và sau đó). Tuy nhiên, các quy tắc để sắp xếp và so sánh các giá trị thì không. Trong phiên bản 10.4 (và trước đó), các giá trị chuỗi như "House" & nbsp; "House" và "House" được đối xử giống nhau và được lưu trữ với một giá trị đại diện. Trong phiên bản 10.5 (và sau này), cùng một giá trị chuỗi được coi là duy nhất và do đó được lưu trữ dưới dạng các giá trị riêng lẻ. Để biết thêm thông tin, hãy xem các thay đổi về cách tính toán giá trị. Phá vỡ mối quan hệ trong các truy vấn hàng đầu Khi một truy vấn N trên cùng trong trích xuất của bạn tạo ra các giá trị trùng lặp cho một vị trí cụ thể ở cấp bậc, vị trí phá vỡ cà vạt có thể khác nhau khi sử dụng phiên bản 10.5 trở lên. Ví dụ: giả sử bạn tạo ra một bộ lọc Top 3. Vị trí 3, 4 và 5 có cùng giá trị. Khi sử dụng phiên bản 10.4 trở lên, bộ lọc trên cùng có thể trả về các vị trí 1, 2 và 3. Tuy nhiên, khi sử dụng phiên bản 10.5 trở lên, bộ lọc trên cùng có thể trả về các vị trí 1, 2 và 5. Độ chính xác của các giá trị điểm nổi Trích xuất tốt hơn trong việc tận dụng các tài nguyên phần cứng có sẵn trên máy tính và do đó có thể thực hiện các hoạt động toán học theo cách song song cao. Bởi vì điều này, các số thực có thể được tổng hợp bởi các chiết xuất .hyper theo thứ tự khác nhau. Khi các số được tổng hợp theo thứ tự khác nhau, bạn có thể thấy các giá trị khác nhau trong quan điểm của bạn sau điểm thập phân mỗi lần tổng hợp được tính toán. Điều này là do bổ sung và nhân dấu nổi không nhất thiết là sự kết hợp. Nghĩa là, (a + b) + c không nhất thiết giống như a + (b + c). Ngoài ra, các số thực có thể được tổng hợp theo thứ tự khác nhau vì phép nhân dấu phẩy động không nhất thiết phải phân phối. Nghĩa là, (a x b) x c không nhất thiết giống như a x b x c. Loại hành vi làm tròn điểm nổi này trong chiết xuất .hyper giống với hành vi làm tròn điểm nổi trong cơ sở dữ liệu thương mại. Ví dụ: giả sử sổ làm việc của bạn chứa bộ lọc thanh trượt trên một trường tổng hợp bao gồm các giá trị điểm nổi. Vì độ chính xác của các giá trị điểm nổi đã thay đổi, bộ lọc hiện có thể loại trừ một dấu xác định giới hạn trên hoặc dưới của phạm vi bộ lọc. Sự vắng mặt của những con số này có thể gây ra một cái nhìn trống. Để giải quyết vấn đề này, hãy di chuyển thanh trượt trên bộ lọc hoặc xóa và thêm bộ lọc. Độ chính xác của tập hợp Trích xuất Tối ưu hóa cho các bộ dữ liệu lớn bằng cách tận dụng lợi thế tốt hơn của các tài nguyên phần cứng có sẵn trên máy tính và do đó có thể tính toán các tập hợp theo cách song song cao. Bởi vì điều này, các tập hợp được thực hiện bởi các trích đoạn .hyper có thể giống với kết quả từ cơ sở dữ liệu thương mại nhiều hơn kết quả từ phần mềm chuyên về tính toán thống kê. Nếu bạn làm việc với một tập dữ liệu nhỏ hoặc cần mức độ chính xác cao hơn, hãy xem xét thực hiện các tập hợp thông qua các dòng tham chiếu, thống kê thẻ tóm tắt hoặc các chức năng tính toán bảng như phương sai, độ lệch chuẩn, tương quan hoặc hiệp phương sai. Nếu tùy chọn tính toán tính toán bây giờ đã được sử dụng trong trích xuất. Nếu bạn nâng cấp chiết xuất từ chiết xuất. Bạn phải sử dụng tùy chọn tính toán tính toán bây giờ một lần nữa để đảm bảo rằng các tính toán được vật liệu hóa là một phần của trích xuất sau khi nâng cấp trích xuất. Để biết thêm thông tin, hãy xem các tính toán thành hiện thực trong trích đoạn của bạn.Compute Calculations Now option was used in a .tde extract using an earlier version of Tableau Desktop, certain calculated fields were materialized and therefore computed in advance and stored in the extract. If you upgrade the extract from a .tde extract to a .hyper extract, the previously materialized calculations in your extract are not included. You must use the Compute Calculations Now option again to ensure that materialized calculations are a part of the extract after the extract upgrade. For more information, see Materialize Calculations in Your Extracts. Bạn có thể sử dụng API 2.0 trích xuất để tạo chiết xuất .HYPER. Đối với các tác vụ mà trước đây bạn đã thực hiện bằng SDK Tableau, chẳng hạn như xuất bản trích xuất, bạn có thể sử dụng thư viện Tableau Server Rest & NBSP; API hoặc Client Tableau Server (Python). Đối với các tác vụ làm mới, bạn cũng có thể sử dụng API của Tableau Server Rest & NBSP; Để biết thêm thông tin, xem Tableau Hyper API. Mặc dù có một số tùy chọn trong quy trình làm việc Tableau của bạn để tạo một trích đoạn, phương pháp chính được mô tả dưới đây.
Sau khi bạn tạo một trích đoạn, sổ làm việc bắt đầu sử dụng phiên bản trích xuất dữ liệu của bạn. Tuy nhiên, kết nối với phiên bản trích xuất dữ liệu của bạn không được bảo tồn cho đến khi bạn lưu sổ làm việc. Điều này có nghĩa là nếu bạn đóng sổ làm việc mà không lưu sổ làm việc trước, sổ làm việc sẽ kết nối với nguồn dữ liệu gốc vào lần tới khi bạn mở nó. Chuyển đổi giữa dữ liệu được lấy mẫu và toàn bộ trích xuấtKhi bạn làm việc với một trích xuất lớn, bạn có thể muốn tạo một trích xuất với một mẫu dữ liệu để bạn có thể thiết lập chế độ xem trong khi tránh các truy vấn dài mỗi khi bạn đặt một trường trên kệ trên tab trang tính. Sau đó, bạn có thể chuyển đổi giữa việc sử dụng trích xuất (với dữ liệu mẫu) và sử dụng toàn bộ nguồn dữ liệu bằng cách chọn nguồn dữ liệu trên menu dữ liệu và sau đó chọn sử dụng trích xuất.Data menu and then selecting Use Extract. Bởi vì các trích đoạn được lưu vào hệ thống tệp của bạn, có thể kết nối trực tiếp với chúng với một phiên bản máy tính để bàn Tableau mới. Điều này không được khuyến khích vì một vài lý do:
Bạn có thể xóa một trích xuất bất cứ lúc nào bằng cách chọn nguồn dữ liệu trích xuất trên menu dữ liệu và sau đó chọn. Khi bạn xóa một trích xuất, bạn có thể chọn xóa trích xuất ra khỏi sổ làm việc hoặc xóa và xóa tệp trích xuất. Tùy chọn thứ hai sẽ xóa trích xuất từ ổ cứng của bạn.Data menu and then selecting . When you remove an extract, you can choose to Remove the extract from the workbook only or Remove and delete the extract file. The latter option will delete the extract from your hard drive.
Bạn có thể thấy khi trích xuất được cập nhật lần cuối và các chi tiết khác bằng cách chọn nguồn dữ liệu trên menu dữ liệu và sau đó chọn.Data menu and then selecting .
Nếu bạn mở một sổ làm việc được lưu bằng trích xuất và Tableau không thể xác định vị trí trích xuất, hãy chọn một trong các tùy chọn sau trong hộp thoại không tìm thấy trích xuất khi được nhắc:
Mẹo sử dụng tùy chọn bảng vật lýTableau thường khuyên bạn nên sử dụng tùy chọn lưu trữ dữ liệu mặc định, bảng logic, khi thiết lập và làm việc với các trích đoạn. Trong nhiều trường hợp, một số tính năng bạn cần cho trích xuất của mình, như bộ lọc trích xuất, chỉ có sẵn cho bạn nếu bạn sử dụng tùy chọn bảng logic. Tùy chọn bảng vật lý nên được sử dụng một cách tiết kiệm để giúp với các tình huống cụ thể như khi nguồn dữ liệu của bạn đáp ứng các điều kiện sử dụng tùy chọn bảng vật lý và kích thước của chiết xuất của bạn lớn hơn dự kiến. Để xác định xem chiết xuất có lớn hơn mức cần thiết hay không, tổng các hàng trong trích xuất bằng tùy chọn bảng logic phải cao hơn tổng của các hàng của tất cả các bảng kết hợp trước khi trích xuất được tạo. Nếu bạn gặp phải kịch bản này, hãy thử sử dụng tùy chọn Bảng & NBSP; thay thế. Các đề xuất lọc thay thế khi sử dụng tùy chọn bảng vật lýKhi sử dụng tùy chọn Bảng vật lý, các tùy chọn khác để giúp giảm dữ liệu trong trích xuất của bạn, như bộ lọc trích xuất, tập hợp, N và lấy mẫu trên cùng bị vô hiệu hóa. Nếu bạn cần giảm dữ liệu trong một trích xuất sử dụng tùy chọn bảng vật lý, hãy xem xét lọc dữ liệu trước khi được đưa vào máy tính để bàn Tableau bằng một trong các đề xuất sau:
Nếu bạn muốn bảo mật dữ liệu trích xuất ở cấp độ hàng, sử dụng tùy chọn Bảng vật lý là cách được khuyến nghị để đạt được kịch bản này. Để biết thêm thông tin về bảo mật cấp độ hàng trong Tableau, hãy xem Hạn chế truy cập AT & NBSP; mức hàng dữ liệu.
|