Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

Trích xuất là các tập hợp dữ liệu được lưu mà bạn có thể sử dụng để cải thiện hiệu suất hoặc tận dụng chức năng Tableau không có sẵn hoặc được hỗ trợ trong dữ liệu gốc của bạn. Khi bạn tạo một trích đoạn dữ liệu của mình, bạn có thể giảm tổng lượng dữ liệu bằng cách sử dụng các bộ lọc và định cấu hình các giới hạn khác. Sau khi bạn tạo một trích đoạn, bạn có thể làm mới dữ liệu từ dữ liệu gốc. Khi làm mới dữ liệu, bạn có tùy chọn để làm mới đầy đủ, thay thế tất cả các nội dung trong trích xuất hoặc bạn có thể thực hiện làm mới gia tăng, chỉ thêm các hàng mới kể từ lần làm mới trước đó.

Trích xuất là lợi thế vì nhiều lý do:

  • Hỗ trợ các bộ dữ liệu lớn: Bạn có thể tạo các trích đoạn chứa hàng tỷ hàng dữ liệu. You can create extracts that contain billions of rows of data.

  • Giúp cải thiện hiệu suất: Khi bạn tương tác với các chế độ xem sử dụng các nguồn dữ liệu trích xuất, bạn thường trải nghiệm hiệu suất tốt hơn so với khi tương tác với các chế độ xem dựa trên các kết nối với dữ liệu gốc. When you interact with views that use extract data sources, you generally experience better performance than when interacting with views based on connections to the original data.

  • Hỗ trợ chức năng bổ sung: Trích xuất cho phép bạn tận dụng chức năng Tableau không có sẵn hoặc được hỗ trợ bởi dữ liệu gốc, chẳng hạn như khả năng tính toán số lượng khác biệt. Extracts allow you to take advantage of Tableau functionality that's not available or supported by the original data, such as the ability to compute Count Distinct.

  • Cung cấp quyền truy cập ngoại tuyến vào dữ liệu của bạn: Nếu bạn đang sử dụng Tableau Desktop, trích xuất cho phép bạn lưu và làm việc với dữ liệu cục bộ khi không có dữ liệu gốc. Ví dụ, khi bạn đang đi du lịch. If you are using Tableau Desktop, extracts allow you to save and work with the data locally when the original data is not available. For example, when you are traveling.

Bắt đầu với phiên bản 2020.4, trích xuất có sẵn trong máy chủ tác giả và máy chủ nội dung web. Bây giờ, bạn không còn phải sử dụng Tableau Desktop để trích xuất các nguồn dữ liệu của mình. Để biết thêm thông tin, hãy xem Tạo trích xuất trên web.

Trích xuất bảng hợp lý và vật lý

Với việc giới thiệu các bảng logic và bảng vật lý trong mô hình dữ liệu Tableau trong phiên bản 2020.2, các tùy chọn lưu trữ trích xuất đã thay đổi từ một bảng và nhiều bảng, sang bảng logic và bảng vật lý. Các tùy chọn này mô tả tốt hơn cách trích xuất sẽ được lưu trữ. Để biết thêm thông tin, hãy xem Quyết định cách lưu trữ dữ liệu trích xuất.

Bắt đầu với phiên bản 10.5, khi bạn tạo một trích xuất mới, nó sử dụng định dạng .hyper. Trích xuất ở định dạng .hyper tận dụng lợi thế của công cụ dữ liệu được cải thiện, hỗ trợ hiệu suất phân tích và truy vấn nhanh hơn cho các bộ dữ liệu lớn hơn.

Tương tự, khi một tác vụ liên quan đến trích xuất được thực hiện trên một trích xuất .tde bằng phiên bản 10.5 trở lên, trích xuất được nâng cấp thành một trích xuất .HYPER. Sau khi một trích xuất .tde được nâng cấp thành một trích xuất .hyper, nó không thể được hoàn nguyên trở lại chiết xuất .tde. Để biết thêm thông tin, xem Trích xuất nâng cấp lên định dạng .HYPER.

Thay đổi đối với các giá trị và dấu trong chế độ xem

Để cải thiện hiệu quả chiết xuất và khả năng mở rộng, các giá trị trong chiết xuất có thể được tính toán khác nhau trong các phiên bản 10,5 và sau đó so với các phiên bản 10,4 trở lên. Các thay đổi về cách các giá trị được tính toán có thể ảnh hưởng đến cách các dấu trong quan điểm của bạn được điền. Trong một số trường hợp hiếm hoi, những thay đổi có thể khiến quan điểm của bạn thay đổi hình dạng hoặc trở nên trống. Những thay đổi này cũng có thể áp dụng cho các nguồn dữ liệu đa kết nối, nguồn dữ liệu sử dụng các kết nối trực tiếp với dữ liệu dựa trên nộp, nguồn dữ liệu kết nối với dữ liệu của Google Sheets, nguồn dữ liệu dựa trên đám mây, nguồn dữ liệu chỉ trích xuất và WDC & NBSP; Nguồn dữ liệu .

Để có được ý tưởng về một số khác biệt mà bạn có thể thấy trong chế độ xem của mình bằng phiên bản 2022.3, hãy xem các phần bên dưới.2022.3, see the sections below.

Định dạng của các giá trị ngày và ngày

Trong các phiên bản 10,5 trở lên, các trích đoạn phải tuân theo các quy tắc nhất quán và chặt chẽ hơn xung quanh cách các chuỗi ngày được giải thích cho đến ngày, DateTime và DateParse & NBSP; các chức năng. Điều này ảnh hưởng đến cách ngày được phân tích cú pháp hoặc các định dạng và mẫu ngày được phép cho các chức năng này. Cụ thể hơn, các quy tắc có thể được khái quát như sau:

  1. Ngày được đánh giá và sau đó được phân tích cú pháp theo cột, không phải theo hàng.
  2. Ngày được đánh giá và sau đó được phân tích cú pháp dựa trên địa phương nơi sổ làm việc được tạo, không phải trên địa phương của máy tính nơi mở sổ làm việc.

Các quy tắc mới này cho phép chiết xuất hiệu quả hơn và tạo ra kết quả phù hợp với cơ sở dữ liệu thương mại.

Tuy nhiên, do các quy tắc này, đặc biệt là trong các kịch bản quốc tế, nơi sổ làm việc được tạo ở một ngôn ngữ khác với ngôn ngữ mà sổ làm việc được mở hoặc máy chủ mà sổ làm việc được xuất bản, bạn có thể thấy rằng 1.) Thay đổi thành các giá trị ngày và DateTime khác nhau hoặc 2.) Giá trị ngày và DateTime thay đổi thành NULL. Khi các giá trị ngày và ngày của bạn thay đổi thành các giá trị ngày và ngày khác nhau hoặc trở thành NULL, thường là một dấu hiệu cho thấy có vấn đề với dữ liệu cơ bản.

Dưới đây là một số lý do phổ biến tại sao bạn có thể thấy các thay đổi đối với các giá trị ngày và dữ liệu của bạn trong nguồn dữ liệu trích xuất của bạn bằng phiên bản 10.5 trở lên.

Nguyên nhân phổ biến của các thay đổi cho các giá trị ngày/DateTime

Nguyên nhân phổ biến của các giá trị null

  • Khi một hàm phải phân tích nhiều định dạng ngày trong một cột. Trong trường hợp ngày mơ hồ và có thể được giải thích theo nhiều cách khác nhau, ngày sẽ được giải thích dựa trên Tableau định dạng đã xác định cho cột đó. Đối với một số ví dụ, xem kịch bản ngày 1 và kịch bản ngày 2 bên dưới.
  • Khi một hàm phải phân tích định dạng Yyyy-MM-DD (ISO). Ví dụ, xem kịch bản ngày 3.
  • Khi một hàm không có đủ thông tin để lấy thời gian, nó có thể giải thích một giá trị là "00: 00: 00.0", sử dụng "0" & ​​nbsp; trong giờ, phút, giây và mili giây.
  • Khi một hàm không có đủ thông tin để rút ra ngày, nó có thể diễn giải một giá trị là "1" hoặc "tháng 1" trong tháng.
  • Khi một hàm phân tích cú pháp nhiều năm, nó được hiểu là như sau:
    • Năm "07" & nbsp; được hiểu là "2007"
    • Năm "17" & nbsp; được hiểu là "2017."
    • Năm "30" được hiểu là "2030."
    • Năm "69" được giải thích là "2069."
    • Năm "70" & nbsp; được hiểu là "1970."
  • Khi một hàm phải phân tích nhiều định dạng ngày trong một cột. Sau khi Tableau xác định định dạng ngày, tất cả các ngày khác trong cột đi chệch khỏi định dạng trở thành giá trị null. Đối với một số ví dụ, xem kịch bản ngày 1 và kịch bản ngày 2 bên dưới.
  • Khi một hàm phải phân tích định dạng Yyyy-MM-DD (ISO). Các giá trị vượt quá những gì được cho phép cho "yyyy" hoặc "mm" hoặc "dd" gây ra các giá trị null. Ví dụ, xem kịch bản ngày 3.
  • Khi một hàm phải phân tích các giá trị ngày có chứa các ký tự dấu vết. Ví dụ, các hậu tố tiết kiệm múi giờ và múi giờ và từ khóa, chẳng hạn như "nửa đêm" gây ra các giá trị null.
  • Khi một hàm phải phân tích một ngày hoặc thời gian không hợp lệ. Ví dụ, 32/3/2012 gây ra giá trị null. Trong một ví dụ khác, 25:01:61 gây ra giá trị null.
  • Khi một chức năng phải phân tích cú pháp mâu thuẫn với đầu vào. Ví dụ: giả sử mẫu là 'dd.mm (mmmm) y' và chuỗi đầu vào là '1.09 (tháng 8) 2017', trong đó cả "9" & nbsp; và "tháng 8" & nbsp; là tháng. Kết quả là giá trị null vì giá trị tháng không giống nhau.
  • Khi một chức năng phải phân tích các mẫu mâu thuẫn. Ví dụ, một mô hình chỉ định sự pha trộn của Gregorian Year (Y) và ISO Week (WW) gây ra các giá trị null.
Kịch bản ngày 1

Giả sử bạn có một sổ làm việc được tạo trong một địa phương tiếng Anh sử dụng nguồn dữ liệu trích xuất .TDE. Bảng dưới đây hiển thị một cột dữ liệu chuỗi có trong nguồn dữ liệu trích xuất.

10/ 31/2018
31/10/2018

12/10/2018

Dựa trên địa phương tiếng Anh cụ thể, định dạng của cột ngày được xác định theo định dạng mdy (tháng, ngày và năm). Các bảng sau đây hiển thị những gì Tableau hiển thị dựa trên ngôn ngữ này khi hàm ngày được sử dụng để chuyển đổi các giá trị chuỗi thành các giá trị ngày.

Ngày 31 tháng 10 năm 2018
Ngày 31 tháng 10 năm 2018
Ngày 10 tháng 12 năm 2018

Nếu trích xuất được mở tại một địa phương của Đức, bạn sẽ thấy như sau:

31 tháng 10 năm 2018
31 tháng 10 năm 2018
12 tháng 10 năm 2018

Tuy nhiên, sau khi trích xuất được mở ở một địa phương Đức bằng phiên bản 10.5 trở lên, định dạng DMY (ngày, tháng và năm) của địa phương Đức được thực thi nghiêm ngặt và gây ra giá trị null vì một trong các giá trị không tuân theo DMY định dạng.

Vô giá trị
Ngày 31 tháng 10 năm 2018
Ngày 10 tháng 12 năm 2018
Nếu trích xuất được mở tại một địa phương của Đức, bạn sẽ thấy như sau:

31 tháng 10 năm 2018

1112018
1212018
1312018
1412018

12 tháng 10 năm 2018

Tuy nhiên, sau khi trích xuất được mở ở một địa phương Đức bằng phiên bản 10.5 trở lên, định dạng DMY (ngày, tháng và năm) của địa phương Đức được thực thi nghiêm ngặt và gây ra giá trị null vì một trong các giá trị không tuân theo DMY định dạng.
Vô giá trị
Vô giá trị
Vô giá trị
Ngày 12 tháng 10 năm 2018

Kịch bản ngày 2

Giả sử bạn có một sổ làm việc khác được tạo trong một ngôn ngữ tiếng Anh sử dụng nguồn dữ liệu trích xuất .tde. Bảng dưới đây cho thấy một cột của dữ liệu ngày số có trong nguồn dữ liệu trích xuất.
Dựa trên địa phương tiếng Anh cụ thể, định dạng của cột ngày được xác định theo định dạng mdy (tháng, ngày và năm). Các bảng sau đây hiển thị những gì Tableau hiển thị dựa trên ngôn ngữ này khi hàm ngày được sử dụng để chuyển đổi các giá trị số thành các giá trị ngày.

2018-12-10

11/1/2018

12/1/2018

Kịch bản ngày 3
Vô giá trị
Ngày 10 tháng 12 năm 2018
Nếu trích xuất được mở tại một địa phương của Đức, bạn sẽ thấy như sau:

31 tháng 10 năm 2018 In versions 10.4 (and earlier), ISO format and other date formats could have produced differing results depending on the locale of where the workbook was created. In an English locale for example, both 2018-12-10 and 2018/12/10 could produce December 12, 2o18. However, in a German locale 2018-12-10 could produce December 12, 2018 and 2018/12/10 could produce October 12, 2018.

Sắp xếp thứ tự và độ nhạy của trường hợp

Trích xuất có hỗ trợ đối chiếu và do đó có thể sắp xếp các giá trị chuỗi phù hợp hơn có điểm nhấn hoặc được đặt khác nhau.

Ví dụ: giả sử bạn có một bảng các giá trị chuỗi. Về thứ tự sắp xếp, điều này có nghĩa là một giá trị chuỗi như égypte hiện được liệt kê một cách thích hợp sau Estonie và trước Fidji.

Về dữ liệu excel: & nbsp;

Liên quan đến vỏ, điều này có nghĩa là cách các giá trị lưu trữ Tableau đã thay đổi giữa phiên bản 10.4 (và trước đó) và phiên bản 10.5 (và sau đó). Tuy nhiên, các quy tắc để sắp xếp và so sánh các giá trị thì không. Trong phiên bản 10.4 (và trước đó), các giá trị chuỗi như "House" & nbsp; "House" và "House" được đối xử giống nhau và được lưu trữ với một giá trị đại diện. Trong phiên bản 10.5 (và sau này), cùng một giá trị chuỗi được coi là duy nhất và do đó được lưu trữ dưới dạng các giá trị riêng lẻ. Để biết thêm thông tin, hãy xem các thay đổi về cách tính toán giá trị.

Phá vỡ mối quan hệ trong các truy vấn hàng đầu

Khi một truy vấn N trên cùng trong trích xuất của bạn tạo ra các giá trị trùng lặp cho một vị trí cụ thể ở cấp bậc, vị trí phá vỡ cà vạt có thể khác nhau khi sử dụng phiên bản 10.5 trở lên. Ví dụ: giả sử bạn tạo ra một bộ lọc Top 3. Vị trí 3, 4 và 5 có cùng giá trị. Khi sử dụng phiên bản 10.4 trở lên, bộ lọc trên cùng có thể trả về các vị trí 1, 2 và 3. Tuy nhiên, khi sử dụng phiên bản 10.5 trở lên, bộ lọc trên cùng có thể trả về các vị trí 1, 2 và 5.

Độ chính xác của các giá trị điểm nổi

Trích xuất tốt hơn trong việc tận dụng các tài nguyên phần cứng có sẵn trên máy tính và do đó có thể thực hiện các hoạt động toán học theo cách song song cao. Bởi vì điều này, các số thực có thể được tổng hợp bởi các chiết xuất .hyper theo thứ tự khác nhau. Khi các số được tổng hợp theo thứ tự khác nhau, bạn có thể thấy các giá trị khác nhau trong quan điểm của bạn sau điểm thập phân mỗi lần tổng hợp được tính toán. Điều này là do bổ sung và nhân dấu nổi không nhất thiết là sự kết hợp. Nghĩa là, (a + b) + c không nhất thiết giống như a + (b + c). Ngoài ra, các số thực có thể được tổng hợp theo thứ tự khác nhau vì phép nhân dấu phẩy động không nhất thiết phải phân phối. Nghĩa là, (a x b) x c không nhất thiết giống như a x b x c. Loại hành vi làm tròn điểm nổi này trong chiết xuất .hyper giống với hành vi làm tròn điểm nổi trong cơ sở dữ liệu thương mại.

Ví dụ: giả sử sổ làm việc của bạn chứa bộ lọc thanh trượt trên một trường tổng hợp bao gồm các giá trị điểm nổi. Vì độ chính xác của các giá trị điểm nổi đã thay đổi, bộ lọc hiện có thể loại trừ một dấu xác định giới hạn trên hoặc dưới của phạm vi bộ lọc. Sự vắng mặt của những con số này có thể gây ra một cái nhìn trống. Để giải quyết vấn đề này, hãy di chuyển thanh trượt trên bộ lọc hoặc xóa và thêm bộ lọc.

Độ chính xác của tập hợp

Trích xuất Tối ưu hóa cho các bộ dữ liệu lớn bằng cách tận dụng lợi thế tốt hơn của các tài nguyên phần cứng có sẵn trên máy tính và do đó có thể tính toán các tập hợp theo cách song song cao. Bởi vì điều này, các tập hợp được thực hiện bởi các trích đoạn .hyper có thể giống với kết quả từ cơ sở dữ liệu thương mại nhiều hơn kết quả từ phần mềm chuyên về tính toán thống kê. Nếu bạn làm việc với một tập dữ liệu nhỏ hoặc cần mức độ chính xác cao hơn, hãy xem xét thực hiện các tập hợp thông qua các dòng tham chiếu, thống kê thẻ tóm tắt hoặc các chức năng tính toán bảng như phương sai, độ lệch chuẩn, tương quan hoặc hiệp phương sai.

Nếu tùy chọn tính toán tính toán bây giờ đã được sử dụng trong trích xuất. Nếu bạn nâng cấp chiết xuất từ ​​chiết xuất. Bạn phải sử dụng tùy chọn tính toán tính toán bây giờ một lần nữa để đảm bảo rằng các tính toán được vật liệu hóa là một phần của trích xuất sau khi nâng cấp trích xuất. Để biết thêm thông tin, hãy xem các tính toán thành hiện thực trong trích đoạn của bạn.Compute Calculations Now option was used in a .tde extract using an earlier version of Tableau Desktop, certain calculated fields were materialized and therefore computed in advance and stored in the extract. If you upgrade the extract from a .tde extract to a .hyper extract, the previously materialized calculations in your extract are not included. You must use the Compute Calculations Now option again to ensure that materialized calculations are a part of the extract after the extract upgrade. For more information, see Materialize Calculations in Your Extracts.

Bạn có thể sử dụng API 2.0 trích xuất để tạo chiết xuất .HYPER. Đối với các tác vụ mà trước đây bạn đã thực hiện bằng SDK Tableau, chẳng hạn như xuất bản trích xuất, bạn có thể sử dụng thư viện Tableau Server Rest & NBSP; API hoặc Client Tableau Server (Python). Đối với các tác vụ làm mới, bạn cũng có thể sử dụng API của Tableau Server Rest & NBSP; Để biết thêm thông tin, xem Tableau Hyper API.

Mặc dù có một số tùy chọn trong quy trình làm việc Tableau của bạn để tạo một trích đoạn, phương pháp chính được mô tả dưới đây.

  1. Sau khi bạn kết nối với dữ liệu của mình và thiết lập nguồn dữ liệu trên trang nguồn dữ liệu, ở góc trên bên phải, chọn Trích xuất, sau đó nhấp vào liên kết Chỉnh sửa để mở hộp thoại Trích xuất dữ liệu.Extract, and then click the Edit link to open the Extract Data dialog box.

    Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

  2. .

    • Quyết định cách lưu trữ dữ liệu trích xuất

      Bạn có thể chọn để Tableau lưu trữ dữ liệu trong trích xuất của mình bằng một trong hai cấu trúc (lược đồ): bảng logic (lược đồ chuẩn hóa) hoặc bảng vật lý (lược đồ chuẩn hóa). Để biết thêm thông tin về các bảng logic và vật lý, hãy xem mô hình dữ liệu Tableau.

      Tùy chọn bạn chọn phụ thuộc vào những gì bạn cần.

      • Bảng logic

        Lưu trữ dữ liệu bằng một bảng trích xuất cho mỗi bảng logic trong nguồn dữ liệu. Các bảng vật lý xác định một bảng logic được hợp nhất và lưu trữ với bảng logic đó. Ví dụ: nếu một nguồn dữ liệu được tạo từ một bảng logic duy nhất, dữ liệu sẽ được lưu trữ trong một bảng. Nếu một nguồn dữ liệu được tạo từ ba bảng logic (mỗi bảng chứa nhiều bảng vật lý), dữ liệu trích xuất sẽ được lưu trữ trong ba bảng, một bảng cho mỗi bảng logic.

        Chọn các bảng logic khi bạn muốn giới hạn lượng dữ liệu trong trích xuất của bạn với các thuộc tính trích xuất bổ sung như bộ lọc trích xuất, tập hợp, N hoặc các tính năng khác yêu cầu dữ liệu bị biến dạng. Đồng thời sử dụng khi dữ liệu của bạn sử dụng các hàm truyền qua (RAWSQL). Đây là cấu trúc mặc định Tableau sử dụng để lưu trữ dữ liệu trích xuất. Nếu bạn sử dụng tùy chọn này khi trích xuất của bạn có chứa các kết nối, các lần nối được áp dụng khi trích xuất được tạo.Logical Tables when you want to limit the amount of data in your extract with additional extract properties like extract filters, aggregation, Top N, or other features that require denormalized data. Also use when your data uses pass-through functions (RAWSQL). This is the default structure Tableau uses to store extract data. If you use this option when your extract contains joins, the joins are applied when the extract is created.

      • Bảng vật lý

        Lưu trữ dữ liệu bằng một bảng trích xuất cho mỗi bảng vật lý trong nguồn dữ liệu.

        Chọn các bảng vật lý nếu trích xuất của bạn bao gồm các bảng kết hợp với một hoặc nhiều tham gia bình đẳng và đáp ứng các điều kiện để sử dụng tùy chọn Bảng vật lý được liệt kê bên dưới. Nếu bạn sử dụng tùy chọn này, tham gia được thực hiện tại thời điểm truy vấn.Physical Tables if your extract is comprised of tables combined with one or more equality joins and meets the Conditions for using the Physical Tables option listed below. If you use this option, joins are performed at query time.

        Tùy chọn này có khả năng cải thiện hiệu suất và giúp giảm kích thước của tệp trích xuất. Để biết thêm thông tin về cách Tableau khuyên bạn nên sử dụng tùy chọn Bảng vật lý, hãy xem các mẹo để sử dụng tùy chọn Bảng vật lý. Trong một số trường hợp, bạn cũng có thể sử dụng tùy chọn này như một cách giải quyết cho bảo mật cấp hàng. Để biết thêm thông tin về bảo mật cấp hàng bằng cách sử dụng Tableau, hãy xem Hạn chế truy cập AT & NBSP; mức hàng dữ liệu.

        Điều kiện sử dụng tùy chọn bảng vật lý

        Để lưu trữ trích xuất của bạn bằng tùy chọn Bảng vật lý, dữ liệu trong trích xuất của bạn phải đáp ứng tất cả các điều kiện được liệt kê dưới đây.

        • Tất cả các kết nối giữa các bảng vật lý là sự bình đẳng (=) tham gia
        • Các loại dữ liệu của các cột được sử dụng cho các mối quan hệ hoặc tham gia là giống hệt nhau
        • Không có chức năng truyền qua (RAWSQL) được sử dụng
        • Không có cấu hình làm mới gia tăng
        • Không có bộ lọc trích xuất được cấu hình
        • Không có cấu hình N hoặc lấy mẫu hàng đầu

        Khi trích xuất được lưu trữ dưới dạng các bảng vật lý & nbsp; bạn không thể nối dữ liệu vào nó. Đối với các bảng logic, bạn không thể nối dữ liệu vào các trích xuất có nhiều hơn một bảng logic.

      Lưu ý: Cả hai bảng logic và các tùy chọn bảng vật lý chỉ ảnh hưởng đến cách lưu trữ dữ liệu trong trích xuất của bạn. Các tùy chọn không ảnh hưởng đến cách các bảng trong trích xuất của bạn được hiển thị trên trang nguồn dữ liệu. Both the Logical Tables and Physical Tables options only affect how the data in your extract is stored. The options do not affect how tables in your extract are displayed on the Data Source page.

      Ví dụ: giả sử trích đoạn của bạn bao gồm một bảng logic chứa ba bảng vật lý. Nếu bạn trực tiếp mở tệp trích xuất (.hyper) đã được cấu hình để sử dụng tùy chọn mặc định, bảng logic, bạn sẽ thấy một bảng được liệt kê trên trang nguồn dữ liệu. Tuy nhiên, nếu bạn mở trích xuất bằng tệp nguồn dữ liệu được đóng gói (.tdsx) hoặc tệp nguồn dữ liệu (.tdsx) với tệp trích xuất (.hyper) tương ứng của nó, bạn sẽ thấy cả ba bảng bao gồm trích xuất trên trang nguồn dữ liệu .

    • Xác định số lượng dữ liệu để trích xuất & nbsp; 

      Nhấp vào Thêm để xác định một hoặc nhiều bộ lọc để giới hạn số lượng dữ liệu được trích xuất dựa trên các trường và giá trị của chúng.Add to define one or more filters to limit how much data gets extracted based on fields and their values.

      Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

    • Tổng hợp dữ liệu trong Trích xuất & NBSP; 

      Chọn dữ liệu tổng hợp cho các kích thước có thể nhìn thấy để tổng hợp các biện pháp bằng cách sử dụng tổng hợp mặc định của chúng. Tập hợp dữ liệu Hợp nhất các hàng, có thể giảm thiểu kích thước của tệp trích xuất và tăng hiệu suất.Aggregate data for visible dimensions to aggregate the measures using their default aggregation. Aggregating the data consolidates rows, can minimize the size of the extract file, and increase performance.

      Khi bạn chọn tổng hợp dữ liệu, bạn cũng có thể chọn cuộn ngày đến một mức ngày được chỉ định như năm, tháng, v.v. Các ví dụ dưới đây cho thấy dữ liệu sẽ được trích xuất cho mỗi tùy chọn tổng hợp bạn có thể chọn.Roll up dates to a specified date level such as Year, Month, etc. The examples below show how the data will be extracted for each aggregation option you can choose.

      Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

      Dữ liệu gốc
      Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python
      Mỗi bản ghi được hiển thị như một hàng riêng biệt. Có bảy hàng trong dữ liệu của bạn.
      Tổng hợp dữ liệu cho kích thước có thể nhìn thấy

      (không cuộn lên)

      Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python
      Các hồ sơ có cùng ngày và khu vực đã được tổng hợp thành một hàng. Có năm hàng trong chiết xuất.
      Dữ liệu tổng hợp cho kích thước có thể nhìn thấy (cuộn lên từ tháng)
      (roll up dates to Month)
      Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python
      Ngày đã được cuộn lên cấp tháng và hồ sơ với cùng một khu vực đã được tổng hợp thành một hàng. Có ba hàng trong chiết xuất.
    • Chọn các hàng để trích xuất

      Chọn số lượng hàng bạn muốn trích xuất.

      Bạn có thể trích xuất tất cả các hàng hoặc hàng đầu. Tableau trước tiên áp dụng bất kỳ bộ lọc và tập hợp nào và sau đó trích xuất số lượng hàng từ kết quả được lọc và tổng hợp. Số lượng tùy chọn hàng phụ thuộc vào loại nguồn dữ liệu mà bạn đang trích xuất.All rows or the TopN rows. Tableau first applies any filters and aggregation and then extracts the number of rows from the filtered and aggregated results. The number of rows options depend on the type of data source you are extracting from.

      Notes:

      • Không phải tất cả các nguồn dữ liệu đều hỗ trợ lấy mẫu. Do đó, bạn có thể không thấy tùy chọn lấy mẫu trong hộp thoại Trích xuất dữ liệu.Sampling option in the Extract Data dialog box.

      • Bất kỳ trường nào bạn ẩn đầu tiên trong trang nguồn dữ liệu hoặc trên tab trang tính sẽ được loại trừ khỏi trích xuất. Nhấp vào nút ẩn tất cả các trường chưa sử dụng để xóa các trường ẩn này khỏi trích xuất.Hide All Unused Fields button to remove these hidden fields from the extract.

  3. Khi hoàn thành, bấm OK.OK.

  4. Nhấp vào tab Bảng. Nhấp vào tab Tab bắt đầu tạo trích xuất.

  5. Trong hộp thoại tiếp theo, chọn một vị trí để lưu trích xuất, đặt tên cho tệp trích xuất một tên và sau đó nhấp vào Lưu.Save.

    Nếu hộp thoại Lưu không hiển thị, hãy xem phần Extracteshoot Extracts, bên dưới.

Sau khi bạn tạo một trích đoạn, sổ làm việc bắt đầu sử dụng phiên bản trích xuất dữ liệu của bạn. Tuy nhiên, kết nối với phiên bản trích xuất dữ liệu của bạn không được bảo tồn cho đến khi bạn lưu sổ làm việc. Điều này có nghĩa là nếu bạn đóng sổ làm việc mà không lưu sổ làm việc trước, sổ làm việc sẽ kết nối với nguồn dữ liệu gốc vào lần tới khi bạn mở nó.

Chuyển đổi giữa dữ liệu được lấy mẫu và toàn bộ trích xuất

Khi bạn làm việc với một trích xuất lớn, bạn có thể muốn tạo một trích xuất với một mẫu dữ liệu để bạn có thể thiết lập chế độ xem trong khi tránh các truy vấn dài mỗi khi bạn đặt một trường trên kệ trên tab trang tính. Sau đó, bạn có thể chuyển đổi giữa việc sử dụng trích xuất (với dữ liệu mẫu) và sử dụng toàn bộ nguồn dữ liệu bằng cách chọn nguồn dữ liệu trên menu dữ liệu và sau đó chọn sử dụng trích xuất.Data menu and then selecting Use Extract.

Bởi vì các trích đoạn được lưu vào hệ thống tệp của bạn, có thể kết nối trực tiếp với chúng với một phiên bản máy tính để bàn Tableau mới. Điều này không được khuyến khích vì một vài lý do:

  • Tên bảng sẽ khác nhau. Các bảng được lưu trữ trong trích xuất của bạn Sử dụng đặt tên đặc biệt để đảm bảo tính duy nhất của tên, và nó có thể không thể đọc được của con người.. Tables stored in your extract use special naming to guarantee name uniqueness, and it may not be human-readable.
  • Bạn không thể làm mới chiết xuất. Khi kết nối trực tiếp với trích xuất, Tableau coi tệp đó là nguồn thực sự, trái ngược với bản sao dữ liệu cơ bản. Vì vậy, không thể liên hệ lại với dữ liệu nguồn của bạn.. When connecting directly to an extract, Tableau treats that file as the true source, as opposed to a clone of underlying data. So, it's not possible to relate it back to your source data.
  • Mô hình dữ liệu và các mối quan hệ sẽ bị mất. Mô hình dữ liệu và mối quan hệ giữa các bảng được lưu trữ trong tệp .tds chứ không phải trong tệp .hyper, vì vậy thông tin này bị mất khi kết nối trực tiếp với tệp .hyper. Ngoài ra, nếu bạn trích xuất bằng cách sử dụng lưu trữ bảng logic, bạn sẽ không thấy bất kỳ tài liệu tham khảo nào đến các bảng vật lý cơ bản gốc.. The data model and relationships between the tables is stored in the .tds file and not in the .hyper file, so this information is lost when connecting directly to the .hyper file. Additionally, if you extract using logical tables storage, you will not see any references to the original underlying physical tables.

Bạn có thể xóa một trích xuất bất cứ lúc nào bằng cách chọn nguồn dữ liệu trích xuất trên menu dữ liệu và sau đó chọn. Khi bạn xóa một trích xuất, bạn có thể chọn xóa trích xuất ra khỏi sổ làm việc hoặc xóa và xóa tệp trích xuất. Tùy chọn thứ hai sẽ xóa trích xuất từ ​​ổ cứng của bạn.Data menu and then selecting . When you remove an extract, you can choose to Remove the extract from the workbook only or Remove and delete the extract file. The latter option will delete the extract from your hard drive.

Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

Bạn có thể thấy khi trích xuất được cập nhật lần cuối và các chi tiết khác bằng cách chọn nguồn dữ liệu trên menu dữ liệu và sau đó chọn.Data menu and then selecting .

Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

Nếu bạn mở một sổ làm việc được lưu bằng trích xuất và Tableau không thể xác định vị trí trích xuất, hãy chọn một trong các tùy chọn sau trong hộp thoại không tìm thấy trích xuất khi được nhắc:

  • Xác định vị trí trích xuất: Chọn tùy chọn này nếu trích xuất tồn tại nhưng không phải ở vị trí mà Tableau ban đầu lưu nó. Nhấp vào OK để mở hộp thoại Mở tệp nơi bạn có thể chỉ định vị trí mới cho tệp trích xuất. Select this option if the extract exists but not in the location where Tableau originally saved it. Click OK to open an Open File dialog box where you can specify the new location for the extract file.

  • Hủy bỏ trích đoạn: Chọn tùy chọn này nếu bạn không cần thêm trích xuất. Điều này tương đương với việc đóng nguồn dữ liệu. Tất cả các bảng tính mở tham chiếu nguồn dữ liệu bị xóa. Select this option if you have no further need for the extract. This is equivalent to closing the data source. All open worksheets that reference the data source are deleted.

  • Vô hiệu hóa trích xuất: Sử dụng nguồn dữ liệu gốc mà từ đó trích xuất được tạo, thay vì trích xuất. Use the original data source from which the extract was created, instead of the extract.

  • Tái tạo chiết xuất: tái tạo chiết xuất. Tất cả các bộ lọc và các tùy chỉnh khác mà bạn đã chỉ định khi bạn tạo ban đầu, trích xuất được tự động áp dụng. Recreates the extract. All filters and other customizations you specified when you originally created the extract are automatically applied.

Hướng dẫn tableau data extract python - hoạt cảnh trích xuất dữ liệu python

Mẹo sử dụng tùy chọn bảng vật lý

Tableau thường khuyên bạn nên sử dụng tùy chọn lưu trữ dữ liệu mặc định, bảng logic, khi thiết lập và làm việc với các trích đoạn. Trong nhiều trường hợp, một số tính năng bạn cần cho trích xuất của mình, như bộ lọc trích xuất, chỉ có sẵn cho bạn nếu bạn sử dụng tùy chọn bảng logic.

Tùy chọn bảng vật lý nên được sử dụng một cách tiết kiệm để giúp với các tình huống cụ thể như khi nguồn dữ liệu của bạn đáp ứng các điều kiện sử dụng tùy chọn bảng vật lý và kích thước của chiết xuất của bạn lớn hơn dự kiến. Để xác định xem chiết xuất có lớn hơn mức cần thiết hay không, tổng các hàng trong trích xuất bằng tùy chọn bảng logic phải cao hơn tổng của các hàng của tất cả các bảng kết hợp trước khi trích xuất được tạo. Nếu bạn gặp phải kịch bản này, hãy thử sử dụng tùy chọn Bảng & NBSP; thay thế.

Các đề xuất lọc thay thế khi sử dụng tùy chọn bảng vật lý

Khi sử dụng tùy chọn Bảng vật lý, các tùy chọn khác để giúp giảm dữ liệu trong trích xuất của bạn, như bộ lọc trích xuất, tập hợp, N và lấy mẫu trên cùng bị vô hiệu hóa. Nếu bạn cần giảm dữ liệu trong một trích xuất sử dụng tùy chọn bảng vật lý, hãy xem xét lọc dữ liệu trước khi được đưa vào máy tính để bàn Tableau bằng một trong các đề xuất sau:

  • Kết nối với dữ liệu của bạn và xác định các bộ lọc bằng SQL tùy chỉnh: Thay vì kết nối với bảng cơ sở dữ liệu, hãy kết nối với dữ liệu của bạn bằng SQL tùy chỉnh thay thế. Khi tạo truy vấn SQL tùy chỉnh của bạn, hãy đảm bảo rằng nó chứa mức độ lọc thích hợp mà bạn cần để giảm dữ liệu trong trích xuất. Để biết thêm thông tin về SQL tùy chỉnh trong Tableau Desktop, hãy xem Kết nối với truy vấn SQL tùy chỉnh. Instead of connecting to a database table, connect to your data using custom SQL instead. When creating your custom SQL query, make sure that it contains the appropriate level of filtering that you need to reduce the data in your extract. For more information about custom SQL in Tableau Desktop, see Connect to a Custom SQL Query.

  • Xác định chế độ xem trong cơ sở dữ liệu: Nếu bạn có quyền truy cập ghi vào cơ sở dữ liệu của mình, hãy xem xét việc xác định chế độ xem cơ sở dữ liệu chỉ chứa dữ liệu bạn cần cho trích xuất của mình và sau đó kết nối với chế độ xem cơ sở dữ liệu từ Tableau Desktop. If you have write access to your database, consider defining a database view that contains just the data you need for your extract and then connect to the database view from Tableau Desktop.

Nếu bạn muốn bảo mật dữ liệu trích xuất ở cấp độ hàng, sử dụng tùy chọn Bảng vật lý là cách được khuyến nghị để đạt được kịch bản này. Để biết thêm thông tin về bảo mật cấp độ hàng trong Tableau, hãy xem Hạn chế truy cập AT & NBSP; mức hàng dữ liệu.

  • Tạo một trích đoạn mất nhiều thời gian: tùy thuộc vào kích thước của bộ dữ liệu của bạn, việc tạo một trích đoạn có thể mất nhiều thời gian. Tuy nhiên, sau khi bạn đã trích xuất dữ liệu và lưu nó vào máy tính của bạn, hiệu suất có thể cải thiện. Depending on the size of your data set, creating an extract can take a long time. However, after you have extracted the data and saved it to your computer, performance can improve.

  • Trích xuất không được tạo: nếu bộ dữ liệu của bạn chứa một số lượng lớn các cột (ví dụ: trong hàng ngàn), trong một số trường hợp, Tableau có thể không thể tạo trích xuất. Nếu bạn gặp phải vấn đề, hãy xem xét trích xuất ít cột hơn hoặc tái cấu trúc dữ liệu cơ bản. If your data set contains a really large number of columns (e.g., in the thousands), in some cases Tableau might not be able to create the extract. If you encounter problems, consider extracting fewer columns or restructuring the underlying data.

  • Hộp thoại Lưu không hiển thị hoặc trích xuất không được tạo từ .TWBX: Nếu bạn làm theo quy trình trên để trích xuất dữ liệu từ sổ làm việc được đóng gói, hộp thoại Lưu không hiển thị. Khi một trích đoạn được tạo từ sổ làm việc đóng gói (.twbx), tệp trích xuất sẽ tự động được lưu trữ trong gói các tệp được liên kết với sổ làm việc đóng gói. Để truy cập tệp trích xuất mà bạn đã tạo từ sổ làm việc đóng gói, bạn phải giải nén sổ làm việc. Để biết thêm thông tin, xem sổ làm việc đóng gói. If you follow the above procedure to extract data from a packaged workbook, the Save dialog does not display. When an extract is created from a packaged workbook (.twbx), the extract file is automatically stored in the package of files associated with the packaged workbook. To access the extract file that you created from the packaged workbook, you must unpackage the workbook. For more information, see Packaged Workbooks.