Hướng dẫn python trong power bi

Bạn có thể sử dụng Python, một ngôn ngữ lập trình được các nhà thống kê, nhà khoa học dữ liệu và nhà phân tích dữ liệu sử dụng rộng rãi trong Power BI Desktop Query Editor. Việc tích hợp Python vào Query Editor cho phép bạn dọn dẹp dữ liệu bằng Python đồng thời phân tích và định hình dữ liệu nâng cao trong tập dữ liệu, bao gồm hoàn thành dữ liệu bị thiếu, dự đoán và phân cụm. Python là một ngôn ngữ mạnh mẽ và có thể dùng trong Query Editor để chuẩn bị mô hình dữ liệu và tạo report (báo cáo).

1. Cài đặt Python

Để sử dụng Python trong Query Editor trong Power BI Desktop, bạn cần cài đặt Python trên máy cục bộ (local) của bạn. Bạn có thể tải và cài đặt Python miễn phí từ nhiều nơi như trang chủ Python và Anaconda.

Tham khảo: Hướng dẫn chạy tập lệnh Python trong Power BI Desktop

2. Sử dụng Python trong Query Editor

Để biết cách sử dụng Python trong Query Editor, hãy lấy ví dụ này từ một tập dữ liệu thị trường chứng khoán, dựa trên một tệp .CSV mà bạn có thể tải xuống tại đây và làm theo. Các bước cho ví dụ này như sau:

  • Bước 1: Đầu tiên, tải dữ liệu của bạn vào Power BI Desktop. Trong ví dụ này, tải tệp EuStockMarkets_NA.csv và chọn Get Data > CSV từ tab Home trong Power BI Desktop.

  • Bước 2: Chọn tệp và chọn Open và CSV sẽ hiển thị trong hộp thoại tệp CSV.

  • Bước 3: Khi dữ liệu được tải lên, bạn sẽ thấy nó trong thanh Fields trong Power BI Desktop.

  • Bước 4: Mở Query Editor bằng cách chọn Edit Queries từ tab Home trong Power BI Desktop.

  • Bước 5: Trong tab Transform, chọn Run Python Script và trình chỉnh sửa Run Python Script xuất hiện. Lưu ý đến dòng 15 và 20 bị thiếu dữ liệu, cũng như các hàng khác mà bạn không thể thấy trong hình ảnh sau. Các bước dưới đây cho thấy cách Python có thể hoàn thành các hàng đó cho bạn.

  • Bước 6: Đối với ví dụ này, nhập mã tập lệnh sau:

   import pandas as pd

   completedData = dataset.fillna(method='backfill', inplace=False)

   dataset["completedValues"] =  completedData["SMI missing values"]

Lưu ý: Bạn sẽ cần cài đặt thư viện pandas trong môi trường Python của mình để mã tập lệnh trước đó hoạt động bình thường. Để cài đặt pandas, hãy chạy lệnh sau trong cài đặt Python của bạn: | > pip install pandas

Khi đặt vào hộp thoại Run Python Script, mã sẽ trông như sau:

  • Bước 7: Sau khi chọn OK, Query Editor sẽ hiển thị một cảnh báo về quyền riêng tư dữ liệu.

  • Bước 8: Để các tập lệnh Python hoạt động bình thường trong Power BI service, tất cả nguồn dữ liệu cần được đặt thành công khai.

Lưu ý một cột mới trong ngăn Fields có tên completedValues. Lưu ý có một vài đối tượng dữ liệu bị thiếu, như là dòng 15 và 18. Hãy xem cách mà Python xử lý điều đó trong phần tiếp theo.

Với chỉ 5 dòng của tập lệnh Python, Query Editor đã điền vào các giá trị còn thiếu bằng mô hình dữ đoán.

3. Tạo trực quan từ dữ liệu tập lệnh Python

Bây giờ, chúng ta có thể tạo một trực quan để xem cách mã tập lệnh Python sử dụng thư viện pandas hoàn thành các giá trị bị thiếu như trong ảnh dưới đây:

Khi trực quan đó được hoàn thiện và bất kỳ trực quan nào khác mà bạn có thể muốn tạo bằng Power BI Desktop, bạn có thể lưu tệp Power BI Desktop (dưới dạng tệp .pbix) và sau đó sử dụng mô hình dữ liệu, bao gồm tập lệnh Python là một phần của nó trong Power BI service.

Lưu ý: Bạn có thể tải tệp Power BI Desktop hoàn thiện được dùng trong ví dụ này tại đây.

Khi bạn đã tải tệp .pbix lên Power BI service, cần thực hiện thêm một số bước nữa để khởi động làm mới dữ liệu (trong service) và cho phép cập nhật hình ảnh trong dịch vụ (dữ liệu cần quyền truy cập vào Python để có trực quan được cập nhật). Các bước bổ sung như sau:

  • Khởi động lịch làm mới tập dữ liệu: Để khởi động lịch làm mới đối với workbook mà chứa tập dữ liệu của bạn với tập lệnh Python, bạn có thể xem hướng dẫn bên dưới, bao gồm thông tin về Personal Gateway.

Tham khảo: Hướng dẫn cấu hình lên lịch làm mới tập dữ liệu

  • Cài đặt Personal Gateway: Bạn cần cài đặt Personal Gateway trên máy nơi đặt tệp và nơi Python được cài đặt; Power BI service phải truy cập workbook đó và hiển thị lại bất kỳ trực quan được cập nhật nào.
4. Những điều cần cân nhắc

Có một số hạn chế đối với các truy vấn bao gồm các tập lệnh Python được tạo trong Query Editor:

  • Tất cả cài đặt nguồn dữ liệu Python phải được đặt thành Public và tất cả các bước khác trong truy vấn được tạo trong Query Editor cũng phải đặt thành Public. Để truy cập cài đặt nguồn dữ liệu, trong Power BI Desktop chọn File > Options and Settings > Data source settings.

Từ hộp thoại Data Source Settings, chọn các nguồn dữ liệu và sau đó chọn Edit Permissions và đảm bảo Privacy Level được đặt là Public.

  • Để khởi động lịch làm mới của các trực quan Python hoặc tập dữ liệu, bạn cần khởi động Scheduled refresh và có một Personal Gateway được cài đặt trên máy tính chứa workbook và cài đặt Python.
  • Các bảng lồng nhau hiện không được hỗ trợ.

Có rất nhiều thứ bạn có thể làm với Python và các truy vấn tùy chỉnh, vì vậy hãy khám phá và định hình dữ liệu của bạn theo cách bạn muốn nó xuất hiện. Mong rằng những kiến thức trên sẽ hữu ích với bạn đọc. Đừng quên theo dõi các nội dung mới nhất sẽ được cập nhật thường xuyên tại website bacs.vn.

Nguồn tham khảo:

https://docs.microsoft.com/

Nhu cầu đào tạo doanh nghiệp

BAC là đơn vị đào tạo BA đầu tiên tại Việt Nam. Đối tác chính thức của IIBA quốc tế. Ngoài các khóa học public, BAC còn có các khóa học in house dành riêng cho từng doanh nghiệp. Chương trình được thiết kế riêng theo yêu cầu của doanh nghiệp, giúp doanh nghiệp giải quyết những khó khăn và tư vấn phát triển.

Tham khảo chương trình đào tạo: 

Click để đọc tiếp

  • Hướng dẫn python trong power bi

    6 ví dụ thực tế về Business Intelligence Dashboard

    Business Intelligence Dashboard mang đến khả năng làm chủ dữ liệu cho cả những người không chuyên. Đã có rất nhiều lĩnh vực, hoạt động nhận được lợi ích từ việc sử dụng các BI Dashboard này, đây là 6 ví dụ thực tế để bạn tham khảo.

  • Hướng dẫn python trong power bi

    9 Phần mềm khảo sát tốt nhất dành cho doanh nghiệp nhỏ

    Phần mềm khảo sát giúp bạn thu thập dữ liệu từ các nhóm mục tiêu. Qua đó, bạn sẽ có được những dữ liệu phân tích chính xác để nghiên cứu thị trường, khảo sát mức độ hài lòng của khách hàng và nhiều ứng dụng thực tế khác.

  • Hướng dẫn python trong power bi

    8 công cụ trực quan dữ liệu lớn hàng đầu hiện nay

    Dữ liệu lớn có thể xem là một khó khăn với các công cụ xử lý. Tuy nhiên, trong thời đại hiện nay dữ liệu lớn đã không còn xa lạ với các doanh nghiệp. Đây là danh sách 8 công cụ trực quan dữ liệu lớn tốt nhất mà bạn nên cân nhắc sử dụng.

  • Hướng dẫn python trong power bi

    Sự khác nhau giữa MSBI và Power BI

    Power BI và MSBI là những công cụ Business Intelligence được xếp hàng đầu về chất lượng hiện nay. Chúng giúp các doanh nghiệp đưa ra những quyết định chính xác trong thời gian ngắn thông qua việc phân tích. Nếu bạn còn đang phân vân giữa hai công cụ này thì đây là bài viết dành cho bạn.