Hướng dẫn dùng r tableby python
Một câu hỏi thường hay đặt ra bởi nhiều nhà khoa học dữ liệu, đặc biệt là những người mới trong lĩnh vực này đó là: Python hay R tốt hơn cho khoa học dữ liệu? Thực ra còn nhiều ngôn ngữ khác cho khoa học dữ liệu như là: Java, C, Scala, Matlab, Julia,…nhưng Python và R đang dẫn đầu trong phần lớn thế giới khoa học dữ liệu. R vốn được thiết kế bởi các nhà thống kê và đã trở thành lựa chọn hàng đầu cho những ai bước vào lĩnh vực khoa học dữ liệu. Một trong những thế mạnh chính của R là số lượng khổng lồ các packages chuyên dụng và cộng đồng support vô cùng lớn. Tuy nhiên, độ phổ biến của nó gần đây đã giảm đi một chút. Trong khi đó, Python là ngôn ngữ đa mục đích có thể sử dụng trong nhiều lĩnh vực khác nhau từ lập trình ứng dụng web đến viết game. Có thể thấy là hiện nay Python đang thách thức ngôi vị lâu đầu của R như là một ngôn ngữ chung cho các nhà khoa học dữ liệu. Tuy nhiên các doanh nghiệp sẽ không ưu tiên ngôn ngữ nào khi xem xét các kỹ năng của một nhà khoa học dữ liệu, vì vậy các bạn phải biết cách linh hoạt trong việc sử dụng các ngôn ngữ này làm công cụ cho khoa học dữ liệu làm sao hiệu quả nhất. Cả R và Python đều có sử dụng để giải quyết các bài toán tương tự nhau trong khoa học dữ liệu. Cả hai đều có những packages hoặc libraries để giải quyết những vấn đề trong phân tích dữ liệu như tiền xủ lý, ứng dụng machine learning cho dữ liệu. Cả hai đều là lựa chọn tốt cho nghiên cứu khả lặp - một kỹ năng đòi hỏi trong rất nhiều lĩnh vực khác nhau. Tuy nhiên hai ngôn ngữ này lại có những tính năng tuyệt vời và điểm mạnh riêng vì vậy chúng ta nên kết hợp chúng để tận dụng những lợi thế của nhau, chỗ nào tiện và mạnh cái gì thì dùng cái đó. Hình dưới đây mô tả tóm tắt những điểm nổi trội của hai ngôn ngữ này: Ở post này tôi sẽ giới thiệu với các bạn cách kết hợp hai ngôn ngữ này trong môi trường R bằng cách sử dụng package reticulate. Trước hết để tiến hành làm việc với Python và R chúng ta cần cài đặt chúng:
Để kết hợp R và Python trong môi trường R chúng ta cần cài R package
Tuy nhiên cách cài đặt như các bạn vừa thực hiện ở trên là không khuyến khích. Nguyên nhân là một số gói của R để sử dụng được còn phụ thuộc vào một hoặc một số gói khác. Do vậy an toàn nhất là cài đặt với lựa chọn
Package
Kêt hợp R và Python Để có thể dùng Python trong môi trường R chúng ta cần nạp thư thư viện
Để kiểm tra môi trường Python có trong máy, các bạn dùng câu lệnh sau:
Dùng hàm
Sử dụng hàm
Ta có thể cài đặt bất kỳ python library nào trong R bằng cách dùng hàm
Các cách sử dụng kết hợp Python và R trong môi trường R 1. Import các python modules Sử dụng hàm
2. Sourcing Python scripts Bạn có thể nạp bất kỳ một Python scripts nào vào R sử dụng hàm
Và các bạn có thể nạp và thực thi nó trên R như sau:
3. Python REPL Hàm Dùng lệnh Chú ý: Trong Python code có thể sử dụng mọi đối tượng được tạo ra từ R bằng các sử dụng đối tượng 4. Sử dụng python trong R markdown Package
Chúng ta hãy cùng xem ví dụ kết hợp R và Python đơn giản sau: Nạp dữ liệu vào Python:
Sau đó chuyển dữ liệu và thao tác với dữ liệu bằng R:
Thực hiện
data visualization trong R vơi base function
Thực hiện data visualization trong R với
Tham khảo: R Interface to Python |