Hướng dẫn implement spark trong windows

Apache Spark có thể được cài đặt trên các hệ điều hành khác nhau như Windows, Ubuntu, Fedora, Centos,… Ở đây chúng ta sẽ tìm hiểu cách cài đặt Spark trên cả Windows và Ubuntu. Tuy nhiên do Spark được phát triển trên hệ sinh thái Hadoop nên tốt nhất ta nên cài đặt và triển khai Apache Spark trên các hệ điều hành Linux (như Ubuntu)

I. Cài đặt Apache Spark trên Windows.

1. Download và cài đặt Java

– Download và cài đặt JDK  tại đây

– Thiết lập biến môi trường JAVA_HOME với đường dẫn tới thư mục jdk (ví dụ: C:\Program Files\Java\jdk1.8.0_191) trong Enviroment Variable (vào Control Panel, chọn System rồi chọn Advanced System settings ở góc bên góc trái)

– Thêm thư mục bin của jdk (%JAVA_HOME%\bin) vào trong biến môi trường Path
– Lưu lại các thiết lập rồi mở cửa sổ command để kiểm tra bằng lệnh java -version.

Hướng dẫn implement spark trong windows

2. Download và cài đặt Scala

– Download và cài đặt Scala tại đây (kéo xuống chọn Binary for windows)

– Thiết lập biến môi trường SCALA_HOME và Path tương tự như phần cài đặt Java

– Kiểm tra thiết lập bằng lệnh scala -version.

3. Download Spark

– Download Spark tại đây rồi tiến hành tiến hành giải nén file

– Thiết lập biến môi trường SPARK_HOME và Path tương tự như trên

4. Download Winutils

– Tiến hành download Winutils tại đây, chú ý lựa trọn phiên bản Hadoop phù hợp với phiên bản đã lựa trọn trong phần download Spark

– Click vào phiên bản Hadoop phù hợp, kéo xuống bên dưới để download file winutils.exe

– Lưu file winutils.exe vào một thư mục bất kỳ và tạo biến môi trường HADOOP_HOME với đường dẫn tới thư mục đó (nếu khi chạy spark bị lỗi không load được Winutils thì xem lại đường dẫn của Winutils vì có thể nó cần được để trong thư mục bin)

5. Thay đổi quyền truy cập cho thư mục tmp/hive

– Sau khi hoàn thành các bước trên, sẽ có thư mục tmp/hive được tạo ra trong ổ C. Ta cần phải thay đổi quyền truy cập cho thư mục này nếu không khi chạy Spark sẽ báo lỗi

– Để thực hiện việc này, ta mở một cửa số command rồi dùng Winutils để thay đổi permission như sau (chmod 777: cấp quyền read, write và execute):                 

winutils.exe chmod777C:\tmp\hive

6. Kiểm tra hoàn thiện cài đặt

– Chạy thử một chương trình Spark nhỏ để kiểm tra xem việc cài đặt đã hoàn tất hay chưa.

– Dùng lệnh cmd để mở một của sổ command.

– Gõ lệnh spark-shell

– Gõ một chương trình nhỏ để chạy thử val

textRDD=sc.textFile("README.md")

textRDD.count()

Hướng dẫn implement spark trong windows

II. Cài đặt Apache Spark trên ubuntu

1. Download và cài đặt Java

– Mở một terminal rồi dùng lệnh sau để cài jdk:                     

sudo apt-get install default-jdk

– Kiểm tra lại bằng lệnh java -version

  • Hướng dẫn implement spark trong windows

(Các bạn có thể thiết lập JAVA_HOME và PATH trong Ubuntu bằng cách mở file ~/.bashrc với dòng lệnh “gedit ~/.bashrc” rồi thêm hai dòng lệnh dưới đây vào cuối file này. Sau đó các bạn nhấn nút Save để lưu file và mở một cửa sổ terminal rồi dùng dòng lệnh “source ~/.bashrc” để thực thi thay đổi của file ~/.bashrc trên toàn bộ môi trường hiện tại.)

export JAVA_HOME=/usr/lib/jvm/default-java

export PATH=$PATH:$JAVA_HOME/bin

2. Download và cài đặt Scala

– Dùng lệnh sau để cài Scala: sudo apt-get install scala

– Kiểm tra lại bằng lệnh scala -version

3. Download và cài đặt Spark

– Tương tự như trong phần cài đặt trên Windows, ta download Spark tại đây

– Tiến hành giải nén file download được vào thư mục bất kỳ (ví dụ: ~/Workspace/BigData/Tools)

– Thêm thư mục bin của Spark vào biến PATH bằng cách dùng lệnh “gedit ~/.bashrc” rồi thêm dòng sau vào file bashrc:

export PATH=$PATH:~/Workspace/BigData/Tools/spark-2.4.0-bin-hadoop2.7/bin

– Dùng dòng lệnh “source ~/.bashrc” để thực thi thay đổi của file ~/.bashrc trên toàn bộ môi trường hiện tại.

– Kiểm tra lại việc cài đặt bằng việc chạy thử Spark:

spark-shell

val textRDD=sc.textFile(README.md)textRDD.count()

                

Hướng dẫn implement spark trong windows