Trong hướng dẫn này, chúng tôi sẽ hướng dẫn bạn từng bước cài đặt Apache Hadoop trên hộp Linux (Ubuntu). Đây là quy trình gồm 2 phần
Có 2 điều kiện tiên quyết
Bước 1) Thêm người dùng hệ thống Hadoop bằng lệnh dưới đây
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Nhập mật khẩu, tên và các chi tiết khác của bạn.
LƯU Ý: Có khả năng xảy ra lỗi được đề cập dưới đây trong quá trình thiết lập và cài đặt này.
"hduser không có trong tệp sudoers. Sự cố này sẽ được báo cáo."
Lỗi này có thể được giải quyết bằng cách Đăng nhập với tư cách người dùng root
Thực hiện lệnh
sudo adduser hduser_ sudo
Đăng nhập lại với tư cách hduser_
Bước 2) Định cấu hình SSH
Để quản lý các nút trong một cụm, Hadoop yêu cầu quyền truy cập SSH
Đầu tiên, chuyển đổi người dùng, nhập lệnh sau
su - hduser_
Lệnh này sẽ tạo một khóa mới.
ssh-keygen -t rsa -P ""
Bật quyền truy cập SSH vào máy cục bộ bằng cách sử dụng khóa này.
cat $ HOME / .ssh / id_rsa.pub >> $ HOME / .ssh / allow_keys
Bây giờ hãy kiểm tra thiết lập SSH bằng cách kết nối với localhost với tư cách là người dùng 'hduser'.
ssh localhost
Lưu ý: Xin lưu ý, nếu bạn thấy lỗi bên dưới khi phản hồi với 'ssh localhost', thì có khả năng SSH không khả dụng trên hệ thống này-
Để giải quyết điều này -
Xóa SSH bằng cách sử dụng,
sudo apt-get purge openssh-server
Thực hành tốt là thanh lọc trước khi bắt đầu cài đặt
Cài đặt SSH bằng lệnh-
sudo apt-get install openssh-server
Bước 3) Bước tiếp theo là Tải xuống Hadoop
Chọn Ổn định
Chọn tệp tar.gz (không phải tệp có src)
Sau khi quá trình tải xuống hoàn tất, hãy điều hướng đến thư mục chứa tệp tar
Đi vào,
sudo tar xzf hadoop-2.2.0.tar.gz
Bây giờ, đổi tên hadoop-2.2.0 thành hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_: hadoop_ hadoopPhần 2) Định cấu hình Hadoop
Bước 1) Sửa đổi tệp ~ / .bashrc
Thêm các dòng sau vào cuối tệp ~ / .bashrc
#Set HADOOP_HOME export HADOOP_HOME = <Thư mục Cài đặt Hadoop> #Set JAVA_HOME export JAVA_HOME = <Thư mục cài đặt Java> # Thêm bin / thư mục của Hadoop vào PATH xuất PATH = $ PATH: $ HADOOP_HOME / bin
Bây giờ, tạo nguồn cấu hình môi trường này bằng lệnh dưới đây
. ~ / .bashrc
Bước 2) Các cấu hình liên quan đến HDFS
Đặt JAVA_HOME bên trong tệp $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Với
Có hai tham số trong $ HADOOP_HOME / etc / hadoop / core-site.xml cần được thiết lập-
1. 'hadoop.tmp.dir' - Được sử dụng để chỉ định một thư mục sẽ được Hadoop sử dụng để lưu trữ các tệp dữ liệu của nó.
2. 'fs.default.name' - Điều này chỉ định hệ thống tệp mặc định.
Để đặt các thông số này, hãy mở core-site.xml
sudo gedit $ HADOOP_HOME / etc / hadoop / core-site.xml
Sao chép dòng dưới đây vào giữa các thẻ <configuration> </configuration>
<property> <name> hadoop.tmp.dir </name> <value> / app / hadoop / tmp </value> <description> Thư mục chính cho các thư mục tạm thời khác. </description> </property> <property> <name> fs.defaultFS </name> <value> hdfs: // localhost: 54310 </value> <description> Tên của hệ thống tệp mặc định. </description> </property>
Điều hướng đến thư mục $ HADOOP_HOME / etc / Hadoop
Bây giờ, hãy tạo thư mục được đề cập trong core-site.xml
sudo mkdir -p <Đường dẫn Thư mục được sử dụng trong cài đặt trên>
Cấp quyền cho thư mục
sudo chown -R hduser_: Hadoop_ <Đường dẫn thư mục được tạo ở bước trên>
sudo chmod 750 <Đường dẫn thư mục được tạo ở bước trên>
Bước 3) Bản đồ Giảm cấu hình
Trước khi bạn bắt đầu với các cấu hình này, hãy đặt đường dẫn HADOOP_HOME
sudo gedit /etc/profile.d/hadoop.sh
Và nhập
xuất HADOOP_HOME = / home / guru99 / Downloads / Hadoop
Tiếp theo nhập
sudo chmod + x /etc/profile.d/hadoop.sh
Thoát khỏi Nhà ga và khởi động lại lần nữa
Nhập echo $ HADOOP_HOME. Để xác minh đường dẫn
Bây giờ sao chép tệp
sudo cp $ HADOOP_HOME / etc / hadoop / mapred-site.xml.template $ HADOOP_HOME / etc / hadoop / mapred-site.xml
Mở mapred-site.xml tập tin
sudo gedit $ HADOOP_HOME / etc / hadoop / mapred-site.xml
Thêm các dòng cài đặt dưới đây vào giữa các thẻ <configuration> và </configuration>
<property> <name> mapreduce.jobtracker.address </name> <value> localhost: 54311 </value> <description> Trình theo dõi công việc MapReduce chạy tại máy chủ và cổng này. </description> </property>
Mở $ HADOOP_HOME / etc / hadoop / hdfs-site.xml như bên dưới,
sudo gedit $ HADOOP_HOME / etc / hadoop / hdfs-site.xml
Thêm dòng cài đặt bên dưới giữa các thẻ <configuration> và </configuration>
<property> <name> dfs.replication </name> <value> 1 </value> <description> Sao chép khối mặc định. </description> </property> <property> <name> dfs.datanode.data.dir </name> <value> / home / hduser_ / hdfs </value> </property>
Tạo một thư mục được chỉ định trong cài đặt trên-
sudo mkdir -p <Đường dẫn Thư mục được sử dụng trong cài đặt trên>
sudo mkdir -p / home / hduser_ / hdfs
sudo chown -R hduser_: hadoop_ <Đường dẫn thư mục đã tạo ở bước trên>
sudo chown -R hduser_: hadoop_ / home / hduser_ / hdfs
sudo chmod 750 <Đường dẫn thư mục được tạo ở bước trên>
sudo chmod 750 / home / hduser_ / hdfs
Bước 4) Trước khi chúng tôi khởi động Hadoop lần đầu tiên, hãy định dạng HDFS bằng lệnh dưới đây
$ HADOOP_HOME / bin / hdfs namenode -format
Bước 5) Khởi động cụm nút đơn Hadoop bằng lệnh dưới đây
$ HADOOP_HOME / sbin / start-dfs.sh
Một đầu ra của lệnh trên
$ HADOOP_HOME / sbin / start-yarn.sh
Sử dụng công cụ / lệnh 'jps' , xác minh xem tất cả các quy trình liên quan đến Hadoop có đang chạy hay không.
Nếu Hadoop đã khởi động thành công thì đầu ra của jps sẽ hiển thị NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode.
Bước 6) Dừng Hadoop
$ HADOOP_HOME / sbin / stop-dfs.sh
$ HADOOP_HOME / sbin / stop-yarn.sh
Bước trên một chân
|