在Ubuntu下安装Nutch 2.x,你可以按照以下步骤进行操作:
安装Java Development Kit (JDK):打开终端,执行以下命令安装JDK:
sudo apt updatesudo apt install openjdk-8-jdk下载Nutch:在终端中执行以下命令下载并解压Nutch:
wget https://www.apache.org/dyn/closer.cgi/nutch/2.3.1/apache-nutch-2.3.1-src.tar.gztar -xf apache-nutch-2.3.1-src.tar.gz配置环境变量:打开终端,执行以下命令编辑.bashrc文件:
nano ~/.bashrc在文件末尾添加以下行:
export NUTCH_HOME=/path/to/apache-nutch-2.3.1export PATH=$PATH:$NUTCH_HOME/bin保存并关闭文件,然后执行以下命令使环境变量生效:
source ~/.bashrc配置Nutch:进入Nutch目录,执行以下命令编辑nutch-site.xml文件:
cd apache-nutch-2.3.1cp conf/nutch-site.xml.template conf/nutch-site.xmlnano conf/nutch-site.xml在文件中修改以下配置:
<property><name>http.agent.name</name><value>My Nutch Spider</value></property><property><name>http.robots.agents</name><value>My Nutch Spider,*</value></property>保存并关闭文件。
启动Nutch:在终端中执行以下命令启动Nutch:
nutch inject URLsnutch generatenutch fetchnutch parsenutch updatedbnutch index其中,URLs为你要抓取的起始URL。
完成以上步骤后,你就成功在Ubuntu上安装了Nutch 2.x。你可以根据需要进一步配置Nutch,如设置抓取策略、添加插件等。