是这样的,我配置好了Nutch,然后按照上面的指导也爬取了一些网页,OK。
问题来了:
这句话:bin/nutch crawl urls –threads n –depths n
这是用来爬取网页的,默认情况下,如果不指定爬取目录,它会自己在与 bin 目录同级的地方建立三个目录(或许更多,不了解),用来装爬取到的网页,但是我运行后,爬虫爬的好欢快,爬了一千多个网页,但是指定目录下上面文件夹都没有被创建,只是Mysql里面存储了网页的记录,但是其他的文件呢??说好的会自动创建目录来存储爬取的数据的呢??
PS:一个网页有很多内容,图片啊各种东东,Nutch爬虫爬的是哪些?默认情况下,又是存储在哪的呢??
希望各位路过的大神有力出力,不吝赐教!
------解决方案--------------------
我是来学习的。