锁定老帖子 主题:毕业设计3---Nutch的使用
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-03-02
今天研究了Nutch, 差不多已经好几个小时了, 到现在还没有搞定,也这么晚了, 先记录下来,明天继续吧。 一开始很多时间都浪费在了cygwin的安装上了,bs这个软件的开发者了, 一个不伦不类的软件安装程序,安装的时候还要从网上下载东东。。。。。不过最后终于装成功了, 先下载到本地后,再安装的(建议 下载站点中选 TW的比较块)。 下面是我安装CYGWIN和NUTCH的过程, 都块成功了, 但最后卡在了用户查询界面, 输入东西什么都查不出来,不知怎么回事。 NUTCH的大致原理如下: 一、环境:
图中可以看到nutch目录在cygwin的根目录下。
<property><o:p></o:p> <name>http.agent.name</name><o:p></o:p> <value></value><o:p></o:p> <description>HTTP 'User-Agent' request header. MUST NOT be empty - <o:p></o:p> please set this to a single word uniquely related to your organization.<o:p></o:p> <o:p> </o:p> NOTE: You should also check other related properties:<o:p></o:p> <o:p> </o:p> http.robots.agents<o:p></o:p> http.agent.description<o:p></o:p> http.agent.url<o:p></o:p> http.agent.email<o:p></o:p> http.agent.version<o:p></o:p> <o:p> </o:p> and set their values appropriately.<o:p></o:p> <o:p> </o:p> </description><o:p></o:p> </property><o:p></o:p> <o:p> </o:p> <property><o:p></o:p> <name>http.agent.description</name><o:p></o:p> <value></value><o:p></o:p> <description>Further description of our bot- this text is used in<o:p></o:p> the User-Agent header. It appears in parenthesis after the agent name.<o:p></o:p> </description><o:p></o:p> </property><o:p></o:p> <o:p> </o:p> <property><o:p></o:p> <name>http.agent.url</name><o:p></o:p> <value></value><o:p></o:p> <description>A URL to advertise in the User-Agent header. This will <o:p></o:p> appear in parenthesis after the agent name. Custom dictates that this<o:p></o:p> should be a URL of a page explaining the purpose and behavior of this<o:p></o:p> crawler.<o:p></o:p> </description><o:p></o:p> </property><o:p></o:p> <o:p> </o:p> <property><o:p></o:p> <name>http.agent.email</name><o:p></o:p> <value></value><o:p></o:p> <description>An email address to advertise in the HTTP 'From' request<o:p></o:p> header and User-Agent header. A good practice is to mangle this<o:p></o:p> address (e.g. 'info at example dot com') to avoid spamming.<o:p></o:p> </description><o:p></o:p> </property><o:p></o:p> 把<name>XXX</name>之间的内容替换为其他字符,当然就算是不替换也无所谓,这里的设置,是因为nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。 五、查询搜索:(目前我还没有通过此步,输入关键字老是没有结果????)
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2007-03-02
其实……
有不用cygwin直接启动nutch的批处理脚本的。 |
|
返回顶楼 | |
浏览 10279 次