毕业设计4－－－爬虫的研究

浏览 4732 次

锁定老帖子主题：毕业设计4－－－爬虫的研究精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
fullfocus 等级: 初级会员文章: 43 积分: 30 来自: 厦门	发表时间：2007-03-03 相关推荐: 毕业设计论文--机器爬虫运动步态策略研究.doc Python毕业设计-python的反爬虫技术的研究.zip 数据可视化方向的毕业设计-基于Python爬虫的招聘信息及租房数据可视化分析系统毕业设计-基于python反爬虫技术的研究毕业设计与实现（源码+数据库+演示视频）.zip 毕业设计-python的反爬虫技术的研究明）（完整源码）.zip 更多相关推荐昨天研究的NUTCH，是个完整的项目，虽然功能很强，但据说自定义性并不是很出色（自己还没有时间去时间一下），所以现在有必要研究一下单纯的Crawl，这里有JSPIDER（java）, LARBIN（c++, 好像一定要在LINUX环境下，不知道有没有WINDOWS版的）, websphinx(java)。（另外carrot2 聚类搜索也挺有意思，LARBIN的相关资料http://www.matrix.org.cn/thread.shtml?topicId=22644&forumId=32）。根据毕业设计的题目要求：－－－－－－－－－－－－－－－－－－－－－－－－－－－－对Web搜索引擎返回的页面进行自动的分类。Web搜索引擎返回的页面是动态的，其文档分类的类别是未知的、不固定的。根据页面内容自身的差异，使用文档聚类的方法对页面进行自动归类。本系统包含以下几个子功能：<o:p></o:p> 1.从搜索引擎获得Web页面<o:p></o:p> 2.Web网页文档的预处理<o:p></o:p> 3.文档聚类算法<o:p></o:p> 4.Web文档聚类结果的可视化展现<o:p></o:p> 要求：<o:p></o:p> Java/C++编程；<o:p></o:p> 数据挖掘算法；－－－－－－－－－－－－－－－－－－－－－－发现论文题目的意思可能并不是要自己实现爬虫从网上抓取网页，可能直接从其他web搜索引擎得到网页（很郁闷，到现在导师还不开会，确定我们的论题，害得我们这么早跑到学校又不知所错，还有是要做成自动归类还是自动聚类也没搞清楚）。所以下午研究了下GOOGLE API，也看了一下元搜索引擎，还没仔细看，先记录到这里了。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

soulmachine 等级: 初级会员性别: 文章: 33 积分: 74 来自: 湖北武汉	发表时间：2007-03-08 我现在也在做元搜索引擎，开始就要做搜索结果聚类，我直接从carrot2 下手
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 入门技术版

跳转论坛: