`
imjl
  • 浏览: 156269 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

智能型爬虫还在research

阅读更多
根据当前测试,目前算法预计将能成功65-70%,中间无需任何人工参与。

测试完成后将视结果是否立项?立项标准是90%,难度不小,要保持准确和速度。

测试语言:php,但是实际开发语言可能会用c#。

数据规模每天增量大约50万,数据保存至少半年,那么数据至少9000万,这将是个很庞大的规模。

虽说爬虫将独立运作,但是我觉得还是需要建立爬虫监控系统,并且参考MapReduce部分设计将性能拉到最大。

搜索应该会采用新版本的solr(估计用得时候会出来),希望这次自己修改的比较少。



je怎么没有回自己的功能....我只好修改下

数据如果要跑的话,增量将是50万的100倍,,, 当然不可能跑这么多.

目前测试结果是80%的准确率, 下周应该还能提升准确率, 完成第一个测试. 如此下去某公司的优势应该不存在了.
做得比较吃力, 但是想想能这个够刺激, 所以写得比较high.


今天边看灾情边看hadoop, 做datanode满适合的. 看了下, 目前solr+hadoop的还没人做, 只听说aol在研究. 不知道是否会开源, 如果没有, 那就要自己整合了, 要么用c++写php的扩展来操作hadoop, 要么就是用python, 当然php操作java来完成也可以.到时候看效率和稳定性把.


目前偏向python, 理由: 我很懒.
分享到:
评论
2 楼 imjl 2009-03-10  
bbs爬虫,无模板
1 楼 comsci 2009-03-09  
智能体现在哪里呢?

相关推荐

    智能反爬虫试炼之路.pdf

    在IT行业,网络爬虫与反爬虫技术之间的对抗已经成为了互联网安全的重要组成部分。这份文件的标题“智能反爬虫试炼...对于爬虫开发者而言,理解智能反爬虫的原理和机制,则有助于在合法合规的前提下更好地利用爬虫技术。

    基于python的智能流式爬虫库

    数据流式处理: 智能流式爬虫库应支持数据流的处理,即抓取到的数据可以在抓取的同时进行处理,而不需要等待所有数据全部抓取完毕。这样可以提高内存使用效率,降低处理延迟。 智能去重和增量更新: 库应具备智能的...

    过滤型爬虫的研究与设计

    ### 过滤型爬虫的研究与...通过采用高效的过滤策略和技术,过滤型爬虫能够在海量信息中快速准确地找到与特定主题相关的高质量内容,极大地提高了信息检索的效率和准确性。这对于构建专业领域的搜索引擎具有重要意义。

    基于C#.NET的高端智能化网络爬虫

    【标题】"基于C#.NET的高端智能化网络爬虫"涉及的是使用C#编程语言和.NET框架构建一个高级且智能的网络爬虫程序。网络爬虫是自动化抓取互联网信息的工具,它能够遍历网页,提取所需数据,如本例中的携程所有城市酒店...

    计算机毕业设计:基于Face++网络爬虫+人脸融合算法智能发型推荐程序(Python代码+爬虫数据集),保证可靠运行,附赠计算机

    《计算机毕业设计:基于Face++网络爬虫+人脸融合算法智能发型推荐程序》是一项集合了网络爬虫技术、人脸融合算法以及智能推荐系统的综合性计算机毕业设计项目。该项目旨在通过Python编程实现一个能够根据用户面部...

    分布式智能网络爬虫系统设计.pdf

    在一些异常情况下,如自动恢复失败,还需人工介入进行维护处理。 2. 分布式智能网络爬虫的特点: 分布式网络爬虫系统设计的核心在于实现数据采集策略、数据抽取、数据存储、系统检测等方面的自动化。这种爬虫系统...

    网站图片爬虫小工具 网站图片爬虫小工具

    网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...

    极验陈博-智能反爬虫试炼之路.pdf

    根据提供的文档标题、描述、标签以及部分内容,我们可以总结出该文档主要探讨了“智能反爬虫”的主题,尤其是从极验(Geetest)的...在未来,智能反爬虫技术将会变得更加智能化和高效化,以应对日益复杂的网络环境。

    TVBoxOSC 服务端爬虫 .zip

    爬虫(Web Crawler)是一种自动...爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

    网络爬虫爬虫软件

    需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server ...

    反爬虫策略反爬虫手段

    在互联网世界中,爬虫与反爬虫是一场持续的博弈。爬虫,作为一种自动抓取网页信息的程序,被广泛用于数据挖掘、市场分析、搜索引擎优化等领域。然而,随着爬虫技术的发展,网站所有者也开始采取各种反爬虫策略以保护...

    基于Java多线程的智能图片爬虫系统的研究与实现.pdf

    "基于Java多线程的智能图片爬虫系统的研究与实现" 本文研究了一种基于Java多线程的智能图片爬虫系统,旨在解决传统爬虫系统中存在的问题,如爬取大量无效信息、重复图片等。该系统利用HttpClient、JSoup、WebMagic...

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    秀人网爬虫 55156爬虫.zip

    爬虫(Web Crawler)是一种自动...爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

    基于Python的网络爬虫与反爬虫技术研究.pdf

    在对目标网站进行爬取的过程中,爬虫需要遵循网站的robots.txt规则,同时还需要处理网站实施的反爬虫技术。 反爬虫技术是网站为了保护自身数据不被无限制的爬取而采取的技术手段。它通过设置各种门槛,如需要模拟...

    本人多年使用的爬虫与反爬虫经验

    本人多年使用的爬虫与反爬虫经验 原理+中间件+源代码 各种爬虫技术+针对各种爬虫而开发的反爬虫技术

Global site tag (gtag.js) - Google Analytics