对抓取回来的海量原始网页存储结构设计

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 18621 次

锁定老帖子主题：对抓取回来的海量原始网页存储结构设计精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
作者	正文
tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-16 lovejuan1314 写道数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. 谢谢，这种方式应该不错
返回顶楼	回帖地址 0 0 请登录后投票

luojian 等级: 初级会员性别: 文章: 13 积分: 30 来自: 福州	发表时间：2009-09-16 我觉的用文件的方式，外接硬盘。
返回顶楼	回帖地址 0 0 请登录后投票

fanzy618 等级: 初级会员性别: 文章: 19 积分: 40 来自: 北京	发表时间：2009-09-16 Hbase安装和使用都很简单，读写性能也不错，就是太吃内存。 hypertable的编译和安装很麻烦，尤其是需要部署到多台机器的时候。数据量不大的话，文件系统+关系数据库性能会更好。按一定命名规则保存到文件系统，数据库保存文件名和网址的映射。 tangmi 写道 lovejuan1314 写道数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. 谢谢，这种方式应该不错
返回顶楼	回帖地址 0 0 请登录后投票

lovejuan1314 等级: 初级会员性别: 文章: 23 积分: 40 来自: 北京	发表时间：2009-09-16 fanzy618 写道 Hbase安装和使用都很简单，读写性能也不错，就是太吃内存。 hypertable的编译和安装很麻烦，尤其是需要部署到多台机器的时候。数据量不大的话，文件系统+关系数据库性能会更好。按一定命名规则保存到文件系统，数据库保存文件名和网址的映射。 tangmi 写道 lovejuan1314 写道数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. 谢谢，这种方式应该不错恩, Hypertable在配置上确实比较麻烦,而且仿SQL的HQL语言也相对少很多. 我看重的主要是它在大数据量优越的读写速度以及稳定性. HBASE和Hadoop融合起来比较容易些,而且支持的相对多一些,但是它在应付大数据量的情况下还是容易被crash. 虽然构建于hdfs上的结点有容错功能,但还是比较担心数据的丢失,尤其在master出问题的时候. ;-)
返回顶楼	回帖地址 0 0 请登录后投票

baseworld 等级: 初级会员性别: 文章: 267 积分: 20 来自: 上海	发表时间：2009-09-16 最后修改：2009-09-16 lovejuan1314 写道 fanzy618 写道 Hbase安装和使用都很简单，读写性能也不错，就是太吃内存。 hypertable的编译和安装很麻烦，尤其是需要部署到多台机器的时候。数据量不大的话，文件系统+关系数据库性能会更好。按一定命名规则保存到文件系统，数据库保存文件名和网址的映射。 tangmi 写道 lovejuan1314 写道数据量很大的话,可以考虑Hypertable,稳定性和效率上会很好. 同样hypertable可以建立在hadoop集群上, 表的设计使用反向域名作为row key作大表. 在对抓回来的信息索引和分析的过程将会是重点,也是难点. 可以定制不同的M/R任务来做. 谢谢，这种方式应该不错恩, Hypertable在配置上确实比较麻烦,而且仿SQL的HQL语言也相对少很多. 我看重的主要是它在大数据量优越的读写速度以及稳定性. HBASE和Hadoop融合起来比较容易些,而且支持的相对多一些,但是它在应付大数据量的情况下还是容易被crash. 虽然构建于hdfs上的结点有容错功能,但还是比较担心数据的丢失,尤其在master出问题的时候. ;-) hadoop的append是个问题，0.19的append半死不活，另外用这种东西lz要考虑好hadoop的HA比如是Namenode HA方案，没有HA的集群只是玩具。
返回顶楼	回帖地址 0 0 请登录后投票

programming 等级: 性别: 文章: 286 积分: 120 来自: 地球上	发表时间：2009-09-17 用文件的方式存入硬盘，相关数据存入数据库。
返回顶楼	回帖地址 0 0 请登录后投票

lianj_lee 等级: 初级会员性别: 文章: 50 积分: 10 来自: 北京	发表时间：2009-09-17 存入硬盘，硬盘消耗量太大，我最近就已经感觉到这个问题很严重了。每天抓回来的东西很多啊。
返回顶楼	回帖地址 0 0 请登录后投票

wlvfox 等级: 初级会员性别: 文章: 56 积分: 10 来自: 北京	发表时间：2009-09-17 我也在搞爬虫收集一些公司所需要的特定数据一开始用MYSQL关系型数据库存储，后来发现不太实际第一网页中的数据往往不是按照我们的字段来设计的第二数据量变大后，即使有索引也会有明显的速度下降最后考虑的是关系型数据库+无模式型数据库结合存储的思路我用的是MYSQL+MONGODB来存储 MYSQL中记录原始网页的路径 MONGODB中存储网页收集回来的我们所需要的数据不知道谁这样联合使用过，因为还需要进一步实验，希望有经验的可以给予一定的指点。同时也给大家开拓个思路吧。。。
返回顶楼	回帖地址 0 0 请登录后投票

yangliang00504 等级: 初级会员性别: 文章: 4 积分: 10 来自: 广州	发表时间：2009-11-11 我今年毕业，目前正在做抓取方面的工作，就是用nekohtml解析页面内容，并替换里面的各种路径目前字符编码以及js中的路径问题都没能解决好字符编码我是这样处理的 connection = (HttpURLConnection)new URL(url).openConnection(); BufferedReader in = new BufferedReader(new InputStreamReader(connection.getInputStream(),encode)); 字符还是存在乱码更不好搞的就是那个JS中路径问题了的用正则都不能准确的查找替换的所以还望多多指教
返回顶楼	回帖地址 0 0 请登录后投票

p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2009-11-22 生成相应的xml,直接用xpath解析。我们目前是这样做的。不知大家还有什么好的建议！
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: