对抓取回来的海量原始网页存储结构设计

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 18647 次

锁定老帖子主题：对抓取回来的海量原始网页存储结构设计精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
作者	正文
tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-13 最后修改：2009-12-15 相关推荐: 数据采集平台的架构设计 PB级海量数据服务平台架构设计实践大数据实时计算平台的设计和实现系统架构设计——互联网金融系统架构设计 PB级海量数据服务平台架构设计实践 \| 文末福利更多相关推荐企业应用最近一直在搞爬虫相关的工作，现在在考虑抓取回来的原始网页存储问题找了一些资料，也参考了天网的存储格式，现在头绪没有理清楚，该以怎样的结构存储对后期的再加工和查询等提高效率，希望做搜索的朋友一起讨论，哪里不对请指教声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-13 最后修改：2009-09-13 主要是针对原始网页的存储和对原始网页加工后的格式数据的索引存储，一起讨论下吧，这个应该有点意思吧，呵呵
返回顶楼	回帖地址 0 0 请登录后投票

打倒小日本等级: 初级会员性别: 文章: 121 积分: 0 来自: 辽宁	发表时间：2009-09-14 这就完了？ LZ总得象征性的抛块砖吧？
返回顶楼	回帖地址 0 0 请登录后投票

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-14 最后修改：2009-09-14 目前都是以域名作为目录和以网页URL作为文件名存储，有想法存放到hadoop上，但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好，因为hadoop对小文件支持不好吧，期待更好的建设性思路
返回顶楼	回帖地址 0 0 请登录后投票

dengyin2000 等级: 性别: 文章: 1467 积分: 1725 来自: 广州	发表时间：2009-09-14 tangmi 写道目前都是以域名作为目录和以网页URL作为文件名存储，有想法存放到hadoop上，但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好，因为hadoop对小文件支持不好吧，期待更好的建设性思路对url进行md5，假如md5的值为 abcdefghj 则存储为引用 +ab +cd +ef -abcdefghj hadoop file system 对小文件是不行的。效率不高。可以看看mogile filesystem。
返回顶楼	回帖地址 0 0 请登录后投票

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-14 最后修改：2009-09-14 谢谢dengyin2000，我会去看的。大家还有什么建议尽管讨论
返回顶楼	回帖地址 0 0 请登录后投票

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-14 dengyin2000 写道 tangmi 写道目前都是以域名作为目录和以网页URL作为文件名存储，有想法存放到hadoop上，但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好，因为hadoop对小文件支持不好吧，期待更好的建设性思路对url进行md5，假如md5的值为 abcdefghj 则存储为引用 +ab +cd +ef -abcdefghj hadoop file system 对小文件是不行的。效率不高。可以看看mogile filesystem。您的意思是对抽取出来的格式化文件信息进行存储还是原始网页？原始网页这样存储有点不明白，请指教
返回顶楼	回帖地址 0 0 请登录后投票

tangmi 等级: 初级会员文章: 57 积分: 10	发表时间：2009-09-14 大家没有对这个感兴趣的吗
返回顶楼	回帖地址 0 0 请登录后投票

lianj_lee 等级: 初级会员性别: 文章: 50 积分: 10 来自: 北京	发表时间：2009-09-14 我最近也在做这么个事，但是也没什么好的思路。自己写爬虫，然后爬回来的页面，自己解析，在将数据提取出来，建立索引或者存数据库！
返回顶楼	回帖地址 0 0 请登录后投票

ylyben 等级: 初级会员性别: 文章: 4 积分: 40 来自: 北京	发表时间：2009-09-14 lianj_lee 写道我最近也在做这么个事，但是也没什么好的思路。自己写爬虫，然后爬回来的页面，自己解析，在将数据提取出来，建立索引或者存数据库！存数据库是不行的，数据量太大了
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: