锁定老帖子 主题:对抓取回来的海量原始网页存储结构设计
精华帖 (3) :: 良好帖 (1) :: 新手帖 (1) :: 隐藏帖 (3)
|
|
---|---|
作者 | 正文 |
发表时间:2009-09-13
最后修改:2009-12-15
找了一些资料,也参考了天网的存储格式,现在头绪没有理清楚,该以怎样的结构存储对后期的再加工和查询等提高效率,希望做搜索的朋友一起讨论,哪里不对请指教 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2009-09-13
最后修改:2009-09-13
主要是针对原始网页的存储和对原始网页加工后的格式数据的索引存储,一起讨论下吧,这个应该有点意思吧,呵呵
|
|
返回顶楼 | |
发表时间:2009-09-14
这就完了?
LZ总得象征性的抛块砖吧? |
|
返回顶楼 | |
发表时间:2009-09-14
最后修改:2009-09-14
目前都是以域名作为目录和以网页URL作为文件名存储,有想法存放到hadoop上,但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好,因为hadoop对小文件支持不好吧,期待更好的建设性思路
|
|
返回顶楼 | |
发表时间:2009-09-14
tangmi 写道 目前都是以域名作为目录和以网页URL作为文件名存储,有想法存放到hadoop上,但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好,因为hadoop对小文件支持不好吧,期待更好的建设性思路
对url进行md5, 假如md5的值为 abcdefghj 则存储为 引用 +ab +cd +ef -abcdefghj hadoop file system 对小文件是不行的。 效率不高。 可以看看mogile filesystem。 |
|
返回顶楼 | |
发表时间:2009-09-14
最后修改:2009-09-14
谢谢dengyin2000,我会去看的。
大家还有什么建议尽管讨论 |
|
返回顶楼 | |
发表时间:2009-09-14
dengyin2000 写道 tangmi 写道 目前都是以域名作为目录和以网页URL作为文件名存储,有想法存放到hadoop上,但是对于这样体积很小的网页文件该用什么策略存储到hadoop上比较好,因为hadoop对小文件支持不好吧,期待更好的建设性思路
对url进行md5, 假如md5的值为 abcdefghj 则存储为 引用 +ab +cd +ef -abcdefghj hadoop file system 对小文件是不行的。 效率不高。 可以看看mogile filesystem。 您的意思是对抽取出来的格式化文件信息进行存储还是原始网页?原始网页这样存储有点不明白,请指教 |
|
返回顶楼 | |
发表时间:2009-09-14
大家没有对这个感兴趣的吗
|
|
返回顶楼 | |
发表时间:2009-09-14
我最近也在做这么个事,但是也没什么好的思路。
自己写爬虫,然后爬回来的页面,自己解析,在将数据提取出来,建立索引或者存数据库! |
|
返回顶楼 | |
发表时间:2009-09-14
lianj_lee 写道 我最近也在做这么个事,但是也没什么好的思路。
自己写爬虫,然后爬回来的页面,自己解析,在将数据提取出来,建立索引或者存数据库! 存数据库是不行的,数据量太大了 |
|
返回顶楼 | |