- 浏览: 1625422 次
- 性别:
- 来自: 上海
-
最新评论
-
wahahachuang5:
web实时推送技术使用越来越广泛,但是自己开发又太麻烦了,我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用 -
秦时明月黑:
Jetty 服务器架构分析 -
chenghaitao111111:
楼主什么时候把gecko源码分析一下呢,期待
MetaQ技术内幕——源码分析(转) -
qqggcc:
为什么还要写代码啊,如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote) -
yongdi2:
好厉害!求打包代码
Hadoop日志文件分析系统
文章列表
1. 依赖注入
1.1 类依赖注入
所谓的绑定就是将一个接口绑定到具体的类中,这样客户端不用关心具体的实现,而只需要获取相应的接口完成其服务即可。
HelloWorld.java
1 public interface HelloWorld {2 3 String sayHello();4 }
在地铁上,他给一大妈让了座,大妈高兴地和他攀谈,问:“孩子多大了?”他说:“20。”大妈羡慕地说:“你长得真年轻,看起来也就30出头,孩子都20岁了!
相似图片搜索的三种算法
想必大家都用google或baidu的识图功能,上面就是我搜索冠希哥一幅图片的结果,这种搜索的核心算法有三种,都是利用信息指纹比较,这些算法都很易懂,下面分别介绍一下:
一、平均哈希算 ...
本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。
硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74
这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。
一个很简单的测试办法就是ping一下主机名,比如在dbrg-1上ping dbrg-2,如果能ping通就OK!若不能正确解析,可以修改/etc/hosts文件,如果该台机器作Nameno ...
这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和
阿奇诺向他的好友克莱恩诉苦:
“克莱恩,你不知道,我现在的生活过得有多憋屈!当我的妻子发怒时,她会对着我、我们的孩子甚至对着我们的小狗大喊大叫,而我们谁都不敢吭一声。”
“那么,当你发怒的时候,又会怎样?”克莱恩笑问。
阿奇诺叹了一口气,答道:
“我也会冲着墙壁、窗户还有门大喊,它们谁也不敢吭一声。”
约翰爸爸给他买了一只花猫,他非常喜欢。也常抱着它到教室里,和同学们一起逗玩。 一天,动物课老师问他:“猫走路的时候,为什么不发出声音呢?” 约翰即刻回答:“这不明摆着吗?猫又没有穿木拖鞋。”
老爸为了联系方便学习打字。某天晚上,我爸发来这么一条消息“道勤死了”。 可是我不知道道勤是谁啊,于是回复:“爸别难过了,道勤是谁?” 过了一会,爸爸回复,“到寝室了”。 好吧,爸你差点没吓着我。
一、MapReduce的提出、介绍
MapReduce 是一个编程模型,也是一个处理和生成超大数据集的算法模型的相关实现。用户首先创建一个 Map函数处理一个基于key/value pair 的数据集合,输出中间的基于 key/value pair 的数据集合;然后再创建 ...
“我把我淘宝账号给你吧,看见喜欢的就放进购物车,等你生日的时候,我就像网上说的那些体贴男朋友一样偷偷登录一下。”
“那你得破产。”
“不会,就帮你清空。”
最近在做地名搜索定位的项目,相当于对经过地理编码的数据进行搜索
主要是将数据库中的数据导入到solr中并发布出来,数据量目前是1500万条左右
记录一下大概的工作步骤
1 基本部署目前solr最高版本为4.0由于项目服务器使用JDK1.5, 在本例中使用3.6.1版本, 服务器使用TomCat 及Weblogic下载并解压apache-solr-3.6.1.zip,将文件dist\apache-solr-3.6.1.war改为zip后缀并解压解压出来的文件放到 tomcat\webapps\solr\注意:如果要部署到weblogic中,建议先修改apache-solr-3.6.1.z ...
第1章引言
1.1nutch和 solr
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
Solr 拥有像 web-services API 的独立的企业级搜索服务器。用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果。
1.2研究
1:搜索引擎按原理和工作方式可分为:
A:爬虫式,主要用Socket实现,基于TCP/IP协议
B:目录索引式,以早期的yahoo为代表
C:元搜索引擎,即将多个搜索引擎的结果合并返回
2:按领域范围可分为:
A:通用搜索引擎---针对全互联网全部网站和各种数据信息,信息全,领域广
B:垂直搜索引擎---针对果某一行业,如企业库搜索,供求信息搜索,房产搜索等
3:信息类型分类:
二进制的文档,音频,视频,图片等。其中常见的二进制文档有:TXT,WORD,EXCEL,PPT,PDF,XML,HTML
4:著名的搜索引擎列表
A:Google,出现于1998年10月,由拉里. ...
新搜索架构是基于SolrCloud和indexing建索引框架技术的⼀一个分布式垂直搜索。
主要开源工具:zookeeper、ganglia、tcpcopy、nginx、haproxy、rsync
旧架构弊端
基于用户相似推荐简单设计思路
doc1->user1,user2,user3
doc2->user3
doc3->user2,user3
提交给solr
倒排序索引:
user1->doc1
user2->doc1,doc3
user3->doc1,doc2,doc3
推荐给某用户:user2
先搜索 user2对应的docs
doc1,doc3
查