- 浏览: 53236 次
- 性别:
- 来自: 上海
最新评论
文章列表
最近一段时间,公司要写一个爬虫项目,遇到一些js或者ajax动态生成的网页,在网上找了一下,发现webdriver比较靠谱,至于htmlunit测试了一些网站直接抛异常,可能对于js支持的不是特别好。
WebDriver一般来说有两方式:本地diver和远程diver。由于爬虫最终会部署到linux服务器,只能在命令行运行,好像是装不了浏览器,所以本地driver的流程走不通,只能尝试远程driver。还好,发现一个phantomjs的webdriver,可以在linux无界面下运行,于是选择它作为处理js动态生成网页的解决手段。
下载去官网:http://pha ...
最近折腾了一下最新版mongodb集群安装配置,目前测试可以运行,可能还有一些问题,需要慢慢去发现。
对于3.2之前的版本部署不了解,网上也有好多。总的来说,有以下几种部署方式:
1.单机部署
2.副本集部署
3.分片部署
4.分片副本集部署
前面几种部署都相对简单,这里不做说明。下面主要记录一下第4种方式部署,也是生产环境的建议部署方式,可以满足集群的高可用和高吞吐量。
有几个概念需要先说明一下:
configsvr:分片部署的配置节点,不存储具体数据,只存储分片的信息
shardcvr ...
最近由于业务需求,需要给es动态添加新词。
要求:用户随便输入一个关键词,要能够搜索完全匹配的相关内容。
这样就要面对两种情况,第一种情况如果这关键词已经存在es中ik分词器的词典中,那么就不会有问题,用户可以搜索出自己想要的结果;第二种情况,就是这个关键词不在ik中,那么用户就搜索不到匹配的内容。
解决思路:
1.首先用ik对这个关键词进行分词
2.把这个关键词加入到ik的词典(通过配置ik的远程词典,不需要重启es)
3.用分词的结果去es中搜索
4.更新满足条件的文档