资讯月刊下载
[开源软件] 高性能Elasticsearch ORM开发库bboss es 5.0.3.8发布
bboss es v5.0.3.8发布。bboss elasticsearch是一套基于query dsl语法操作访问分布式搜索引擎elasticsearch的o/r mapping开发库,底层基于es restful api。使用bboss es,可以快速编写出访问和操作elasticsearch的程序代码,简单、高效、可靠、安全。bboss es对原生restful api、java orm ...
[互联网] 配置高性能 ElasticSearch 搜索引擎集群的9个小贴士
Loggly服务底层的很多核心功能都使用了ElasticSearch作为搜索引擎。就像Jon Gifford(译者注:Loggly博客作者之一)在他近期关于“ElasticSearch vs Solr”的文章中所述,日志管理在搜索技术方面产生一些粗暴的需求,坚持下来以后,它必须能够: 引用在超大规模数据集上可靠地进行准实时索引 – 在我们的案例中,每秒有超过100,000个日志事件与此同时,在该索引 ...
[互联网] 知识图谱如何让智能金融“变魔术”
引用 作者简介: 鲍捷,文因互联CEO。Iowa State University博士,研究领域包括神经网络、信息论、机器学习、逻辑与推理、语义网、自然语言处理等。三星S-Voice个人助手个核心设计者、语义网基础国际标准OWL2作者之一。 王丛,文因互联CKO。美国Wright State University辍学博士生,专长知识提取、本体建模、语义推理。曾参与欧盟的大规模知识加速器项目、爱尔兰D ...
[开源软件] jsearch v1.0 发布,基于java8的高性能全文检索工具 ...
jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。 jsearch起源于superword项目。在superword项目的辅助阅读模块中,需要对大量的PDF电子文本进行高效灵活地索引和搜索,当时基于简洁高效灵活的考虑,使用Java8自己实现基于倒排的索引和搜索功能,后来考虑到基于Java8实现一个高性能的全文检索工具包是一个不错的主意,于是将 ...
[互联网] 五大可识别图片的人工智能技术
很长一段时间以来,人工智能的研究都停留在文字层面,比如著名的图灵测试(Turning Test),证明了机器能够像人类一样智能地回答书面问题。 而如果让机器变得更聪明,仅仅处理文字显然是不够的。事实上,人类心智非常善于视觉处理。从所见当中识别图案、物体以及文本情景的能力让我们很智能,这种能力也是人的本质特征。 不过直到最近,计算机都对图片束手无策。比如,除非人为添加一些标签和注释,否则机器就无法 ...
[互联网] Google的算法出过哪些囧事?
我们觉得这里头有些玩笑是Google故意做的。 众所周知,Google的支柱业务———在线广告一直有通过算法,把用户进行区分对待,让不同的人看到不同类型的广告。 为了解不同的人所能看到的Google广告有什么区别,卡耐基梅隆大学和国际计算机科学协会(ICSI)展开了一项研究。通过他们开发的名为Adfisher的程序,系统模拟出了大量虚拟的男性和女性身份,并让他们访问一些招聘网站。结果发现在之后 ...
[开源软件] 开源力量公开课-基于solr实现suggest自动提示
开源力量公开课-基于solr实现suggest自动提示 时间: 2015-06-09 20:00 2小时,在线免费直播 形式: 线上公开课 报名: http://www.osforce.cn/openclass/170/show 课程背景 suggest自动提示功能能很好的增加用户的体验,并能指引用户在海量的信息当中获取有效的资源。 课程目标 让学员能够根据个性化需求完成搜索自动提示功能。 课程大 ...
[互联网] Apache Nutch v2.3发布,Java实现的网络爬虫
Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为: Apache Hadoop 1.0.1 & 2.4.0 Apache Cassandra 2.0.2 Apache HBase 0.94 ...
[Web前端] Google 在美搜索份额下跌至 08 年以来最低点
去年 11 月,雅虎正式成为火狐浏览器在美国的默认搜索引擎,后者拥有超过 12% 的美国互联网流量。 据研究机构 StatCounter 调查,受雅虎搜索引擎和火狐浏览器联姻的影响,Google 上一年 12 月份的美国互联网搜索份额降到了 2008 年以来的最低点 75.2%,而雅虎的则上升至 2009 年以来的最高点 10.4%。 Marketing Land & Sear ...
[Web前端] HTML5移动应用开发的12大特性
1.离线缓存为HTML5开发移动应用提供了基础 HTML5 Web Storage API可以看做是加强版的cookie,不受数据大小限制,有更好的弹性以及架构,可以将数据写入到本机的ROM中,还可以在关闭浏览器后再次打开时恢复数据,以减少网络流量。 同时,这个功能算得上是另一个方向的后台“操作记录”,而不占用任何后台资源,减轻设备硬件压力,增加运行流畅性。 在线app支持边使用边下载离线 ...
[编程语言] 50行Python代码写一个语言检测器
你有没有曾经好奇过Chrome浏览器是如何知道一个网页的语言,并对外国文字的网页提供翻译服务的?或者,Facebook是如何翻译你朋友用写在你主页上的外国文字?检测一种语言实际上非常简单,改进了用户体验,而且不需要用户做任何的事情。 我无意中发现的 ActiveState recipe for a language detector in Python这是非常不错的一段程序,但是我决定做点小小的改 ...
[互联网] 谷歌优化搜索算法 进一步打击盗版网站排名
网易科技讯 10月22日消息,据国外媒体报道,谷歌周二通过博客表示,公司再次对旗下搜索算法进行优化,以更好地打击部分存在故意侵犯版权内容的网站。谷歌表示新算法将在本周内实施,用户也将从视觉上明显察觉到不同。 一直以来,谷歌都被版权所有者视为网络盗版的帮凶。尽管该公司也一直试图通过优化搜索排名算法,来惩戒和打击“非法”网站,但效果却并不明显。 也正因此,代表唱片公司版权所有人的组织Recordin ...
[开源软件] Apache Nutch v1.8发布,Java实现的网络爬虫
Apache Nutch v1.8已经发布了,建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本,Apache Tika也升级到了1.4版本,同时还修复了35个BUG,提供了18项改进。详细内容请看更新日志,下载地址,Nutch官网。 Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro ...
[互联网] “不作恶”的搜索引擎DuckDuckGo 2013实现10亿搜索量
DuckDuckGo是一个互联网搜索引擎,成立于2008年,它强调在传统搜索引擎的基础上引入Web 2.0站点内容,主张维护使用者的隐私权,并承诺不监控、不记录使用者的搜索内容。 DuckDuckGo近日在其官方博客发布消息称,2013年DuckDuckGo搜索量达到了10亿。如果包括DuckDuckGo API和网络机器人使用量,2013年的整个搜索量超过了70亿大关。 Duc ...
[开源软件] Genius:基于条件随机场算法的python分词组件
Genius Genius是一个开源的python中文分词组件,采用 CRF(Conditional Random Field)条件随机场算法。 Feature 支持python2.x、python3.x以及pypy2.x。 支持简单的pinyin分词 支持用户自定义break 支持用户自定义合并词典 支持词性标注 Source Install 安装git: 1) ubuntu or d ...
[开源软件] Nutch:从搜索引擎到网络爬虫——开源力量公开课第31 ...
开源力量公开课第31期课程题目——Nutch:从搜索引擎到网络爬虫 开课时间:2013年9月17日 19:00 - 21:30 现场或线上参课: 现场参加(免费):北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面) (上海的同学注意了!:本期公开课在北京举行,不在上海,上海的同学需要通过线上参与) 线上直播(免费):邮件报名后将即时提供线上参课网址 现场或线上参课:htt ...
[开源软件] 开发者必备的 6 款源码搜索引擎
在推动技术变革上,开源运动发挥了非常显著的作用。而Linux成功地将开源转换成商务模式,给广大开源工作者带来了更大的信心和勇气。目前,开源已成为主流,在未来的几年内,它的足迹将会遍布前沿教育、航空航天(如无人驾驶飞机)等许多领域。 借鉴现有的开源项目或开源代码,对于初级开发者来说,不失为一种很好的编程手段,但千万不要单纯地“用”,更多地是理解与提升,这样才会进步。 下面为大家介绍6款源码搜索引擎, ...