- 浏览: 423215 次
- 性别:
- 来自: 杭州
最新评论
-
Iuranus:
“查询文本的64位simhash code的所有3位以内变化的 ...
我的数学之美系列二 —— simhash与重复信息识别 -
夜的那种黑丶:
博主,请教一个问题,我利用OpenCV3提取得到SIFT特征, ...
JAVA实现的Locality Sensitive Hash -
夜的那种黑丶:
最近要用到这方面的内容,楼主贴出的代码少了一些工具类吧,求一份 ...
JAVA实现的Locality Sensitive Hash -
wang_zhao:
博主您好 ,能否求一份该博文对应源码,在下学生狗一枚,非常感谢 ...
JAVA实现的Locality Sensitive Hash -
qwertykln:
博主,能不能发一份完整代码给我啊,我现在正在学习这个,邮箱:3 ...
JAVA实现的Locality Sensitive Hash
文章列表
“分秒必争,利用好时间,就没什么问题。”这是“八十天环游地球”一书主人公福格先生一句自信的话。八十天环游地球,在没有飞机的情况下,你一定认为这很荒谬,但是福格先生做到了。
先介绍一下起点与终点。我所居住的地方在余杭区临平东海水景城,工作的地方在滨兴路长河路口,不走高速的话,两者的路程大约是40公里。如果开车的话,正常情况下大约也需要一个小时,如果遇到事故堵车的话,时间会更长。
我每天的行程是:
7:00:起床
7:30:小区门口打出租车到高铁站(如果没有出租车的话,就骑对面水景公园的公交自行车)
8:00:余杭高铁站买D5651动车车票
8:21:D5651余杭站发车
8:37:D5651 ...
方向梯度直方图(Histograms of Oriented Gradients,简称HOG特征)结合支持向量机( support vector machine, 简称SVM),被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。
积分直方图可以用于快速计算原始图像矩形区域内的HOG特征。积分直方图的概念类似与viola和jones在脸部识别中所用的积分图像。
下面的代码给出了,对于一幅给定的图像,如何快速计算积分直方图,以及如何使用其进行HOG特征的演算(关键处以给出注释):
/*Function to calculate the integral histogram*/
I ...
目前公司的打算是组建在原本的中文算法、英文算法的基础上,增建一个基础算法组,主要处理语言无关的算法设计,就目前来看,即图形识别技术在互联网上的应用,目前正式的人员是三个研发工程师,另外还有两个实习生。
2011年的主要工作包括:
商标识别技术以及侵权商品识别
反黄图片引擎
图片自动分类
手机拍照搜索
关于这方面的商业需求,深挖的话有很多,现在PD也提了很多,领导层面也渐渐认识到,愿意投入资源,目前的情况,比起2010年孤军奋战要好得多了。
我们的计划是,以半年为一个周期,包括三个月算法调研,两个月项目开发,一个月项目总结以及专利产出。项目贵精不贵多,争取做到极致。
本文翻译自Robin Hewitt的《Seeing With OpenCV - A Five-Part Series》。
正如标题所表达的那样,通过连载的五篇文章,我们将通过step by step的方式,实现一个人脸识别的程序,即从原始图片中检测脸部,并通过某种算法从样本库中筛选近 ...
现实生活中充满着预测问题,即对未知世界的大胆猜测。我们基于什么根据来推测呢?最多的当然是已有的经验,即之前所做的一些已知结果的推测,这就是所谓的“有监督的学习”。
这里,我举一个最简单的例子,就是公务员考试中那种最常见的数字推理题:1,4,9,16,?
当然,你一眼就看出了这是一个平方序列,下一个数字一定是25,但是,这是唯一的答案吗?
应该说,平方序列只是一个模型,比方说,我们可以假定这样一个多项式模型,
引用a * x * x * x + b * x * x + c * x + d
其中a、b、c、d为未知数,而x分别为1、2、3、4,采用初中数学所学的待定系数法,就可以算得abcd的 ...
《射雕英雄传》教会了我一句话:“侠之大者,为国为民”,但如果反过来呢?
刁蛮小民耍尽手段骗得的不过是区区钱财,而倘若一个社会连政府都整日想方设法利用政策剥夺老百姓的养老钱、医疗费、学费,甚至于你几乎被那种种条款搞得云里雾里不知东西,乖乖掏钱还一副感恩戴德的心情,用“圈套”这个词真是非常恰如其分,譬如我每月的所得税,究竟是用去支援四川灾区了呢,还是成为酒桌上的半瓶茅台呢?一个国家的良心已经坏掉了,和耍trick的骗子就没有什么区别了。
不过,这个并不是今天讨论的重点,今天所推荐的是一部日剧《圈套》。
本剧以一位已故伟大魔术师的女儿及物理学家为主轴。描写他们如何揭穿可疑宗教教主以“超能力”及 ...
黄色-图片自动识别是一个涉及到图像处理、模式识别、机器学习、统计概率的综合领域,其关键技术包括:皮肤检测、人脸检测、连通区域分析、贝叶斯分类、支持向量机等等
第一步是皮肤检测。
肤色检测并不像我们想象那样简单,要做到不同光照下的肤色识别,并不是只要指定一个所谓的“肉色”的RGB区域那么容易。一般采用转换到HSV色彩空间+变换的方式获得概率模型。
我在获得概率模型之后,用一个二值的Mask去与原图像做&操作,得到如下的结果:
很直观的一点是,非零区域所占面积大的图片很可能是黄色-图片,反之则是正常图片
第二步是连通区域分析。
大块的部分更有可能是手臂、躯干,而孤立地小块很可能是噪声
...
Analyzer,或者说文本分析的过程,实质上是将输入文本转化为文本特征向量的过程。这里所说的文本特征,可以是词或者是短语。它主要包括以下四个步骤:
分词,将文本解析为单词或短语
归一化,将文本转化为小写
停用词处 ...
在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地 ...
当程序与数学结合时,才是最美的,记得当初看到Google黑板报《数学之美》时,就有这种感觉。我的技术、文笔或许不如他们,但我只想展现我自己的数学之美
给定两个点p1与p2的坐标,确定这两点所构成的直线,要求对于输入 ...
记得在刚找工作时,隔壁的一位同学在面试时豪言壮语曾实现过网络爬虫,当时的景仰之情犹如滔滔江水连绵不绝。后来,在做图片搜索时,需要大量的测试图片,因此萌生了从Amazon中爬取图书封面图片的想法,从网上也吸取了一些前人的经验,实现了一个简单但足够用的爬虫系统。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,其基本架构如下图所示:
传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。对于垂直搜索来说,聚焦爬虫,即有针对性地爬取特定主题网页的爬虫,更为 ...
我在之前的博客已大致介绍了LSH的原理及其的适用场景,有兴趣的朋友可以移步至
http://grunt1223.iteye.com/blog/937600
这里我给出它的具体实现及实验效果:
private int dimention; //维度大小,例如对于sift特征来说就是128
private int max; //所需向量中元素可能的上限,譬如对于RGB来说,就是255
private int hashCount; //哈希表的数量,用于更大程度地削减false positive
//LSH随机选取的采样位数,该值越小,则近似查找能力越大,但相应的false positi ...
前几天看到一篇文章,里面特意提到了,读取频繁使用ArrayList,增删频繁使用Linkedlist;并且在一个范例中,特意将ArrayList转化为LinkedList以提高末尾插入的效率。而事实上,问题并非如此简单。
ArrayList与LinkedList的异同是我面试较常问的问题。大部分人可能都知道前者基于数组而后者基于链表(能答出双向链表自然更好),并且前者适合读取、后者适合插入删除;偶有候选人能曰“It depends”并给出具体情况之分析时,往往能获得不错的第一印象。
抛开具体语言的实现不说,先从数据结构上看一下,两者时间、空间负责度上的区别:
查找自不必说,插入删除与具 ...
#include "cv.h"
#include "highgui.h"
#include "ml.h"
#include <cmath>
#include <iostream>
#include <iomanip>
using namespace std;
//以下例子用来拟合正弦曲线
int main(int argc, char **argv)
{
int num_train = 100;
int num_test = 100;
CvMat ...
黄色-图片自动识别是一个涉及到图像处理、模式识别、机器学习、统计概率的综合领域,其关键技术包括:皮肤检测、人脸检测、连通区域分析、贝叶斯分类、支持向量机等等
关于绿-坝是如何实现的,我一直很感兴趣。我这边 ...