`
lzj0470
  • 浏览: 1272662 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论
文章列表

JNI

    博客分类:
  • java
http://www.iteye.com/topic/304594
真的很久很久没有写过文章了,唉,惭愧啊!寒暄的说话就不多说了,直入主题。有人问过我,如何制作一些论坛的自动发言机器人?我说,这很简单啊,(如果没 有图片验证码的话!)在Java里,有些URL,URLConnection的类啊,这些类可以访问一个URL获取数据,可以发送Request,你就可 以结合一些类做一个自动发言的了,但用Post发送表单的话,就没有直接的,比较麻烦,如果还要处理Cookie的话,之后我想了想,想到了可以用 Jakarta Commons 下面的开源项目啊,有一个项目名叫“HttpClient”的,这个就是用Java写的Http客户端,可以说是一个简单功能的浏览器吧,只是不能 ...
今天,遇到一个问题,顺便把它写下来。今天在抓取一个网站的时候,看起来像一个简单的页面,人工 浏览的话,是完全没问题,一旦有程序开始抓取,问题就来了。老提示我链接错误。一开始,一头冒烟,为啥呢? 细心想了一下,难道是cookie做怪,好,那就找一下我以前用cookie提交访问页面的程序,结果不知道放到哪里去了。 花了差不多两个小时,找到了一份源代码。下面是我修改过的程序 package org.qichao.mode; import java.io.*; import org.apache.commons.httpclient.*; import org.apache.commons.httpc ...
package  org.apache.lucene.analysis.tjuchinese; import  java.io.IOException; import  java.io.Reader; import  java.io.StringReader; import  java.util.Set; import  org.apache.lucene.analysis.Analyzer; import  org.apache.lucene.analysis.StopFilter; import  org.apache.lucene.analysis.TokenStre ...
写这篇文章前,一定要说明一点,我对算法也是刚刚开始研究,一定会有不少地方会有差错,也请高手指正,上次计算相关度的方式发布后,就得到了高人的点化,在此谢谢这位高手,也谢谢大家对我的关注。 下面进入主题: 今天我想说的是关键词权重的量化方法TF/IDF,为什么说这个呢?因为我们知道,在数量庞大的搜索引擎库里,拥有无数个形容同一事物的词汇,就好像我上次说的手机和彩铃,他们分明是形容同一个类别:移动通讯相关的东西,但是谁的权重更高呢?这就看这个关键词所表达的意思和在具体文章中的意义来判断了。 在搜索引擎中,一个词能够概括这篇文章意思的能力越高,权重就越高,反之则降低,举个例子吧,类似于这样的一个词:“吸 ...

tf-idf

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。   TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高, ...
文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%
KNN(K 最近邻居)算法 该算法的基本思路是:在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的 K 篇文本,根据这 K 篇文本所属的类别判定新文本所属的类别,具体的算法步骤如下: STEP ONE:根据特征项集合重新描述训练文本向量 STEP TWO:在新文本到达后,根据特征词分词新文本,确定新文本的向量表示 STEP THREE:在训练文本集中选出与新文本最相似的 K 个文本,计算公式为: 其中,K 值的确定目前没有很好的方法,一般采用先定一个初始值,然后根据实验测试的结果调整 K 值,一般初始值定为几百到几千之间。 STEP FOUR:在新文本的 ...
上一节所介绍的这些方法 ,在英文特征提取方面都有各自的优势 ,但用于中文文本 ,并没有很高的效率。 主要有 2 个方面的原因 :1) 特征提取的计算量太大 ,特征提取效率太低 ,而特征提取的效率直接影响到整个 文本分类系统的效 ...
谈 Page Rank – Google 的民主表决式网页排名技术 2006年2月27日 上午 08:38:00 <script></script> 发表者: 吴军, Google 工程师 大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索 ...
[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如 ...
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) 2006年5月15日 上午 07:15:00 <script></script> 发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和 ...
数学之美系列一:图论和网络爬虫 (Web Crawlers)       建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。 数学之美系列一:图论和网络爬虫 (Web ...
转贴来源:http://www.googlechinablog.com/2006/07/12.html 数学之美 系列 12 - 余弦定理和新闻的分类 2006年7月20日 上午 10:12:00 <script></script> 发表者:吴军,Google 研究员 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点 ...
package mode; import java.io.*; import java.net.*; import java.util.zip.GZIPInputStream; import java.util.zip.InflaterInputStream; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; ...
Global site tag (gtag.js) - Google Analytics