JNI

博客分类：

java

JNI

http://www.iteye.com/topic/304594

2008-12-30 12:26
浏览 854
评论(0)

Java制作自动访问网站机器人！

博客分类：

java

Java 浏览器 JavaScript 招聘 Mobile

真的很久很久没有写过文章了，唉，惭愧啊！寒暄的说话就不多说了，直入主题。有人问过我，如何制作一些论坛的自动发言机器人？我说，这很简单啊，（如果没有图片验证码的话！）在Java里，有些URL，URLConnection的类啊，这些类可以访问一个URL获取数据，可以发送Request，你就可以结合一些类做一个自动发言的了，但用Post发送表单的话，就没有直接的，比较麻烦，如果还要处理Cookie的话，之后我想了想，想到了可以用 Jakarta Commons 下面的开源项目啊，有一个项目名叫“HttpClient”的，这个就是用Java写的Http客户端，可以说是一个简单功能的浏览器吧，只是不能 ...

2008-12-29 16:44
浏览 3765
评论(0)

抓取数据设置cookie

博客分类：

java

ASP Apache Windows Firefox XML

今天，遇到一个问题，顺便把它写下来。今天在抓取一个网站的时候，看起来像一个简单的页面，人工浏览的话，是完全没问题，一旦有程序开始抓取，问题就来了。老提示我链接错误。一开始，一头冒烟，为啥呢？细心想了一下，难道是cookie做怪，好，那就找一下我以前用cookie提交访问页面的程序，结果不知道放到哪里去了。花了差不多两个小时，找到了一份源代码。下面是我修改过的程序 package org.qichao.mode; import java.io.*; import org.apache.commons.httpclient.*; import org.apache.commons.httpc ...

2008-12-29 15:52
浏览 3075
评论(0)

Lucene源代码之构造自己的分词器

博客分类：

java

lucene Java Apache Eclipse .net

package org.apache.lucene.analysis.tjuchinese; import java.io.IOException; import java.io.Reader; import java.io.StringReader; import java.util.Set; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.StopFilter; import org.apache.lucene.analysis.TokenStre ...

2008-12-29 13:43
浏览 2026
评论(0)

关键词权重的量化方法TF/IDF

博客分类：

数据挖掘

搜索引擎算法工作

写这篇文章前，一定要说明一点，我对算法也是刚刚开始研究，一定会有不少地方会有差错，也请高手指正，上次计算相关度的方式发布后，就得到了高人的点化，在此谢谢这位高手，也谢谢大家对我的关注。下面进入主题：今天我想说的是关键词权重的量化方法TF/IDF，为什么说这个呢？因为我们知道，在数量庞大的搜索引擎库里，拥有无数个形容同一事物的词汇，就好像我上次说的手机和彩铃，他们分明是形容同一个类别：移动通讯相关的东西，但是谁的权重更高呢？这就看这个关键词所表达的意思和在具体文章中的意义来判断了。在搜索引擎中，一个词能够概括这篇文章意思的能力越高，权重就越高，反之则降低，举个例子吧，类似于这样的一个词：“吸 ...

2008-12-28 22:14
浏览 8007
评论(2)

tf-idf

博客分类：

数据挖掘

资讯

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。　　TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高， ...

2008-12-28 22:12
浏览 2504
评论(0)

课题背景概述

博客分类：

数据挖掘

数据挖掘算法数据结构网络应用领域模型

文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。在浩如烟海的网络信息中,80%

2008-12-28 02:58
浏览 1851
评论(0)

KNN算法基本思想

博客分类：

数据挖掘

算法网络应用

KNN（K 最近邻居）算法该算法的基本思路是：在给定新文本后，考虑在训练文本集中与该新文本距离最近（最相似）的 K 篇文本，根据这 K 篇文本所属的类别判定新文本所属的类别，具体的算法步骤如下： STEP ONE:根据特征项集合重新描述训练文本向量 STEP TWO:在新文本到达后，根据特征词分词新文本，确定新文本的向量表示 STEP THREE:在训练文本集中选出与新文本最相似的 K 个文本，计算公式为：其中，K 值的确定目前没有很好的方法，一般采用先定一个初始值，然后根据实验测试的结果调整 K 值，一般初始值定为几百到几千之间。 STEP FOUR:在新文本的 ...

2008-12-27 10:08
浏览 5320
评论(0)

基于词性的特征提取方法

博客分类：

数据挖掘

正则表达式算法数据结构 D语言

上一节所介绍的这些方法 ,在英文特征提取方面都有各自的优势 ,但用于中文文本 ,并没有很高的效率。主要有 2 个方面的原因 :1) 特征提取的计算量太大 ,特征提取效率太低 ,而特征提取的效率直接影响到整个文本分类系统的效� ...

2008-12-27 09:58
浏览 5293
评论(1)

谈 Page Rank – Google 的民主表决式网页排名技术

博客分类：

数据挖掘

Google 互联网算法搜索引擎 Yahoo

谈 Page Rank – Google 的民主表决式网页排名技术 2006年2月27日上午 08:38:00 <script></script> 发表者: 吴军， Google 工程师大家可能听说过，Google 革命性的发明是它名为 “Page Rank” 的网页排名算法，这项技术彻底解决了搜索� ...

2008-12-25 07:44
浏览 945
评论(0)

一个网页和某个查询的相关性

博客分类：

数据挖掘

搜索引擎编程

[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以写一个简单的搜索引擎了，比如� ...

2008-12-25 07:32
浏览 918
评论(0)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

博客分类：

数据挖掘

Web 互联网算法搜索引擎 Google

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers) 2006年5月15日上午 07:15:00 <script></script> 发表者: 吴军，Google 研究员 [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和� ...

2008-12-25 06:29
浏览 1001
评论(0)

数学之美系列一：图论和网络爬虫 (Web Crawlers)

博客分类：

数据挖掘

Web 互联网算法搜索引擎浏览器

数学之美系列一：图论和网络爬虫 (Web Crawlers) 建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。数学之美系列一：图论和网络爬虫 (Web ...

2008-12-25 06:16
浏览 1482
评论(0)

数学之美系列 12 - 余弦定理和新闻的分类

博客分类：

数据挖掘

Google C C++C#算法

转贴来源:http://www.googlechinablog.com/2006/07/12.html 数学之美系列 12 - 余弦定理和新闻的分类 2006年7月20日上午 10:12:00 <script></script> 发表者：吴军，Google 研究员余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻，它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点 ...

2008-12-25 05:34
浏览 1361
评论(0)

java url 读取JS文件中文乱码

博客分类：

java

Java Apache .net

package mode; import java.io.*; import java.net.*; import java.util.zip.GZIPInputStream; import java.util.zip.InflaterInputStream; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; ...

2008-12-23 22:36
浏览 5537
评论(2)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

JNI

Java制作自动访问网站机器人！

抓取数据设置cookie

Lucene源代码之构造自己的分词器

关键词权重的量化方法TF/IDF

tf-idf

课题背景概述

KNN算法基本思想

基于词性的特征提取方法

谈 Page Rank – Google 的民主表决式网页排名技术

一个网页和某个查询的相关性

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)

数学之美系列一：图论和网络爬虫 (Web Crawlers)

数学之美系列 12 - 余弦定理和新闻的分类

java url 读取JS文件中文乱码

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>