//根据标题获得百度热门相关关键字,返回字符串
function baiduKeyword($title,$num=5,$charset="UTF-8"){
$title=iconv($charset, "GB2312", $title);
$w=file_get_contents('http://d.baidu.com/rs.php?q='.urlencode($title).'&tn=baidu');
//die($w);
//获得列表部分
preg_match_all("|<div id=con>(.*)</div>|isU",$w,$con);
$list=$con[1][0];
//获得具体内容
preg_match_all("|<ul><li class=ls>(.*)</li><li class=kwc><a target=_blank href=(.*)>(.*)</a></li><li class=bar><img src=http://img.baidu.com/img/bar_1.gif height=6 width=(\d*) align=absmiddle vspace=5></li></ul>|isU",$list,$content);
//合并成数组,被搜索次数做为键值
$c=array_combine($content[4],$content[3]);
//排序
krsort($c);
//取前N条
$r=array_slice($c, 0, $num);
//转换成字符串
$result=implode(",", $r);
$result=iconv("GB2312", $charset,$result);
return $result;
}
//通过DZ获取文章关键字,输入标题和内容 即可返回5个关键字数组
function getTags($title,$content){
$subjectenc = rawurlencode(strip_tags($title));
$messageenc = rawurlencode(strip_tags(preg_replace("/\[.+?\]/U", '',$content)));
$subjectenc =substr($subjectenc,0,60);
$messageenc=substr($messageenc,0,1200);
$data = @implode('', file("http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=utf-8&ocs=utf-8"));
$kws = array();
if($data) {
$parser = xml_parser_create();
xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);
xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1);
xml_parse_into_struct($parser, $data, $values, $index);
xml_parser_free($parser);
foreach($values as $valuearray) {
if($valuearray['tag'] == 'kw' || $valuearray['tag'] == 'ekw') {
$kw =trim($valuearray['value']);
$kws[] =$kw ;
}
}
}
return $kws;
}
- 浏览: 33114 次
相关推荐
这个"基于PHP的analysis无组件中文分词类.zip"压缩包文件,显然包含了一个用于处理中文文本的分词工具,这在处理大量中文数据、进行搜索引擎优化(SEO)、自然语言处理(NLP)或者文本分析时非常有用。 分词是中文...
在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,尤其在文本分析、搜索引擎优化(SEO)和信息检索中起着至关重要的作用。Discuz! 提供了一个在线中文分词服务,它允许开发者通过API接口来对中文文本进行分词...
这个`CC2PY`函数的工作原理可能包括以下几个步骤: 1. **数据准备**:函数内部通常会有一个预先处理好的汉字到拼音的映射表,用于快速查找每个汉字对应的拼音。这种映射表可能是以对象形式存储,键为汉字,值为对应...
在实际应用中,处理停用词的步骤通常包括以下几个环节: 1. **读取停用词表**:首先,我们需要将"hit_stopwords.txt"文件读入程序,通常使用编程语言如Python的`open()`函数,并以读取模式加载文本。 2. **停用词...
在“hztopy.php”中,可能会有以下几个关键部分: 1. **拼音数据库**:可能包含了一个哈希表或者数组,存储了每个汉字对应的拼音。这是实现转换的基础。 2. **分词与处理**:PHP代码可能包含了分词算法,将输入的...
下面我们将深入探讨该版本的几个关键知识点。 首先,从提供的文件名称列表来看,我们可以推断出该压缩包的内容结构。`404.html`通常是一个自定义的错误页面,当用户尝试访问不存在的网页时会显示。这表明开发者已经...
我们将深入探讨以下几个核心知识点: 1. Django框架基础: Django是一个高级的Python Web框架,它鼓励快速开发和实用主义设计。它提供了模型-视图-控制器(MVC)架构,用于处理数据库交互、URL路由、HTML模板等。...
在JavaScript(JS)中,将汉字转换为拼音是一项常见的需求,尤其在中文输入法、搜索引擎优化(SEO)或者处理中文数据时。这个话题涉及到的主要知识点包括JavaScript基础、字符串操作、对象映射以及可能的第三方库。 ...
这个压缩包"PHP实例开发源码-在线伪原创程序php版.zip"包含了一个基于PHP的在线伪原创程序的源代码,它可以帮助用户自动生成内容的变体,以达到SEO优化或者内容多样化的目的。 首先,我们要理解什么是伪原创。伪...
这个过程通常涉及到以下几个技术点: 1. **汉字-拼音映射**:建立一个完整的汉字到拼音的映射表,这是最基础的部分。这可以通过预处理大量汉字与拼音的对应关系来完成,例如GB2312或GBK编码中的汉字与拼音对照。 2...
在构建一个PHP搜索引擎时,你需要理解以下几个核心知识点: 1. **PHP基础**:PHP是一种服务器端脚本语言,用于创建动态网页。了解PHP语法、变量、控制结构、函数等基础知识是必不可少的。 2. **数据库交互**:搜索...
基本步骤可能包括以下几个方面: 1. **数据预处理**:这是任何文本分析的第一步,通常涉及去除标点符号、停用词(如“的”、“是”、“在”等常见但不携带太多信息的词)以及转换所有文本为小写,以便统一比较。 2...
HTML解析器的工作原理通常分为几个关键步骤: 1. **词法分析**:解析器首先读取HTML文档,将字符流转化为一系列的标记(tokens),如开始标签、结束标签、文本节点等。这个过程也称为分词。 2. **解析树构建**:...
6. **API接口**:为了方便集成到其他应用中,这个库可能提供了简单的API接口,开发者可以通过调用几个函数就能实现地址的验证和格式化。 7. **文档与示例**:开源项目通常会提供详尽的文档,介绍如何安装、配置和...
在阅读给定文件内容之后,我们可以提炼出以下几个知识点: 1. PHPANALYSIS关键字提取的基本概念: PHPANALYSIS是PHP中一个用于中文分词处理和关键字提取的工具,它通过内置的词库对中文文本进行分词,并提取文章中...
网页分析工具的核心功能通常包括以下几个方面: 1. **网页抓取**:使用VB的HTTP请求库,如Winsock控件或Microsoft.XMLDOM对象,可以发送HTTP请求到指定URL获取网页内容。HTTP请求包括GET和POST方法,根据需求选择...
这个过程通常包括以下几个步骤: 1. **URL列表读取**:Crow 首先读取 "urls.list" 文件,这是一个包含多个网址的文本文件,每个网址占一行。 2. **网页抓取**:对于文件中的每一个网址,Crow 使用HTTP请求获取网页...