`

SEO的几个函数,分词,优化(转载)

    博客分类:
  • SEO
SEO 
阅读更多

//根据标题获得百度热门相关关键字,返回字符串 
function baiduKeyword($title,$num=5,$charset="UTF-8"){ 
        
        $title=iconv($charset, "GB2312", $title); 
        $w=file_get_contents('http://d.baidu.com/rs.php?q='.urlencode($title).'&tn=baidu'); 
        //die($w); 
        //获得列表部分 
        preg_match_all("|<div id=con>(.*)</div>|isU",$w,$con); 
        $list=$con[1][0]; 
        //获得具体内容 
        preg_match_all("|<ul><li class=ls>(.*)</li><li class=kwc><a target=_blank href=(.*)>(.*)</a></li><li class=bar><img src=http://img.baidu.com/img/bar_1.gif height=6 width=(\d*) align=absmiddle vspace=5></li></ul>|isU",$list,$content); 
        //合并成数组,被搜索次数做为键值 
        $c=array_combine($content[4],$content[3]); 
        //排序 
        krsort($c); 
        //取前N条 
        $r=array_slice($c, 0, $num);   
        //转换成字符串 
        $result=implode(",", $r); 
        $result=iconv("GB2312", $charset,$result); 
        return $result; 
} 


//通过DZ获取文章关键字,输入标题和内容 即可返回5个关键字数组 
function getTags($title,$content){ 

        $subjectenc = rawurlencode(strip_tags($title)); 
        $messageenc = rawurlencode(strip_tags(preg_replace("/\[.+?\]/U", '',$content))); 
        $subjectenc =substr($subjectenc,0,60); 
        $messageenc=substr($messageenc,0,1200); 
        $data = @implode('', file("http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=utf-8&ocs=utf-8")); 
        
        $kws = array(); 
        if($data) { 
                $parser = xml_parser_create(); 
                xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0); 
                xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1); 
                xml_parse_into_struct($parser, $data, $values, $index); 
                xml_parser_free($parser); 
                foreach($values as $valuearray) { 
                        if($valuearray['tag'] == 'kw' || $valuearray['tag'] == 'ekw') { 
                                $kw =trim($valuearray['value']);        
                                $kws[] =$kw ; 

                        } 
                } 
        } 
        return $kws; 
}

分享到:
评论

相关推荐

    基于PHP的analysis 无组件中文分词类.zip

    这个"基于PHP的analysis无组件中文分词类.zip"压缩包文件,显然包含了一个用于处理中文文本的分词工具,这在处理大量中文数据、进行搜索引擎优化(SEO)、自然语言处理(NLP)或者文本分析时非常有用。 分词是中文...

    使用Discuz关键词服务器实现PHP中文分词

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,尤其在文本分析、搜索引擎优化(SEO)和信息检索中起着至关重要的作用。Discuz! 提供了一个在线中文分词服务,它允许开发者通过API接口来对中文文本进行分词...

    中文转拼音纯js文件

    这个`CC2PY`函数的工作原理可能包括以下几个步骤: 1. **数据准备**:函数内部通常会有一个预先处理好的汉字到拼音的映射表,用于快速查找每个汉字对应的拼音。这种映射表可能是以对象形式存储,键为汉字,值为对应...

    hit-stopwords.zip

    在实际应用中,处理停用词的步骤通常包括以下几个环节: 1. **读取停用词表**:首先,我们需要将"hit_stopwords.txt"文件读入程序,通常使用编程语言如Python的`open()`函数,并以读取模式加载文本。 2. **停用词...

    中文转化拼音PHP代码.rar

    在“hztopy.php”中,可能会有以下几个关键部分: 1. **拼音数据库**:可能包含了一个哈希表或者数组,存储了每个汉字对应的拼音。这是实现转换的基础。 2. **分词与处理**:PHP代码可能包含了分词算法,将输入的...

    火端搜索初始版V2.1百度好搜版

    下面我们将深入探讨该版本的几个关键知识点。 首先,从提供的文件名称列表来看,我们可以推断出该压缩包的内容结构。`404.html`通常是一个自定义的错误页面,当用户尝试访问不存在的网页时会显示。这表明开发者已经...

    Python-用pythondjango实现的一个很简单的搜索引擎

    我们将深入探讨以下几个核心知识点: 1. Django框架基础: Django是一个高级的Python Web框架,它鼓励快速开发和实用主义设计。它提供了模型-视图-控制器(MVC)架构,用于处理数据库交互、URL路由、HTML模板等。...

    js在线中汉子转化成拼音代码

    在JavaScript(JS)中,将汉字转换为拼音是一项常见的需求,尤其在中文输入法、搜索引擎优化(SEO)或者处理中文数据时。这个话题涉及到的主要知识点包括JavaScript基础、字符串操作、对象映射以及可能的第三方库。 ...

    PHP实例开发源码-在线伪原创程序php版.zip

    这个压缩包"PHP实例开发源码-在线伪原创程序php版.zip"包含了一个基于PHP的在线伪原创程序的源代码,它可以帮助用户自动生成内容的变体,以达到SEO优化或者内容多样化的目的。 首先,我们要理解什么是伪原创。伪...

    汉字转换拼音、首字母大写

    这个过程通常涉及到以下几个技术点: 1. **汉字-拼音映射**:建立一个完整的汉字到拼音的映射表,这是最基础的部分。这可以通过预处理大量汉字与拼音的对应关系来完成,例如GB2312或GBK编码中的汉字与拼音对照。 2...

    PHP搜索引擎源码页面

    在构建一个PHP搜索引擎时,你需要理解以下几个核心知识点: 1. **PHP基础**:PHP是一种服务器端脚本语言,用于创建动态网页。了解PHP语法、变量、控制结构、函数等基础知识是必不可少的。 2. **数据库交互**:搜索...

    PHP文本分析统计

    基本步骤可能包括以下几个方面: 1. **数据预处理**:这是任何文本分析的第一步,通常涉及去除标点符号、停用词(如“的”、“是”、“在”等常见但不携带太多信息的词)以及转换所有文本为小写,以便统一比较。 2...

    html解析器

    HTML解析器的工作原理通常分为几个关键步骤: 1. **词法分析**:解析器首先读取HTML文档,将字符流转化为一系列的标记(tokens),如开始标签、结束标签、文本节点等。这个过程也称为分词。 2. **解析树构建**:...

    开源项目-Boostport-address.zip

    6. **API接口**:为了方便集成到其他应用中,这个库可能提供了简单的API接口,开发者可以通过调用几个函数就能实现地址的验证和格式化。 7. **文档与示例**:开源项目通常会提供详尽的文档,介绍如何安装、配置和...

    浅谈PHPANALYSIS提取关键字

    在阅读给定文件内容之后,我们可以提炼出以下几个知识点: 1. PHPANALYSIS关键字提取的基本概念: PHPANALYSIS是PHP中一个用于中文分词处理和关键字提取的工具,它通过内置的词库对中文文本进行分词,并提取文章中...

    VB编写网页分析工具源代码

    网页分析工具的核心功能通常包括以下几个方面: 1. **网页抓取**:使用VB的HTTP请求库,如Winsock控件或Microsoft.XMLDOM对象,可以发送HTTP请求到指定URL获取网页内容。HTTP请求包括GET和POST方法,根据需求选择...

    crow:从网址创建唯一的单词列表

    这个过程通常包括以下几个步骤: 1. **URL列表读取**:Crow 首先读取 "urls.list" 文件,这是一个包含多个网址的文本文件,每个网址占一行。 2. **网页抓取**:对于文件中的每一个网址,Crow 使用HTTP请求获取网页...

Global site tag (gtag.js) - Google Analytics