`
lelong
  • 浏览: 555817 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

SEO的几个函数,分词,优化(转载)

阅读更多

//根据标题获得百度热门相关关键字,返回字符串
function baiduKeyword($title,$num=5,$charset="UTF-8"){
       
        $title=iconv($charset, "GB2312", $title);
        $w=file_get_contents('http://d.baidu.com/rs.php?q='.urlencode($title).'&tn=baidu');
        //die($w);
        //获得列表部分
        preg_match_all("|<div id=con>(.*)</div>|isU",$w,$con);
        $list=$con[1][0];
        //获得具体内容
        preg_match_all("|<ul><li class=ls>(.*)</li><li class=kwc><a target=_blank href=(.*)>(.*)</a></li><li class=bar><img src=http://img.baidu.com/img/bar_1.gif height=6 width=(\d*) align=absmiddle vspace=5></li></ul>|isU",$list,$content);
        //合并成数组,被搜索次数做为键值
        $c=array_combine($content[4],$content[3]);
        //排序
        krsort($c);
        //取前N条
        $r=array_slice($c, 0, $num);  
        //转换成字符串
        $result=implode(",", $r);
        $result=iconv("GB2312", $charset,$result);
        return $result;
}


//通过DZ获取文章关键字,输入标题和内容 即可返回5个关键字数组
function getTags($title,$content){

        $subjectenc = rawurlencode(strip_tags($title));
        $messageenc = rawurlencode(strip_tags(preg_replace("/\[.+?\]/U", '',$content)));
        $subjectenc =substr($subjectenc,0,60);
        $messageenc=substr($messageenc,0,1200);
        $data = @implode('', file("http://keyword.discuz.com/related_kw.html?title=$subjectenc&content=$messageenc&ics=utf-8&ocs=utf-8"));
       
        $kws = array();
        if($data) {
                $parser = xml_parser_create();
                xml_parser_set_option($parser, XML_OPTION_CASE_FOLDING, 0);
                xml_parser_set_option($parser, XML_OPTION_SKIP_WHITE, 1);
                xml_parse_into_struct($parser, $data, $values, $index);
                xml_parser_free($parser);
                foreach($values as $valuearray) {
                        if($valuearray['tag'] == 'kw' || $valuearray['tag'] == 'ekw') {
                                $kw =trim($valuearray['value']);       
                                $kws[] =$kw ;

                        }
                }
        }
        return $kws;
}

分享到:
评论

相关推荐

    基于PHP的analysis 无组件中文分词类.zip

    这个"基于PHP的analysis无组件中文分词类.zip"压缩包文件,显然包含了一个用于处理中文文本的分词工具,这在处理大量中文数据、进行搜索引擎优化(SEO)、自然语言处理(NLP)或者文本分析时非常有用。 分词是中文...

    使用Discuz关键词服务器实现PHP中文分词

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,尤其在文本分析、搜索引擎优化(SEO)和信息检索中起着至关重要的作用。Discuz! 提供了一个在线中文分词服务,它允许开发者通过API接口来对中文文本进行分词...

    中文转拼音纯js文件

    这个`CC2PY`函数的工作原理可能包括以下几个步骤: 1. **数据准备**:函数内部通常会有一个预先处理好的汉字到拼音的映射表,用于快速查找每个汉字对应的拼音。这种映射表可能是以对象形式存储,键为汉字,值为对应...

    hit-stopwords.zip

    在实际应用中,处理停用词的步骤通常包括以下几个环节: 1. **读取停用词表**:首先,我们需要将"hit_stopwords.txt"文件读入程序,通常使用编程语言如Python的`open()`函数,并以读取模式加载文本。 2. **停用词...

    中文转化拼音PHP代码.rar

    在“hztopy.php”中,可能会有以下几个关键部分: 1. **拼音数据库**:可能包含了一个哈希表或者数组,存储了每个汉字对应的拼音。这是实现转换的基础。 2. **分词与处理**:PHP代码可能包含了分词算法,将输入的...

    火端搜索初始版V2.1百度好搜版

    下面我们将深入探讨该版本的几个关键知识点。 首先,从提供的文件名称列表来看,我们可以推断出该压缩包的内容结构。`404.html`通常是一个自定义的错误页面,当用户尝试访问不存在的网页时会显示。这表明开发者已经...

    Python-用pythondjango实现的一个很简单的搜索引擎

    我们将深入探讨以下几个核心知识点: 1. Django框架基础: Django是一个高级的Python Web框架,它鼓励快速开发和实用主义设计。它提供了模型-视图-控制器(MVC)架构,用于处理数据库交互、URL路由、HTML模板等。...

    js在线中汉子转化成拼音代码

    在JavaScript(JS)中,将汉字转换为拼音是一项常见的需求,尤其在中文输入法、搜索引擎优化(SEO)或者处理中文数据时。这个话题涉及到的主要知识点包括JavaScript基础、字符串操作、对象映射以及可能的第三方库。 ...

    PHP实例开发源码-在线伪原创程序php版.zip

    这个压缩包"PHP实例开发源码-在线伪原创程序php版.zip"包含了一个基于PHP的在线伪原创程序的源代码,它可以帮助用户自动生成内容的变体,以达到SEO优化或者内容多样化的目的。 首先,我们要理解什么是伪原创。伪...

    汉字转换拼音、首字母大写

    这个过程通常涉及到以下几个技术点: 1. **汉字-拼音映射**:建立一个完整的汉字到拼音的映射表,这是最基础的部分。这可以通过预处理大量汉字与拼音的对应关系来完成,例如GB2312或GBK编码中的汉字与拼音对照。 2...

    PHP搜索引擎源码页面

    在构建一个PHP搜索引擎时,你需要理解以下几个核心知识点: 1. **PHP基础**:PHP是一种服务器端脚本语言,用于创建动态网页。了解PHP语法、变量、控制结构、函数等基础知识是必不可少的。 2. **数据库交互**:搜索...

    PHP文本分析统计

    基本步骤可能包括以下几个方面: 1. **数据预处理**:这是任何文本分析的第一步,通常涉及去除标点符号、停用词(如“的”、“是”、“在”等常见但不携带太多信息的词)以及转换所有文本为小写,以便统一比较。 2...

    html解析器

    HTML解析器的工作原理通常分为几个关键步骤: 1. **词法分析**:解析器首先读取HTML文档,将字符流转化为一系列的标记(tokens),如开始标签、结束标签、文本节点等。这个过程也称为分词。 2. **解析树构建**:...

    开源项目-Boostport-address.zip

    6. **API接口**:为了方便集成到其他应用中,这个库可能提供了简单的API接口,开发者可以通过调用几个函数就能实现地址的验证和格式化。 7. **文档与示例**:开源项目通常会提供详尽的文档,介绍如何安装、配置和...

    浅谈PHPANALYSIS提取关键字

    在阅读给定文件内容之后,我们可以提炼出以下几个知识点: 1. PHPANALYSIS关键字提取的基本概念: PHPANALYSIS是PHP中一个用于中文分词处理和关键字提取的工具,它通过内置的词库对中文文本进行分词,并提取文章中...

    VB编写网页分析工具源代码

    网页分析工具的核心功能通常包括以下几个方面: 1. **网页抓取**:使用VB的HTTP请求库,如Winsock控件或Microsoft.XMLDOM对象,可以发送HTTP请求到指定URL获取网页内容。HTTP请求包括GET和POST方法,根据需求选择...

    crow:从网址创建唯一的单词列表

    这个过程通常包括以下几个步骤: 1. **URL列表读取**:Crow 首先读取 "urls.list" 文件,这是一个包含多个网址的文本文件,每个网址占一行。 2. **网页抓取**:对于文件中的每一个网址,Crow 使用HTTP请求获取网页...

Global site tag (gtag.js) - Google Analytics