`
wangdei
  • 浏览: 378989 次
社区版块
存档分类
最新评论

百度分词切词研究 如何获取优质长尾流量

    博客分类:
  • SEO
阅读更多

对与百度的分词研究原来也没有在意,但有一次我在作优化时无意中发现一个词也就是差了一个字,结果排名大不相同。我作的是二手房的关键词,但是我的页面上的关键词设置却是“二手房源”,可能有的朋友会说,这个没什么问题啊,“二手房源”不是包含了二手房这个关键词吗?如果没有仔细对百度的分词进行研究,大家可能看不出这两个词会有什么区别,不过大家只要稍微留心一下搜索出来的结果,就可以看出端倪了,百度在对“二手房”和 “二手房源”这两个词分词出来是不一样的,百度自己建立有自己的词库,所以他会把“二手房“这个词当作一个整体,但是对于”二手房源“这个词,百度则拆分成了”二手“和”房源“两个词,自然别人在搜索二手房这个关键词的时候就找不到我的页面了。通过这个小细节,我觉得有必要对百度的分词进行一下深入的研究,我大概地总结出了以下这么几点:

  1、百度分词是根据内容中,第一次出现关键词相关词为标准来分的。例如”今日新开热血江湖sf“这个词
  如果你的正文中第一个出现的是”今日“这个词,那么你的页面上的关键词就会被拆分成”今日”和“新开热血江湖sf“两个词,标题中一定要包含关键词,但不一定要完全匹配,但内容中出现的关键词是要跟百度分词完全匹配的,在完全匹配中又会根据文件URL路径的深度来进行排序,在关键词都完全匹配的情况下,比如说目录比文件有优先权,根目录下的文件要比二级目录下的文件有优先权,完全匹配的会排在前面,然后再是部分匹配的。

  2、在关键词没有完全匹配的情况下,如果有分词,比如说:游览器下载
  这个关键词,有一个网页里第一次出现的关键词是游览器,并且有较高的关键词密度,但是这个网页中却没有”下载“这个关键词
  而另一个网页里第一次出现的关键词是下载,那么这个网页的关键词就会被拆分成 游览器 下载 两个词,虽然第二个网页里包含有“游览器” “下载” 但是第一个网页还是会排在第二个网页的前面,这说明关键词的前面部分是最重要的。

  3、关键词第一部分出现的频率是排名的关键,比如说 ”游览器 下载“,如果两个网页都没有完全匹配,都是含有两个分词,那么“游览器”这个分词密度高的网页将会排在前面。

  4、如果完全匹配,但是关键词第一出现是在页面内容的最后面部分,那么这个网页的排名将比前面这些页面还要低。所以关键词尽早在内容中出现是非常重要的。

  5、百度根据第一次出现的相关关键词切词,如果第一次出现的相关关键词是关键词的尾部,那么就从后面开始切,如果是前面部分就从前面开始切,也就是根据网页内容的顺序和反序进行分词,顺序的时候就是以关键词前半部分为起点,反序的时候就是以关键词的后半部分为起点。例如:”今日新开热血江湖sf“ 这个关键词,如果你的网页中第一次出现的关键词是”热血江湖sf“,那么你这个页面的关键词会被拆分成”热血江湖sf”和“今日新开”两个词。

  6、可以根据百度的切词原理,自己来选择比较好作的关键词头部(也就是调整你网页内容中第一次出现的关键词)。也就是进行人为切词,百度会进行从前往后判断,也会从后往前面切。

  7、如果切词出现前半部分和后半部分有重复的话,那么有重复的会比没重复的排名低,但如果都有重复那么就是根据前半部分的密度来判断。
  例如:今日新开热血江湖sf 如果被切成 今日新开热血江湖|新开热血江湖sf (这样切出来的词前半部分太长,所以排名不利)那么排名肯定要比切成今日新开|热血江湖|sf 的排名差

  8、如果在关键词没有完全匹配的情况下,并且关键词出现得不完整,比如说:今日新开热血江湖sf,网页的内容包含的关键词中如果没有“今日”这个词,那么切词就会从“新开”开始,但是这样的网页都会排在比较靠后了,因为你关键词的前部分都没有包含

  9、缺词的情况下下,如果与不缺词的网页进行比较的话,那还是根据切词前部分的密度进行排序,也就是说按照切词的顺序,如果切出来的词,前部分的密度比后部分的密度比例是关键,例如一个网页中,前部分与后部分关键词的比例是1:2,另外一个网页的比例是1:4,那么当然前面的那个网页排名要靠前。同样在缺词的情况下,切出来前词短的排名有优势

  10、如果不缺词,但是关键词后面部分比前面部分先出现,例如“今日新开热血江湖sf” sf这个词先出现,但是“今日新开热血江湖”这个词的密度又不高的话,那么排名会比那些缺词的还要靠后

  11、同样是后词出现在前面,但是前词与后词的比例是关键,例如一个网页中包含有“sf” “今日新开热血江湖”这样两个词,比例为1:1另外一个网页包含的是 “新开热血江湖” “sf” “今日新开” 比例是2:1:1,那么前面的那个网页排名有优势,关键词的数量不是关键,出现的位置,以及分词的比例是非常关键的。越靠后的分词占的比例越多,排名越不利

  12、关键词在正文中出现的位置过于靠后也是不利的,主词的密度太低也不利,前面的网页情况都是在主词密度差不多的情况下进行比较的。


  我研究出来的也就查不多这么多了,不知道大家能不能看懂,如果能看懂的会,你就可以根据百度的分词去调整自己网页的关键词权重设计,这样就可以避免热词的竞争,但是又能作到热词。

<script type="text/javascript"></script>

分享到:
评论

相关推荐

    seo中神秘的分词切词_如何获取优质长尾流量

    本文将基于一篇关于百度分词技术的文章,深入探讨分词技术的基本原理、特点以及如何利用这些特点来改善SEO策略,从而更好地获取优质长尾流量。 #### 二、分词技术概述 分词技术是中文信息处理的基础之一,它是指将...

    基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)

    基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业),个人经导师指导并认可通过的高分设计项目,评审分99分,代码完整确保可以运行,小白也可以亲自搞定,主要针对计算机相关专业的正在做大作业的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业,代码资料完整,下载可用。 基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业)基于Python的天气预测和天气可视化项目源码+文档说明(高分毕设/大作业

    2025工业5G终端设备发展报告.pdf

    2025工业5G终端设备发展报告.pdf

    基于分布式ADMM算法与碳排放交易的MATLAB代码:电力系统优化调度

    内容概要:本文介绍了一段基于分布式ADMM算法的MATLAB代码,用于电力系统优化调度,尤其关注碳排放交易的影响。代码首先对电力系统进行分区,接着构建DC-DOPF最优潮流问题,考虑碳排放交易的成本,并利用ADMM算法求解。文中详细解释了各个关键步骤,如系统分区、目标函数设计、碳排放交易成本计算以及ADMM算法的具体实现。此外,代码还包括了多种优化技术和实用技巧,如自适应惩罚因子调整、边界条件处理等,确保算法的有效性和实用性。 适用人群:适用于对电力系统优化调度感兴趣的科研人员、工程师和技术爱好者,尤其是希望深入了解分布式算法和碳排放交易机制的人群。 使用场景及目标:①研究电力系统优化调度的新方法和技术;②探讨碳排放交易对电力系统调度策略的影响;③提高电力系统运行效率和环保性能。 其他说明:代码不仅提供了详细的注释和模块化设计,还展示了丰富的可视化结果,便于理解和进一步研究。同时,文中提到了一些实际应用案例,证明了该方法的有效性和优越性。

    IDEA中本地运行配置文件

    适配于jdk8版本

    dify-course-demo.yml

    自动化生成全套教程

    【GRP-U8软件维护】GRP-U8软件常见问题及解决方案:涵盖账务处理、自定义凭证打印、期初余额导入、双凭证模式调整、电子报表、工资模块、资产管理、物资管理、网上报销、预算编制、学生收费、安装配置及

    内容概要:本文档《GRP_U8软件近期常见问题85例.docx》详细列出了GRP_U8软件在实际使用过程中遇到的85个常见问题及其解决方案。这些问题涵盖了账务处理、电子报表、工资模块、资产管理、物资管理、成本模块、网上报销、预算编制、学生收费、安装配置以及基础数据管理等多个方面。每个问题不仅描述了现象,还提供了具体的解决步骤或SQL语句。文档强调在执行任何脚本前务必进行整库备份,并提供了维护问题的联系方式。 适合人群:适用于GRP_U8软件的管理员、技术支持人员及有一定数据库操作基础的用户。 使用场景及目标:①帮助用户快速定位并解决GRP_U8软件在账务处理、报表生成、工资管理、资产管理等模块中遇到的具体问题;②提供详细的SQL语句和操作指南,确保用户能够独立解决问题,减少对技术支持的依赖;③指导用户在遇到软件安装、配置及升级相关问题时采取正确的措施。 其他说明:文档内容正在不断完善中,用户可以通过私信反馈意见和建议。此外,文档中多次强调了数据安全的重要性,提醒用户在执行任何操作前做好备份工作。针对某些特定问题,文档还提供了多种解决方案供用户选择,以适应不同的环境和需求。

    少儿编程scratch项目源代码文件案例素材-scratch RPG 战斗.zip

    少儿编程scratch项目源代码文件案例素材-scratch RPG 战斗.zip

    基于模型预测控制(MPC)的无人艇分布式编队协同控制仿真与实现

    内容概要:本文详细介绍了利用模型预测控制(MPC)实现无人艇分布式编队协同控制的方法和技术。首先,通过简化的动力学模型和MATLAB代码展示了无人艇的基本行为预测。接着,深入探讨了编队协同控制的关键要素,包括代价函数的设计、信息交换机制以及分布式MPC的具体实现步骤。文中还提供了具体的Python代码示例,涵盖了从单个无人艇的动力学建模到多智能体之间的协作控制。此外,作者分享了一些实用技巧,如如何处理通信延迟、传感器噪声等问题,并展示了仿真效果,证明了所提出方法的有效性和鲁棒性。 适合人群:对无人艇编队控制、模型预测控制(MPC)、分布式系统感兴趣的科研人员、工程师及高校学生。 使用场景及目标:适用于研究和开发无人艇编队控制系统,特别是希望通过分布式控制实现高效、灵活的编队任务。目标是在复杂的海洋环境中,使无人艇能够自主完成编队、跟踪指定路径并应对各种干扰因素。 其他说明:文中提供的代码片段和理论解释有助于理解和实现无人艇编队控制的实际应用。建议读者在实验过程中结合实际情况进行参数调整和优化。

    操作系统实验2内存管理实验

    (3)编写程序验证FIFO和Stack LRU页面置换算法 (4)分别用FIFO和Stack LRU页置换算法,自己设定一个页面引用序列,绘制页错误次数和可用页帧总数的曲线并对比(可用Excel绘制或手绘);能否重现FIFO导致的Belady异常; (5)[选做]编程实现最优页置换算法,用课件上的序列验证。

    机器学习(深度学习):一个用于骨折分类的医学图像数据集

    一个用于骨折分类的医学图像数据集,旨在通过计算机视觉技术帮助研究人员和医疗专业人员准确识别和分类骨折类型。以下是关于该数据集的详细介绍。该数据集包含了多种类型的骨折X光图像,涵盖了常见的骨折类别,如撕脱性骨折(Avulsion Fractures)、粉碎性骨折(Comminuted Fractures)、骨折脱位(Fracture-Dislocations)、青枝骨折(Greenstick Fractures)、发际线骨折(Hairline Fractures)、嵌插性骨折(Impacted Fractures)、纵向骨折(Longitudinal Fractures)、斜行骨折(Oblique Fractures)、病理性骨折(Pathological Fractures)和螺旋形骨折(Spiral Fractures)等。多样性:数据集中的图像来自不同的骨折类型,能够为模型训练提供丰富的样本。高质量标注:数据由专业放射科医生手动标记,确保了数据的准确性和可靠性。适用性:该数据集适用于机器学习和深度学习项目,可用于开发自动化骨折分类系统。该数据集主要用于训练和验证计算机视觉模型,以实现从X光图像中自动识别和分类骨折类型。通过自动化骨折分类,可以提高医疗诊断的效率和准确性,减少人为误判,并帮助医疗专业人员更快地做出决策。是一个极具价值的医学图像数据集,能够为医疗领域的研究人员和从业者提供有力支持,推动医学影像分析技术的发展。

    互联网的兴起与数字未来

    本书《互联网的历史与数字未来》由约翰尼·瑞安撰写,探讨了互联网从诞生到成为全球性现象的历程。书中分为三个阶段:分布式网络与离心思想的兴起、互联网的扩展以及新兴环境下的互联网。第一阶段追溯了互联网概念的起源,包括冷战背景下的军事实验和计算机技术的普及。第二阶段描述了互联网如何从军事网络演变为全球互联网,并催生了万维网。第三阶段则探讨了Web 2.0的出现、网络社会的形成以及互联网对政治、文化和商业的深远影响。瑞安强调了互联网作为离心力、用户驱动和开放性的三个核心特征,并指出这些特征正在重塑我们的世界。

    易语言进程封包截取工具

    进程封包截取神器,支持TCP和UDP协议封包拦截

    最新版kibana-9.0.0-linux-x86-64.tar.gz

    最新版kibana-9.0.0-linux-x86_64.tar.gz

    子查询练习题,多练习总没有坏处,不知道凑没凑够十一个字

    子查询练习题,多练习总没有坏处,不知道凑没凑够十一个字

    可见光近红外波段VO2介电常数的Matlab计算与COMSOL仿真教程

    内容概要:本文详细介绍了如何利用Matlab计算二氧化钒(VO2)在可见光到近红外波段的介电常数,并将其应用于COMSOL多物理场仿真软件进行光学性能仿真。主要内容包括:VO2在不同温度下的相变特性及其对折射率的影响;基于Lorentz和Drude模型的介电常数计算方法;Matlab代码实现步骤;COMSOL中材料参数的导入与设置;以及常见错误提示和解决方案。文中还附带了一个详细的30分钟教学视频,帮助读者更好地理解和掌握整个流程。 适合人群:对光学材料、相变材料感兴趣的科研工作者和技术人员,尤其是从事智能窗户、光学开关等领域研究的人士。 使用场景及目标:① 学习并掌握VO2在不同温度下的光学特性和相变机制;② 利用Matlab和COMSOL进行材料参数计算和仿真,为实际应用提供理论支持;③ 解决仿真过程中可能出现的问题,提高仿真精度。 阅读建议:建议读者跟随文中的代码示例逐步操作,结合提供的教学视频加深理解。对于初学者来说,可以先熟悉Matlab的基本语法和COMSOL的操作界面,再尝试完成完整的仿真流程。

    COMSOL模拟激光打孔热应力耦合分析及优化方法

    内容概要:本文详细介绍了利用COMSOL Multiphysics进行激光打孔过程中热应力耦合仿真的具体步骤和技术要点。首先,通过建立波动光学和固体力学两个物理场,精确模拟了1064nm激光与材料相互作用产生的温度场变化及其引起的热膨胀效应。接着,针对热源加载、网格划分、求解器配置等方面进行了深入探讨,提出了多项创新性的解决方案,如采用移动高斯热源实现精准加热、引入时间条件判断调整热膨胀系数以及优化网格布局等措施。此外,还讨论了材料参数设置中的注意事项,尤其是对于高温合金材料,在不同温度区间内的导热系数和弹性模量的变化规律,并强调了相变潜热的影响。最后,通过对温度场和应力场的综合分析,揭示了激光移动速度对孔洞边缘应力分布的影响机制。 适用人群:从事激光加工、材料科学、热力学研究的专业人士,以及对多物理场耦合仿真感兴趣的科研工作者。 使用场景及目标:适用于希望深入了解激光打孔过程中热应力形成机理的研究人员;旨在提高加工精度、减少缺陷发生的工程技术人员;希望通过理论模型指导实际生产的制造业从业者。 其他说明:文中提供了大量MATLAB代码片段用于辅助理解和实施相关操作,同时分享了许多实用的经验技巧,帮助读者更好地掌握COMSOL软件的应用。

    永磁同步电机全速度域无位置传感器控制技术与切换策略研究

    内容概要:本文详细探讨了永磁同步电机(PMSM)在全速度范围内实现无位置传感器控制的技术方法和切换策略。针对高速和低速段分别介绍了超螺旋滑模控制和脉振高频方波注入的具体实现方式,并提供了相应的代码示例。对于切换策略,则讨论了加权切换和双坐标切换的方法,强调了在实际应用中需要注意的问题,如角度补偿和平滑过渡。此外,还分享了一些实用的经验技巧,如高频注入信号的滤波处理、滑模控制参数的优化设置等。 适合人群:从事电机控制系统设计的研究人员和技术工程师。 使用场景及目标:适用于需要深入了解PMSM无位置传感器控制技术的研发项目,旨在帮助工程师掌握不同速度范围内的最优控制策略,确保系统在全速域内的稳定性和可靠性。 其他说明:文中提供的代码片段和实践经验有助于读者更好地理解和实施相关技术,同时也提醒读者在实际应用中应注意参数调整和系统调试。

    C#运控框架雷赛DMC系列项目:适合新手的运动控制源码学习

    内容概要:本文介绍了一个基于C#和雷赛DMC系列的运动控制项目,该项目提供了详细的源码解析和技术要点讲解。尽管界面较为简陋,但功能齐全,涵盖了设备连接、运动参数设置、运动控制、状态监测等多个方面。文章详细解释了各个关键模块的实现,如初始化、运动控制、指令解析、多线程同步和紧急停止等功能。此外,还介绍了常见的陷阱和优化建议,帮助新手更好地理解和掌握运动控制编程。 适合人群:初学者和有一定编程基础的开发者,特别是对运动控制编程感兴趣的程序员。 使用场景及目标:① 学习C#与雷赛DMC系列设备的集成;② 掌握运动控制项目的开发流程;③ 实践运动控制的实际应用场景,如工业自动化。 其他说明:项目不仅提供完整的代码示例,还包括了许多实用的技术提示和最佳实践,非常适合新手进行深度学习和改造。

    新能源汽车电池包热管理:StarCCM+共轭传热仿真全流程解析

    内容概要:本文详细介绍了如何使用StarCCM+软件进行新能源汽车电池包的共轭传热仿真。首先阐述了电池包热管理的基础知识,包括电芯发热机理和常见热管理方式。接着逐步讲解了从三维数模的几何清理、面网格和体网格生成、关键传热系数设置到最后的计算参数设定等一系列仿真步骤。每个环节都提供了具体的参数设置方法和技术要点,如接触热阻、边界层网格、瞬态与稳态分析的选择等。此外,文中还分享了许多实践经验,如几何清理中的倒角处理、网格划分的优化策略、接触热阻的实际测量与设置等。 适合人群:从事新能源汽车行业电池包热管理研究的技术人员,尤其是有一定StarCCM+使用经验的工程师。 使用场景及目标:①掌握电池包热管理的基本理论;②熟练运用StarCCM+进行电池包共轭传热仿真;③提高仿真精度,减少误差,确保电池包的安全性和高效运行。 其他说明:文章不仅提供了详细的仿真步骤指导,还附带了一些实用的经验技巧,有助于读者在实际工作中避免常见错误,提高工作效率。

Global site tag (gtag.js) - Google Analytics