在明确了切入点以后,就可以着手开发了,但在动手之前,还需要理清思路,好让我们的每一步都方向明确的,避免在迷茫中胡乱写代码。所以本篇的任务是梳理思路,包括明确目标、确定所需的资源、主要的实现步骤;
一、 目标:
观察Searchviu网站中给出的案例,可以知道,它的目标是找出可以让网页排名进谷歌前十的热词,同时找出该词应该在的位置。当然这也可以作为我们的目标,简单的说,我们的目标就是百度SEO,提升网站排名,SEO的目的是提升网站流量;为了实现这个目标,我们需要“找出访问量大,竞争又不激烈的词” (看上去像是矛盾的) 。
二、 资源:
做SEO,当然需要有个网站,网站由域名、服务器、web应用服务器、web应等组成;至于如何搭建网站不在本系列的博客讨论范围中,读者如果需要了解相关的知识可以到网络上找相关资料;所以此处假设读者已经搭建了一个网站;除了网站,做ML我们还需要数据和算法,Searchviu网中描述的数据是从SEMrush直接获取,而我们没有SEMrush的账号,由于网络原因,也无法注册该网站;所以相关的数据需要我们自己从互联网抓取。以下列出此次准备的资源清单:
1)51msg.net 网站(读者可替换成自己的网站),这个网站是作者搭建的开发测试用网站,目前除了有一些爬虫和攻击访问外,就是作者本人在访问,此外就没有其他人访问了。
2)jsoup、httpclient (基于java的网页抓取工具类包)
3)weka、xbgoost(基于java的机器学习算法工具包)
三、 步骤:
1、 准备搜索关键词:搜索、搜索引擎、搜索导航、搜索大全、搜索引擎大全、国外搜索引擎、网页搜索、谷歌搜索、谷歌镜像、综合搜索;
2、 从百度搜索结果,并抓取数据,每个词60页,总共6000条记录,保存到数据库中;
3、 抓取网站内容,并进行保存;
4、 对网页内容进行分词、统计词频、抓取每个词的百度指数(热度),将结果保存到数据库中;
5、 对词进行排序(热度、词频梳理),根据词进行百度搜索抓取,每个词10页,预计抓取50万条记录,保存到数据库中;
6、 准备模型训练数据和测试数据(比例10:1),关键词、title中出现次数、description中出现次数、keywords中出现次数、其他地方出现次数、 网页排名;
7、 训练模型、测试模型结果;
8、 输出预测数据,关键词、关键词在网页中各个地方出现,可能获得的网页排名;
9、 根据预测结果,修改网站首页,等待百度爬虫抓取,观察实际排名变化,观察网站流量
10、 总结效果。
分享到:
相关推荐
《Mastering Machine Learning With scikit-learn》是一本深入实践的指南,它将带领读者通过scikit-learn掌握机器学习的核心概念和技术,提升数据分析和预测能力,对于希望在机器学习领域深入研究或提升实战技能的人...
《Machine Learning with PyTorch and Scikit-Learn-Packt》(2022)是机器学习领域的权威指南,涵盖了机器学习和深度学习的基础知识和实践经验。读者可以通过学习本书籍来掌握机器学习模型开发和实践的技能,从而...
机器学习入门与实战(scikit-learn和Keras)课件—聚类.pdf机器学习入门与实战(scikit-learn和Keras)课件—聚类.pdf机器学习入门与实战(scikit-learn和Keras)课件—聚类.pdf机器学习入门与实战(scikit-learn和Keras)...
机器学习(Machine Learning)是让机器通过统计方法从数据中学习任务的技术;而深度学习(Deep Learning)是机器学习的一个子集,它通过构建具有许多层次的神经网络直接从数据中学习表征和任务。深度学习之所以被...
吴恩达的机器学习课程主要包括两门,一门是在Cousera上的《机器学习》,另一门是他在斯坦福大学教授的《CS229: Machine Learning》。 Cousera上的《机器学习》课程侧重于概念理解,而不是数学推导。这门课程重视...
Human-in-the-Loop Machine Learning lays out methods for humans and machines to work together effectively. Summary Most machine learning systems that are deployed in the world today learn from human ...
机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP
Machine-Learning-Algorithms-from-Scratch, 从零开始实现机器学习算法 Machine-Learning-Algorithms-from-Scratch从零开始实现机器学习算法。目前实现的算法:简单线性回归。数据集:来自Quandl的股票数据逻辑回归...
在“部分内容”中,我们看到了“Machine Learning Landscape”这个短语,它可能是指对机器学习领域全貌的介绍,可能涉及机器学习的基本概念、不同类型的机器学习方法(如监督学习、非监督学习、强化学习等),以及...
### 机器学习:基于统计学习理论的实用方法 随着数据科学和人工智能技术的快速发展,机器学习作为一门核心学科,已经成为连接理论与实践的关键桥梁。本书《Machine-Learning-A-Practical-Approach-on-the-...
标题中的“Machine-Learning-for-IoT-master_iot_iot_machinelearning_IOTmatla”表明这是一个关于物联网(IoT)和机器学习(Machine Learning)的项目,特别的是,它使用了MATLAB编程语言。MATLAB是一款强大的数值...
3. 机器学习工具和技巧:文档强调了构建智能系统所需要运用到的工具和技巧。这些可能包括数据预处理、特征选择、模型优化、集成学习、过拟合与欠拟合处理等。 4. 智能系统构建:文档提到了构建智能系统的概念,这...
《机器学习实战:感知机、KNN、决策树与逻辑回归》 在人工智能领域,机器学习扮演着至关重要的角色,它使计算机系统能够通过数据学习并改进其性能,而无需显式编程。在这个名为"MachineLearning-master"的压缩包中...
`mypy_boto3_machinelearning` 这个库填补了这个空白,它提供了对Boto3中机器学习模块的类型定义,使得在使用Boto3与Amazon Machine Learning服务交互时,mypy可以进行类型检查,确保函数调用的参数和返回值类型正确...
基于Python的机器学习(Python-Real World Machine Learning)-2016年最新英文原版,0积分——全书983页,内容很丰富。 What this learning path covers? Module 1, Python Machine Learning Cookbook, teaches you...
《Hands-On Machine Learning with Scikit-Learn and TensorFlow》是一本深度探讨机器学习实践的书籍,特别关注使用Python编程语言和两个强大的开源库——Scikit-Learn与TensorFlow。这本书不仅提供了高清彩色PDF...
本资料“Machine-Learning-for-IoT-master”是一个专门探讨机器学习在物联网应用的项目,提供了基于IOTMATLAB的源代码,为我们深入理解两者结合提供了宝贵的实践素材。 一、物联网(IoT)概述 物联网是指通过各种...