`

基于机器学习(machine learning)的SEO实战日记3--构思

阅读更多
    在明确了切入点以后,就可以着手开发了,但在动手之前,还需要理清思路,好让我们的每一步都方向明确的,避免在迷茫中胡乱写代码。所以本篇的任务是梳理思路,包括明确目标、确定所需的资源、主要的实现步骤;
一、 目标:
观察Searchviu网站中给出的案例,可以知道,它的目标是找出可以让网页排名进谷歌前十的热词,同时找出该词应该在的位置。当然这也可以作为我们的目标,简单的说,我们的目标就是百度SEO,提升网站排名,SEO的目的是提升网站流量;为了实现这个目标,我们需要“找出访问量大,竞争又不激烈的词” (看上去像是矛盾的) 。
二、 资源:
做SEO,当然需要有个网站,网站由域名、服务器、web应用服务器、web应等组成;至于如何搭建网站不在本系列的博客讨论范围中,读者如果需要了解相关的知识可以到网络上找相关资料;所以此处假设读者已经搭建了一个网站;除了网站,做ML我们还需要数据和算法,Searchviu网中描述的数据是从SEMrush直接获取,而我们没有SEMrush的账号,由于网络原因,也无法注册该网站;所以相关的数据需要我们自己从互联网抓取。以下列出此次准备的资源清单:
1)51msg.net 网站(读者可替换成自己的网站),这个网站是作者搭建的开发测试用网站,目前除了有一些爬虫和攻击访问外,就是作者本人在访问,此外就没有其他人访问了。
2)jsoup、httpclient (基于java的网页抓取工具类包)
3)weka、xbgoost(基于java的机器学习算法工具包)
三、 步骤:
1、 准备搜索关键词:搜索、搜索引擎、搜索导航、搜索大全、搜索引擎大全、国外搜索引擎、网页搜索、谷歌搜索、谷歌镜像、综合搜索;
2、 从百度搜索结果,并抓取数据,每个词60页,总共6000条记录,保存到数据库中;
3、 抓取网站内容,并进行保存;
4、 对网页内容进行分词、统计词频、抓取每个词的百度指数(热度),将结果保存到数据库中;
5、 对词进行排序(热度、词频梳理),根据词进行百度搜索抓取,每个词10页,预计抓取50万条记录,保存到数据库中;
6、 准备模型训练数据和测试数据(比例10:1),关键词、title中出现次数、description中出现次数、keywords中出现次数、其他地方出现次数、 网页排名;
7、 训练模型、测试模型结果;
8、 输出预测数据,关键词、关键词在网页中各个地方出现,可能获得的网页排名;
9、 根据预测结果,修改网站首页,等待百度爬虫抓取,观察实际排名变化,观察网站流量
10、 总结效果。
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics