`

基于机器学习(machine learning)的SEO实战日记6--训练集准备

阅读更多
   有了关键词列表和关键词的词频后,我们接下来就可以着手准备训练数据集,以下是训练集的定义:
表名:seo_train
表中文名:热词训练集表
字段名称字段类型字段解释
keywordsvarchar(100)关键词
rw_url varchar(1000) 关键词所在url
title_score decimal(8,4) 在title中出现的次数
keyword_score decimal(8,4) 在keywords中出现的次数
description_score decimal(8,4) 在description中出现的次数
other_score decimal(8,4) 在网页其他地方出现的次数
rw_position int url基于该关键的排名


Create table seo_train(keywords varchar(100), rw_url varchar(1000),title_score decimal(8,4),   keyword_score decimal(8,4) , description_score decimal(8,4) , other_score decimal(8,4) ,rw_position int) character set utf8mb4 collate utf8mb4_bin;

相关数据的生成逻辑如下:
keywords字段基于表relative_hotwords中的keywords;
rw_url字段基于表relative_web中的rw_url
title_score、keyword_score、description_score、other_score字段从web_detail表的web_html字段中提取获得
rw_position字段基于keywords关键词从百度搜索中抓取。
由于表relative_hotwords的记录数较多,达到了4.7万,为了提高效率,对词做了过滤,筛选了6千个搜索热度排名高的词。搜索热度排名基于百度指数。
通过剔除重复的,最终我们获得表seo_train的数据量是7341条。
此处代码略,未完待续……
0
1
分享到:
评论

相关推荐

    Advances in Machine Learning II 2010

    - **标题**:“Advances in Machine Learning II 2010”(2010年的《机器学习进展 II》):该标题表明这是一本专注于机器学习领域的论文集,并且是系列中的第二部作品。出版年份“2010”则提示了这些研究成果的时代...

    AutoSEO:由自然语言处理(WIP)支持的SEO工具

    Python的Scikit-learn库提供了丰富的机器学习工具,可以用于训练模型以预测哪些SEO策略最有效。 **Flask**: Flask是一个轻量级的Python Web框架,用于构建后端服务。在AutoSEO中,Flask可能用于处理前端发送的请求...

    网站机器学习

    6. **内容优化**:利用机器学习进行关键词分析,可以优化网站的SEO策略,提升在搜索引擎中的排名。 7. **聊天机器人**:借助自然语言处理和对话管理技术,网站可以实现24/7的智能客服,降低人力成本。 在"Website-...

    coursera-practicalml:实用机器学习作业

    在本课程"Coursera-Practical Machine Learning"中,学员将深入理解并应用机器学习的基本概念和技术。这个作业集是课程的一部分,旨在通过实际操作加深对机器学习的理解。我们将探讨一系列与HTML相关的知识点,虽然...

    藏经阁-Customer Success Dashboard GoD.pdf

    4. Machine Learning on 64M Websites 机器学习算法在 Customer Success Dashboard 项目中扮演着核心角色。它使用 Spark 2.1 对 6400 万个网站的在线数据进行分析,提供实时和批量分析功能。 5. 大数据分析(Big ...

    AI伪原创源码完全免费部署即用

    2. **机器学习(Machine Learning)**:尤其是深度学习(Deep Learning)算法,如循环神经网络(RNN)、长短时记忆网络(LSTM)或者Transformer模型,这些模型被训练在大量文本数据上,用于学习语言模式并生成创新性...

    阔腿裤淘宝好评语.docx

    此外,机器学习(Machine Learning)算法可以通过训练模型预测好评的可能性,帮助商家提前识别可能获得好评的商品,或者找出可能引发差评的问题。这种预测模型可能会基于历史评论数据,考虑评论的长度、词汇选择、...

    Web智能算法.pdf

    4. 机器学习(Machine Learning) 机器学习是一种使计算机系统能够从经验中学习并改进的技术。在Web智能算法中,机器学习用于建立模型,以预测用户的行为,优化搜索结果,实现智能推荐系统等。 5. 自然语言处理...

    2010各大IT公司最新求职大礼包

    求职者应具备自然语言处理、机器学习、深度学习等AI领域的知识,熟悉Python等数据处理语言,并能使用TensorFlow、PyTorch等深度学习框架。同时,对搜索引擎优化(SEO)和搜索引擎营销(SEM)有一定了解。 在准备这...

    AI_Web

    1. **人工智能基础**:理解AI的基本概念,如机器学习(Machine Learning)、深度学习(Deep Learning)和自然语言处理(Natural Language Processing, NLP)。这些技术是构建智能网页的核心,能够实现个性化推荐、...

    Wireless Communications Resource Management

    人工智能(Artificial Intelligence, AI)和机器学习(Machine Learning, ML)技术能够通过对历史数据的学习,预测网络行为和用户需求,从而实现更加精细化的资源分配。此外,边缘计算(Edge Computing)和软件定义...

Global site tag (gtag.js) - Google Analytics