`

数据统计

阅读更多
--1.把自己的抓的数据存入和自己表结构一样的
sanya_result_test_all(总数据)
sanya_result_test_new(新增数据)
sanya_result_test_old(重复数据)

--运行importance类的java程序,根据mer_name(店铺名称)与NM_SHOP(shop_name)进行相似度比较
--判断出 重复数据和新增数据;分别导入sanya_result_test_new和sanya_result_test_old表中

--1.
--首先根据店铺名称和  NM_SITE_ENT(is_zt字段标记1 意为新增) 表中的ENT_NAME进行对比,
--如果该店铺在 NM_SITE_ENT 表中存在,则不需要向NM_SITE_ENT中插入数据,取出对应的site_ent_id,向nm_shop表中插入一条数据,
--shop_id(自动生成),site_ent_id,platform_code(平台),SHOP_NAME(店铺名称),SHOP_ADDRESS(店铺地址),Shop_URL(店铺URL),SHOP_CONTENT(店铺内容),HPL(总体评分),EV_NUM(评价总数),ADD_TIME(录入时间当前时间),LASTDATE(当前时间),BAD_EV_NUM(差评总数),IS_EV(是否评价,默认为0)

--2.如果店铺不在NM_SITE_ENT 中存在
--先生成一个site_ent_id,
--向NM_SITE_ENT  中插入一条数据
--ENT_NAME(主体名称,店铺名称),IS_ILLEGAL(是否合法,默认是0),ADD_TIME(添加日期默认当前),AREA(网站所属区域 100三亚,101陵水,102保亭,103乐东),MANAGER_ILLEGAL(判定结果默认 0),EST_DATE(成立日期),ZT_ADDRESS(地址),REGISTERED_CAPITA(注册资本),LEGAL_REPRESENTATIVE(法定代表人),ENTERPRISE_TYPE(企业类型),BUSINESS_SCOPE(经营范围),IS_ZT(状态 新增 为2)
--在向nm_shop中添加一条数据  site_ent_id 是刚才插入NM_SITE_ENT中的site_ent_id ,shop_id自动生成

--查询平台
select * from PUB_CODETABLE where codetable='sjly'

--添加中国通用网 和 悠哉旅游网 两个平台。

--3.如果下次插入数据 首先将NM_SITE_ENT  中的IS_ZT为2的更新为0(is_zt字段标记2 意为新增)
--NM_SITE_ENT表中的IS_ZT字段意义:2 是新增, 1是旧的, 0是不存在

--修改当前时间语句
update nm_site_ent t set t.add_time =sysdate  where t.is_zt =2;



--2016-7-27

--(nm_shop表中插入的新数据)
SELECT * FROM nm_shop t WHERE 1=1 AND to_char(add_time,'YYYY-MM-DD HH12:MI:SS') like '%2016-07-27 11:43:00%'; 
--导入语句

--同一个数据库,同样的表结构导入数据
INSERT INTO nm_site_ent2 (SELECT * FROM nm_site_ent);

--创建相同的表
create table  table_name1 as select * from table_name2

--1.可以通过导出.dmp文件导入数据

--2.也可以通过excel导出和导入注意code,单元格设置为文本类型,关联表NM_SHOP_TYPE()
1 酒店   100     1001
2 美食 106     10602
3 度假 104     10406
4 婚纱摄影 107     107
5 租车 105     10501
6 跟团游 104      10401
7 景点门票 109      109

--查询分类
select * from pub_codetable where codetable='big'


-----------------------
--注意:1默认在c:/用户/administer)
--exp sywj/sywj@ORCL file=nm_shop_good.dmp tables=(nm_shop_good)

--导入四张表
nm_shop 店铺表

nm_site_ent 主体表

nm_shop_type 店铺分类表

nm_evaluation 评论表

--关联查询子表count
--阶段统计 sql
select a.shop_id as 店铺编号,a.shop_name as 店铺名称,
a.platform_code as 平台编号,a.shop_address as 店铺地址 ,a.shop_url as url,
a.ev_num as 总评数量,a.bad_ev_num as 总差评数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='6') ) as 啊6到7月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='7')) as 啊6到7月差评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9') ) as 啊8到9月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9')) as 啊8到9月差评论数
from a_nm_shop_8_9 a


--截取日期
update a_nm_evaluation_8_9_kai_tm_2 set ev_time=replace(ev_time,substr(ev_time,8,1),'') where ev_time like '_______0%'



分享到:
评论

相关推荐

    概率论与数理统计.pdf

    数理统计是利用概率论的方法处理数据,研究数据的收集、组织、分析、解释和呈现的科学。它主要包括以下几个方面: 1. **数据的描述性统计**:包括平均数(均值)、中位数、众数、方差、标准差等,用于度量数据的...

    数理统计课程用书

    数理统计的主要目标是从数据中提取有用的信息,并基于这些信息做出科学合理的决策。 ### 数理统计的应用领域 数理统计广泛应用于各种领域,包括但不限于经济、金融、医学、生物学、工程、社会科学等。在这些领域中...

    数理统计教程及习题

    数理统计是数学的一个重要分支,它主要研究如何收集、分析、解释和呈现数据,以及在不确定情况下作出决策。在本教程中,我们将深入探讨数理统计的基本概念、方法和应用。 首先,我们要理解基本的概率论概念,这是...

    数理统计答案.zip

    数理统计是应用数学的一个重要分支,主要研究如何收集、分析、解释和展示数据,以帮助决策者在不确定环境中做出合理的推断。本压缩包文件“数理统计答案.zip”包含的是北航(北京航空航天大学)研究生阶段的数理统计...

    数理统计课件[韦来生教材].zip

    数理统计是一门重要的数学学科,它涉及到概率论的基础理论,并将其应用于数据分析和推断。韦来生教授的教材在数理统计领域有着广泛的影响力,为学生和研究者提供了深入理解这一领域的基石。本压缩包文件包含了韦来生...

    浅谈数据挖掘中概率论与数理统计的应用.pdf

    数据挖掘的过程中,会涉及到多种技术的应用,其中概率论与数理统计的原理与方法是其中不可缺少的一环。概率论与数理统计在数据挖掘中的应用主要体现在以下几个方面: 1. 统计学与数据挖掘的关系:统计学是研究数据...

    数理统计.zip

    数理统计是一门重要的学科,主要研究如何收集、分析、解释和展示数据。在研究生课程中,这门学科通常会深入探讨概率论的基础,以及如何利用统计方法来理解和推断随机现象。本压缩包“数理统计.zip”包含了对这个主题...

    哈工大 研究生 《数理统计》课堂笔记

    4. 数据挖掘:数理统计可以用于数据挖掘,例如,机器学习、数据分析等。 五、数理统计的发展趋势 1. 大数据时代:大数据时代的到来使得数理统计面临着新的挑战和机遇。 2. 人工智能:人工智能的发展使得数理统计...

    数理统计课后题答案

    在数理统计中,参数估计和假设检验是非常重要的,因为它们可以帮助我们更好地理解数据并作出有根据的决策。 4. 解:变换和正态分布 在数理统计中,变换和正态分布是两个非常重要的概念。变换是指将数据从一个分布...

    数理统计茆诗松王静龙.pdf

    数理统计作为数学的一个分支,主要研究如何以概率为基础对数据进行分析、解释和展示。数理统计的基本概念包括总体、样本、统计量及其分布,它们是数理统计分析的核心要素。本篇文章将围绕上述内容展开详细的知识点...

    茆诗松 概率论与数理统计

    《茆诗松的概率论与数理统计》是一本系统介绍概率论与数理统计基本理论与方法的专业教材,由高等教育出版社出版。本书第二版在第一版的基础上进行了修订和补充,使之更适合教学和自学。书中内容涵盖了概率论与数理...

    数理统计大作业

    总的来说,这个数理统计大作业涵盖了数据处理的全过程,从数据收集到数据分析,再到模型建立和假设检验,体现了数理统计在实际问题解决中的核心作用。同时,它也展示了统计方法在自然语言处理中的应用,突显了统计学...

    天津大学概率论与数理统计习题解答.pdf

    根据提供的文件内容,我们可以提炼出以下概率论与数理统计相关的知识点: 1. 事件表示与集合运算:题目要求使用事件A、B、C来表示不同事件的组合。例如,三个事件同时发生的表示方法是ABC,表示“只有事件A发生”的...

    集美大学《概率论与数理统计》平时作业题答案与近几年考试试卷.pdf

    数理统计是概率论的一个应用领域,它利用概率论的基本原理来分析数据,从中提取有用的信息。数理统计主要包括参数估计、假设检验等内容,在科学研究、工程技术等领域有着广泛的应用。 ### 二、概率论基础 #### 2.1...

    数理统计(孙海燕)大作业

    数理统计大作业-鸢尾花数据集分析 数理统计大作业是对鸢尾花数据集进行的分析,采用了马氏距离、混合高斯模型、主成分分析、线性判别分析、刀切法等数理统计知识点。 1. 鸢尾花数据集 鸢尾花数据集是一类多重...

    冰雨数理统计器

    "冰雨数理统计器"是一款专为统计分析设计的软件工具,主要服务于那些需要进行大量数据处理和统计计算的用户。它集成了多种数理统计方法,可以帮助用户快速理解和解释数据,从而在科研、教育、商业等领域发挥重要作用...

    韦来生《数理统计》课后习题与答案

    数理统计是统计学的核心部分,它主要探讨随机现象的数量规律,通过对数据的收集、整理、分析和解释,来推断总体的性质和规律。在韦来生的《数理统计》中,概率论是基础,包括概率的基本概念、事件的关系与运算、条件...

    数理统计期末考试题及答案

    数理统计期末考试题及答案 本资源摘要信息涵盖了数理统计的多个方面,包括统计量、假设检验、参数估计、 confidence interval 等。通过对试题的解析,我们可以了解到数理统计的基本概念和方法,并且掌握解决实际...

    高等数理统计 南开大学王兆军

    ### 高等数理统计知识点概述 #### 一、概览 《高等数理统计》是一门由南开大学王兆军教授讲授的课程,该课程深入探讨了数理统计学中的高级理论与方法。根据提供的部分目录,我们可以看出这门课程涵盖了统计推断的...

    数理统计(第二版)赵选民,徐伟等

    该书从数理统计的基本概念和理论出发,系统地介绍了统计学的基本方法和相关理论知识,帮助读者掌握数据分析和统计推断的技术。 数理统计是应用数学的一个分支,它主要研究如何从不确定性中提取信息,并对数据进行...

Global site tag (gtag.js) - Google Analytics