- 浏览: 373580 次
- 性别:
- 来自: 四川
文章分类
- 全部博客 (247)
- 数据库以及sql (11)
- java (48)
- 爬虫学习 (20)
- java编程 (28)
- python编程以及安装和配置 (27)
- oracle数据库 (32)
- mongodb基本操作 (4)
- linux学习 (7)
- easyUI (2)
- nodeJs (8)
- python学习 (16)
- 其他 (13)
- hadoop (1)
- svn (1)
- 汉字 (1)
- windows (2)
- jsp (5)
- fiddler (1)
- ETL (1)
- teamviewer (1)
- maven (4)
- GIT (2)
- datagrip (1)
- ocr (1)
- redis (3)
- mysql (3)
- linux (1)
- 数据服务 (0)
最新评论
--1.把自己的抓的数据存入和自己表结构一样的
sanya_result_test_all(总数据)
sanya_result_test_new(新增数据)
sanya_result_test_old(重复数据)
--运行importance类的java程序,根据mer_name(店铺名称)与NM_SHOP(shop_name)进行相似度比较
--判断出 重复数据和新增数据;分别导入sanya_result_test_new和sanya_result_test_old表中
--1.
--首先根据店铺名称和 NM_SITE_ENT(is_zt字段标记1 意为新增) 表中的ENT_NAME进行对比,
--如果该店铺在 NM_SITE_ENT 表中存在,则不需要向NM_SITE_ENT中插入数据,取出对应的site_ent_id,向nm_shop表中插入一条数据,
--shop_id(自动生成),site_ent_id,platform_code(平台),SHOP_NAME(店铺名称),SHOP_ADDRESS(店铺地址),Shop_URL(店铺URL),SHOP_CONTENT(店铺内容),HPL(总体评分),EV_NUM(评价总数),ADD_TIME(录入时间当前时间),LASTDATE(当前时间),BAD_EV_NUM(差评总数),IS_EV(是否评价,默认为0)
--2.如果店铺不在NM_SITE_ENT 中存在
--先生成一个site_ent_id,
--向NM_SITE_ENT 中插入一条数据
--ENT_NAME(主体名称,店铺名称),IS_ILLEGAL(是否合法,默认是0),ADD_TIME(添加日期默认当前),AREA(网站所属区域 100三亚,101陵水,102保亭,103乐东),MANAGER_ILLEGAL(判定结果默认 0),EST_DATE(成立日期),ZT_ADDRESS(地址),REGISTERED_CAPITA(注册资本),LEGAL_REPRESENTATIVE(法定代表人),ENTERPRISE_TYPE(企业类型),BUSINESS_SCOPE(经营范围),IS_ZT(状态 新增 为2)
--在向nm_shop中添加一条数据 site_ent_id 是刚才插入NM_SITE_ENT中的site_ent_id ,shop_id自动生成
--查询平台
select * from PUB_CODETABLE where codetable='sjly'
--添加中国通用网 和 悠哉旅游网 两个平台。
--3.如果下次插入数据 首先将NM_SITE_ENT 中的IS_ZT为2的更新为0(is_zt字段标记2 意为新增)
--NM_SITE_ENT表中的IS_ZT字段意义:2 是新增, 1是旧的, 0是不存在
--修改当前时间语句
update nm_site_ent t set t.add_time =sysdate where t.is_zt =2;
--2016-7-27
--(nm_shop表中插入的新数据)
SELECT * FROM nm_shop t WHERE 1=1 AND to_char(add_time,'YYYY-MM-DD HH12:MI:SS') like '%2016-07-27 11:43:00%';
--导入语句
--同一个数据库,同样的表结构导入数据
INSERT INTO nm_site_ent2 (SELECT * FROM nm_site_ent);
--创建相同的表
create table table_name1 as select * from table_name2
--1.可以通过导出.dmp文件导入数据
--2.也可以通过excel导出和导入注意code,单元格设置为文本类型,关联表NM_SHOP_TYPE()
1 酒店 100 1001
2 美食 106 10602
3 度假 104 10406
4 婚纱摄影 107 107
5 租车 105 10501
6 跟团游 104 10401
7 景点门票 109 109
--查询分类
select * from pub_codetable where codetable='big'
-----------------------
--注意:1默认在c:/用户/administer)
--exp sywj/sywj@ORCL file=nm_shop_good.dmp tables=(nm_shop_good)
--导入四张表
nm_shop 店铺表
nm_site_ent 主体表
nm_shop_type 店铺分类表
nm_evaluation 评论表
--关联查询子表count
--阶段统计 sql
select a.shop_id as 店铺编号,a.shop_name as 店铺名称,
a.platform_code as 平台编号,a.shop_address as 店铺地址 ,a.shop_url as url,
a.ev_num as 总评数量,a.bad_ev_num as 总差评数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='6') ) as 啊6到7月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='7')) as 啊6到7月差评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9') ) as 啊8到9月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9')) as 啊8到9月差评论数
from a_nm_shop_8_9 a
--截取日期
update a_nm_evaluation_8_9_kai_tm_2 set ev_time=replace(ev_time,substr(ev_time,8,1),'') where ev_time like '_______0%'
sanya_result_test_all(总数据)
sanya_result_test_new(新增数据)
sanya_result_test_old(重复数据)
--运行importance类的java程序,根据mer_name(店铺名称)与NM_SHOP(shop_name)进行相似度比较
--判断出 重复数据和新增数据;分别导入sanya_result_test_new和sanya_result_test_old表中
--1.
--首先根据店铺名称和 NM_SITE_ENT(is_zt字段标记1 意为新增) 表中的ENT_NAME进行对比,
--如果该店铺在 NM_SITE_ENT 表中存在,则不需要向NM_SITE_ENT中插入数据,取出对应的site_ent_id,向nm_shop表中插入一条数据,
--shop_id(自动生成),site_ent_id,platform_code(平台),SHOP_NAME(店铺名称),SHOP_ADDRESS(店铺地址),Shop_URL(店铺URL),SHOP_CONTENT(店铺内容),HPL(总体评分),EV_NUM(评价总数),ADD_TIME(录入时间当前时间),LASTDATE(当前时间),BAD_EV_NUM(差评总数),IS_EV(是否评价,默认为0)
--2.如果店铺不在NM_SITE_ENT 中存在
--先生成一个site_ent_id,
--向NM_SITE_ENT 中插入一条数据
--ENT_NAME(主体名称,店铺名称),IS_ILLEGAL(是否合法,默认是0),ADD_TIME(添加日期默认当前),AREA(网站所属区域 100三亚,101陵水,102保亭,103乐东),MANAGER_ILLEGAL(判定结果默认 0),EST_DATE(成立日期),ZT_ADDRESS(地址),REGISTERED_CAPITA(注册资本),LEGAL_REPRESENTATIVE(法定代表人),ENTERPRISE_TYPE(企业类型),BUSINESS_SCOPE(经营范围),IS_ZT(状态 新增 为2)
--在向nm_shop中添加一条数据 site_ent_id 是刚才插入NM_SITE_ENT中的site_ent_id ,shop_id自动生成
--查询平台
select * from PUB_CODETABLE where codetable='sjly'
--添加中国通用网 和 悠哉旅游网 两个平台。
--3.如果下次插入数据 首先将NM_SITE_ENT 中的IS_ZT为2的更新为0(is_zt字段标记2 意为新增)
--NM_SITE_ENT表中的IS_ZT字段意义:2 是新增, 1是旧的, 0是不存在
--修改当前时间语句
update nm_site_ent t set t.add_time =sysdate where t.is_zt =2;
--2016-7-27
--(nm_shop表中插入的新数据)
SELECT * FROM nm_shop t WHERE 1=1 AND to_char(add_time,'YYYY-MM-DD HH12:MI:SS') like '%2016-07-27 11:43:00%';
--导入语句
--同一个数据库,同样的表结构导入数据
INSERT INTO nm_site_ent2 (SELECT * FROM nm_site_ent);
--创建相同的表
create table table_name1 as select * from table_name2
--1.可以通过导出.dmp文件导入数据
--2.也可以通过excel导出和导入注意code,单元格设置为文本类型,关联表NM_SHOP_TYPE()
1 酒店 100 1001
2 美食 106 10602
3 度假 104 10406
4 婚纱摄影 107 107
5 租车 105 10501
6 跟团游 104 10401
7 景点门票 109 109
--查询分类
select * from pub_codetable where codetable='big'
-----------------------
--注意:1默认在c:/用户/administer)
--exp sywj/sywj@ORCL file=nm_shop_good.dmp tables=(nm_shop_good)
--导入四张表
nm_shop 店铺表
nm_site_ent 主体表
nm_shop_type 店铺分类表
nm_evaluation 评论表
--关联查询子表count
--阶段统计 sql
select a.shop_id as 店铺编号,a.shop_name as 店铺名称,
a.platform_code as 平台编号,a.shop_address as 店铺地址 ,a.shop_url as url,
a.ev_num as 总评数量,a.bad_ev_num as 总差评数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='6') ) as 啊6到7月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='7')) as 啊6到7月差评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9') ) as 啊8到9月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9')) as 啊8到9月差评论数
from a_nm_shop_8_9 a
--截取日期
update a_nm_evaluation_8_9_kai_tm_2 set ev_time=replace(ev_time,substr(ev_time,8,1),'') where ev_time like '_______0%'
发表评论
-
采集ymx商品信息
2018-08-29 15:28 524public static void main(String[ ... -
根据百度加密url, 获取真实url
2018-08-06 10:46 0public static void main(String[ ... -
fiddler 抓取 手机https 数据包 完美解决
2018-08-03 12:43 3048转:https://jingyan.baidu.com ... -
无忧代理IP
2018-07-30 16:19 0http://api.ip.data5u.com/dynami ... -
无所不能的四种请求方式(天下武功为怪不破)
2018-07-26 11:50 859package com.teamdev.jxbrowser.c ... -
post请求加json参数方式二
2018-07-24 14:02 2098package com.teamdev.jxbrowser.c ... -
post请求加json参数或xml参数
2018-07-20 18:21 1266import java.io.BufferedReader; ... -
jd编号
2017-11-02 17:59 541京东店铺:https://mall.jd.com/index- ... -
清除google缓存
2017-10-26 11:20 6891.进入 chrome://net-internals/#dn ... -
adb server is out of date. killing... 本地连接夜神模拟器失败、超时
2017-06-19 10:43 1516原因:1.模拟器器设置了代理;2.主要是模拟器和sdk 的ad ... -
fiddler抓取的https请求 数据乱码问题解决方案
2017-06-09 09:44 7287参考地址:http://blog.csdn.net/SomeO ... -
chromium.Browser 禁止加载图片,提升加载速度
2017-05-25 11:29 1205package com.teamdev.jxbrowser.c ... -
chrome 禁止加载网页图片 解决办法
2017-05-25 11:18 23531.在谷歌浏览器中输入:chrome://settings/c ... -
开源爬虫框架的优缺点?
2017-03-22 14:46 823开源爬虫框架各有什么优缺点? 作者:老夏 开发网络爬 ... -
反爬虫
2017-03-17 10:34 6941. 伪装user agent User agen ... -
爬虫被封禁原因
2017-03-17 09:37 1551爬虫被封禁常见原因 1. ... -
App数据抓取
2017-03-17 09:32 1106思路: 通过fiddler抓包 ... -
八爪鱼规则学习
2017-03-08 13:44 8551.八爪鱼采集器是任何一个需要从网页获取信息的人都必备的采集工 ... -
java模拟jquery请求动作(模拟点击、选择下拉)
2016-12-29 14:40 4082package com.teamdev.jxbrowser.c ... -
httpclient
2016-11-01 16:37 773package com.teamdev.jxbrowser.c ...
相关推荐
数理统计是利用概率论的方法处理数据,研究数据的收集、组织、分析、解释和呈现的科学。它主要包括以下几个方面: 1. **数据的描述性统计**:包括平均数(均值)、中位数、众数、方差、标准差等,用于度量数据的...
数理统计的主要目标是从数据中提取有用的信息,并基于这些信息做出科学合理的决策。 ### 数理统计的应用领域 数理统计广泛应用于各种领域,包括但不限于经济、金融、医学、生物学、工程、社会科学等。在这些领域中...
数理统计是数学的一个重要分支,它主要研究如何收集、分析、解释和呈现数据,以及在不确定情况下作出决策。在本教程中,我们将深入探讨数理统计的基本概念、方法和应用。 首先,我们要理解基本的概率论概念,这是...
数理统计是应用数学的一个重要分支,主要研究如何收集、分析、解释和展示数据,以帮助决策者在不确定环境中做出合理的推断。本压缩包文件“数理统计答案.zip”包含的是北航(北京航空航天大学)研究生阶段的数理统计...
数理统计是一门重要的数学学科,它涉及到概率论的基础理论,并将其应用于数据分析和推断。韦来生教授的教材在数理统计领域有着广泛的影响力,为学生和研究者提供了深入理解这一领域的基石。本压缩包文件包含了韦来生...
数据挖掘的过程中,会涉及到多种技术的应用,其中概率论与数理统计的原理与方法是其中不可缺少的一环。概率论与数理统计在数据挖掘中的应用主要体现在以下几个方面: 1. 统计学与数据挖掘的关系:统计学是研究数据...
数理统计是一门重要的学科,主要研究如何收集、分析、解释和展示数据。在研究生课程中,这门学科通常会深入探讨概率论的基础,以及如何利用统计方法来理解和推断随机现象。本压缩包“数理统计.zip”包含了对这个主题...
4. 数据挖掘:数理统计可以用于数据挖掘,例如,机器学习、数据分析等。 五、数理统计的发展趋势 1. 大数据时代:大数据时代的到来使得数理统计面临着新的挑战和机遇。 2. 人工智能:人工智能的发展使得数理统计...
在数理统计中,参数估计和假设检验是非常重要的,因为它们可以帮助我们更好地理解数据并作出有根据的决策。 4. 解:变换和正态分布 在数理统计中,变换和正态分布是两个非常重要的概念。变换是指将数据从一个分布...
数理统计作为数学的一个分支,主要研究如何以概率为基础对数据进行分析、解释和展示。数理统计的基本概念包括总体、样本、统计量及其分布,它们是数理统计分析的核心要素。本篇文章将围绕上述内容展开详细的知识点...
《茆诗松的概率论与数理统计》是一本系统介绍概率论与数理统计基本理论与方法的专业教材,由高等教育出版社出版。本书第二版在第一版的基础上进行了修订和补充,使之更适合教学和自学。书中内容涵盖了概率论与数理...
总的来说,这个数理统计大作业涵盖了数据处理的全过程,从数据收集到数据分析,再到模型建立和假设检验,体现了数理统计在实际问题解决中的核心作用。同时,它也展示了统计方法在自然语言处理中的应用,突显了统计学...
根据提供的文件内容,我们可以提炼出以下概率论与数理统计相关的知识点: 1. 事件表示与集合运算:题目要求使用事件A、B、C来表示不同事件的组合。例如,三个事件同时发生的表示方法是ABC,表示“只有事件A发生”的...
数理统计是概率论的一个应用领域,它利用概率论的基本原理来分析数据,从中提取有用的信息。数理统计主要包括参数估计、假设检验等内容,在科学研究、工程技术等领域有着广泛的应用。 ### 二、概率论基础 #### 2.1...
数理统计大作业-鸢尾花数据集分析 数理统计大作业是对鸢尾花数据集进行的分析,采用了马氏距离、混合高斯模型、主成分分析、线性判别分析、刀切法等数理统计知识点。 1. 鸢尾花数据集 鸢尾花数据集是一类多重...
"冰雨数理统计器"是一款专为统计分析设计的软件工具,主要服务于那些需要进行大量数据处理和统计计算的用户。它集成了多种数理统计方法,可以帮助用户快速理解和解释数据,从而在科研、教育、商业等领域发挥重要作用...
数理统计是统计学的核心部分,它主要探讨随机现象的数量规律,通过对数据的收集、整理、分析和解释,来推断总体的性质和规律。在韦来生的《数理统计》中,概率论是基础,包括概率的基本概念、事件的关系与运算、条件...
数理统计期末考试题及答案 本资源摘要信息涵盖了数理统计的多个方面,包括统计量、假设检验、参数估计、 confidence interval 等。通过对试题的解析,我们可以了解到数理统计的基本概念和方法,并且掌握解决实际...
### 高等数理统计知识点概述 #### 一、概览 《高等数理统计》是一门由南开大学王兆军教授讲授的课程,该课程深入探讨了数理统计学中的高级理论与方法。根据提供的部分目录,我们可以看出这门课程涵盖了统计推断的...
该书从数理统计的基本概念和理论出发,系统地介绍了统计学的基本方法和相关理论知识,帮助读者掌握数据分析和统计推断的技术。 数理统计是应用数学的一个分支,它主要研究如何从不确定性中提取信息,并对数据进行...