- 浏览: 374586 次
- 性别:
- 来自: 四川
文章分类
- 全部博客 (247)
- 数据库以及sql (11)
- java (48)
- 爬虫学习 (20)
- java编程 (28)
- python编程以及安装和配置 (27)
- oracle数据库 (32)
- mongodb基本操作 (4)
- linux学习 (7)
- easyUI (2)
- nodeJs (8)
- python学习 (16)
- 其他 (13)
- hadoop (1)
- svn (1)
- 汉字 (1)
- windows (2)
- jsp (5)
- fiddler (1)
- ETL (1)
- teamviewer (1)
- maven (4)
- GIT (2)
- datagrip (1)
- ocr (1)
- redis (3)
- mysql (3)
- linux (1)
- 数据服务 (0)
最新评论
--1.把自己的抓的数据存入和自己表结构一样的
sanya_result_test_all(总数据)
sanya_result_test_new(新增数据)
sanya_result_test_old(重复数据)
--运行importance类的java程序,根据mer_name(店铺名称)与NM_SHOP(shop_name)进行相似度比较
--判断出 重复数据和新增数据;分别导入sanya_result_test_new和sanya_result_test_old表中
--1.
--首先根据店铺名称和 NM_SITE_ENT(is_zt字段标记1 意为新增) 表中的ENT_NAME进行对比,
--如果该店铺在 NM_SITE_ENT 表中存在,则不需要向NM_SITE_ENT中插入数据,取出对应的site_ent_id,向nm_shop表中插入一条数据,
--shop_id(自动生成),site_ent_id,platform_code(平台),SHOP_NAME(店铺名称),SHOP_ADDRESS(店铺地址),Shop_URL(店铺URL),SHOP_CONTENT(店铺内容),HPL(总体评分),EV_NUM(评价总数),ADD_TIME(录入时间当前时间),LASTDATE(当前时间),BAD_EV_NUM(差评总数),IS_EV(是否评价,默认为0)
--2.如果店铺不在NM_SITE_ENT 中存在
--先生成一个site_ent_id,
--向NM_SITE_ENT 中插入一条数据
--ENT_NAME(主体名称,店铺名称),IS_ILLEGAL(是否合法,默认是0),ADD_TIME(添加日期默认当前),AREA(网站所属区域 100三亚,101陵水,102保亭,103乐东),MANAGER_ILLEGAL(判定结果默认 0),EST_DATE(成立日期),ZT_ADDRESS(地址),REGISTERED_CAPITA(注册资本),LEGAL_REPRESENTATIVE(法定代表人),ENTERPRISE_TYPE(企业类型),BUSINESS_SCOPE(经营范围),IS_ZT(状态 新增 为2)
--在向nm_shop中添加一条数据 site_ent_id 是刚才插入NM_SITE_ENT中的site_ent_id ,shop_id自动生成
--查询平台
select * from PUB_CODETABLE where codetable='sjly'
--添加中国通用网 和 悠哉旅游网 两个平台。
--3.如果下次插入数据 首先将NM_SITE_ENT 中的IS_ZT为2的更新为0(is_zt字段标记2 意为新增)
--NM_SITE_ENT表中的IS_ZT字段意义:2 是新增, 1是旧的, 0是不存在
--修改当前时间语句
update nm_site_ent t set t.add_time =sysdate where t.is_zt =2;
--2016-7-27
--(nm_shop表中插入的新数据)
SELECT * FROM nm_shop t WHERE 1=1 AND to_char(add_time,'YYYY-MM-DD HH12:MI:SS') like '%2016-07-27 11:43:00%';
--导入语句
--同一个数据库,同样的表结构导入数据
INSERT INTO nm_site_ent2 (SELECT * FROM nm_site_ent);
--创建相同的表
create table table_name1 as select * from table_name2
--1.可以通过导出.dmp文件导入数据
--2.也可以通过excel导出和导入注意code,单元格设置为文本类型,关联表NM_SHOP_TYPE()
1 酒店 100 1001
2 美食 106 10602
3 度假 104 10406
4 婚纱摄影 107 107
5 租车 105 10501
6 跟团游 104 10401
7 景点门票 109 109
--查询分类
select * from pub_codetable where codetable='big'
-----------------------
--注意:1默认在c:/用户/administer)
--exp sywj/sywj@ORCL file=nm_shop_good.dmp tables=(nm_shop_good)
--导入四张表
nm_shop 店铺表
nm_site_ent 主体表
nm_shop_type 店铺分类表
nm_evaluation 评论表
--关联查询子表count
--阶段统计 sql
select a.shop_id as 店铺编号,a.shop_name as 店铺名称,
a.platform_code as 平台编号,a.shop_address as 店铺地址 ,a.shop_url as url,
a.ev_num as 总评数量,a.bad_ev_num as 总差评数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='6') ) as 啊6到7月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='7')) as 啊6到7月差评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9') ) as 啊8到9月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9')) as 啊8到9月差评论数
from a_nm_shop_8_9 a
--截取日期
update a_nm_evaluation_8_9_kai_tm_2 set ev_time=replace(ev_time,substr(ev_time,8,1),'') where ev_time like '_______0%'
sanya_result_test_all(总数据)
sanya_result_test_new(新增数据)
sanya_result_test_old(重复数据)
--运行importance类的java程序,根据mer_name(店铺名称)与NM_SHOP(shop_name)进行相似度比较
--判断出 重复数据和新增数据;分别导入sanya_result_test_new和sanya_result_test_old表中
--1.
--首先根据店铺名称和 NM_SITE_ENT(is_zt字段标记1 意为新增) 表中的ENT_NAME进行对比,
--如果该店铺在 NM_SITE_ENT 表中存在,则不需要向NM_SITE_ENT中插入数据,取出对应的site_ent_id,向nm_shop表中插入一条数据,
--shop_id(自动生成),site_ent_id,platform_code(平台),SHOP_NAME(店铺名称),SHOP_ADDRESS(店铺地址),Shop_URL(店铺URL),SHOP_CONTENT(店铺内容),HPL(总体评分),EV_NUM(评价总数),ADD_TIME(录入时间当前时间),LASTDATE(当前时间),BAD_EV_NUM(差评总数),IS_EV(是否评价,默认为0)
--2.如果店铺不在NM_SITE_ENT 中存在
--先生成一个site_ent_id,
--向NM_SITE_ENT 中插入一条数据
--ENT_NAME(主体名称,店铺名称),IS_ILLEGAL(是否合法,默认是0),ADD_TIME(添加日期默认当前),AREA(网站所属区域 100三亚,101陵水,102保亭,103乐东),MANAGER_ILLEGAL(判定结果默认 0),EST_DATE(成立日期),ZT_ADDRESS(地址),REGISTERED_CAPITA(注册资本),LEGAL_REPRESENTATIVE(法定代表人),ENTERPRISE_TYPE(企业类型),BUSINESS_SCOPE(经营范围),IS_ZT(状态 新增 为2)
--在向nm_shop中添加一条数据 site_ent_id 是刚才插入NM_SITE_ENT中的site_ent_id ,shop_id自动生成
--查询平台
select * from PUB_CODETABLE where codetable='sjly'
--添加中国通用网 和 悠哉旅游网 两个平台。
--3.如果下次插入数据 首先将NM_SITE_ENT 中的IS_ZT为2的更新为0(is_zt字段标记2 意为新增)
--NM_SITE_ENT表中的IS_ZT字段意义:2 是新增, 1是旧的, 0是不存在
--修改当前时间语句
update nm_site_ent t set t.add_time =sysdate where t.is_zt =2;
--2016-7-27
--(nm_shop表中插入的新数据)
SELECT * FROM nm_shop t WHERE 1=1 AND to_char(add_time,'YYYY-MM-DD HH12:MI:SS') like '%2016-07-27 11:43:00%';
--导入语句
--同一个数据库,同样的表结构导入数据
INSERT INTO nm_site_ent2 (SELECT * FROM nm_site_ent);
--创建相同的表
create table table_name1 as select * from table_name2
--1.可以通过导出.dmp文件导入数据
--2.也可以通过excel导出和导入注意code,单元格设置为文本类型,关联表NM_SHOP_TYPE()
1 酒店 100 1001
2 美食 106 10602
3 度假 104 10406
4 婚纱摄影 107 107
5 租车 105 10501
6 跟团游 104 10401
7 景点门票 109 109
--查询分类
select * from pub_codetable where codetable='big'
-----------------------
--注意:1默认在c:/用户/administer)
--exp sywj/sywj@ORCL file=nm_shop_good.dmp tables=(nm_shop_good)
--导入四张表
nm_shop 店铺表
nm_site_ent 主体表
nm_shop_type 店铺分类表
nm_evaluation 评论表
--关联查询子表count
--阶段统计 sql
select a.shop_id as 店铺编号,a.shop_name as 店铺名称,
a.platform_code as 平台编号,a.shop_address as 店铺地址 ,a.shop_url as url,
a.ev_num as 总评数量,a.bad_ev_num as 总差评数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='6') ) as 啊6到7月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='7')) as 啊6到7月差评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9') ) as 啊8到9月总评论数,
(select count(1) from z_nm_evaluation_totle6789 b where b.shop_id=a.shop_id and b.is_bad='1' and (substr(b.ev_time, 6, 1)='8' or substr(b.ev_time, 6, 1)='9')) as 啊8到9月差评论数
from a_nm_shop_8_9 a
--截取日期
update a_nm_evaluation_8_9_kai_tm_2 set ev_time=replace(ev_time,substr(ev_time,8,1),'') where ev_time like '_______0%'
发表评论
-
采集ymx商品信息
2018-08-29 15:28 524public static void main(String[ ... -
根据百度加密url, 获取真实url
2018-08-06 10:46 0public static void main(String[ ... -
fiddler 抓取 手机https 数据包 完美解决
2018-08-03 12:43 3053转:https://jingyan.baidu.com ... -
无忧代理IP
2018-07-30 16:19 0http://api.ip.data5u.com/dynami ... -
无所不能的四种请求方式(天下武功为怪不破)
2018-07-26 11:50 862package com.teamdev.jxbrowser.c ... -
post请求加json参数方式二
2018-07-24 14:02 2102package com.teamdev.jxbrowser.c ... -
post请求加json参数或xml参数
2018-07-20 18:21 1269import java.io.BufferedReader; ... -
jd编号
2017-11-02 17:59 548京东店铺:https://mall.jd.com/index- ... -
清除google缓存
2017-10-26 11:20 6911.进入 chrome://net-internals/#dn ... -
adb server is out of date. killing... 本地连接夜神模拟器失败、超时
2017-06-19 10:43 1518原因:1.模拟器器设置了代理;2.主要是模拟器和sdk 的ad ... -
fiddler抓取的https请求 数据乱码问题解决方案
2017-06-09 09:44 7288参考地址:http://blog.csdn.net/SomeO ... -
chromium.Browser 禁止加载图片,提升加载速度
2017-05-25 11:29 1207package com.teamdev.jxbrowser.c ... -
chrome 禁止加载网页图片 解决办法
2017-05-25 11:18 23541.在谷歌浏览器中输入:chrome://settings/c ... -
开源爬虫框架的优缺点?
2017-03-22 14:46 827开源爬虫框架各有什么优缺点? 作者:老夏 开发网络爬 ... -
反爬虫
2017-03-17 10:34 6961. 伪装user agent User agen ... -
爬虫被封禁原因
2017-03-17 09:37 1552爬虫被封禁常见原因 1. ... -
App数据抓取
2017-03-17 09:32 1110思路: 通过fiddler抓包 ... -
八爪鱼规则学习
2017-03-08 13:44 8561.八爪鱼采集器是任何一个需要从网页获取信息的人都必备的采集工 ... -
java模拟jquery请求动作(模拟点击、选择下拉)
2016-12-29 14:40 4087package com.teamdev.jxbrowser.c ... -
httpclient
2016-11-01 16:37 774package com.teamdev.jxbrowser.c ...
相关推荐
数理统计是利用概率论的方法处理数据,研究数据的收集、组织、分析、解释和呈现的科学。它主要包括以下几个方面: 1. **数据的描述性统计**:包括平均数(均值)、中位数、众数、方差、标准差等,用于度量数据的...
《数理统计与数据分析》是John A. Rice撰写的一本经典教材,主要涵盖了数理统计的基础理论和实际数据分析的应用。这本书对于深入理解统计学原理及其在数据处理中的应用具有极高的学习价值。以下是对该书内容的详细...
数理统计的主要目标是从数据中提取有用的信息,并基于这些信息做出科学合理的决策。 ### 数理统计的应用领域 数理统计广泛应用于各种领域,包括但不限于经济、金融、医学、生物学、工程、社会科学等。在这些领域中...
数理统计是数学的一个重要分支,它主要研究如何收集、分析、解释和呈现数据,以及在不确定情况下作出决策。在本教程中,我们将深入探讨数理统计的基本概念、方法和应用。 首先,我们要理解基本的概率论概念,这是...
数理统计是应用数学的一个重要分支,主要研究如何收集、分析、解释和展示数据,以帮助决策者在不确定环境中做出合理的推断。本压缩包文件“数理统计答案.zip”包含的是北航(北京航空航天大学)研究生阶段的数理统计...
数理统计是一门重要的数学学科,它涉及到概率论的基础理论,并将其应用于数据分析和推断。韦来生教授的教材在数理统计领域有着广泛的影响力,为学生和研究者提供了深入理解这一领域的基石。本压缩包文件包含了韦来生...
数据挖掘的过程中,会涉及到多种技术的应用,其中概率论与数理统计的原理与方法是其中不可缺少的一环。概率论与数理统计在数据挖掘中的应用主要体现在以下几个方面: 1. 统计学与数据挖掘的关系:统计学是研究数据...
数理统计是一门重要的学科,主要研究如何收集、分析、解释和展示数据。在研究生课程中,这门学科通常会深入探讨概率论的基础,以及如何利用统计方法来理解和推断随机现象。本压缩包“数理统计.zip”包含了对这个主题...
4. 数据挖掘:数理统计可以用于数据挖掘,例如,机器学习、数据分析等。 五、数理统计的发展趋势 1. 大数据时代:大数据时代的到来使得数理统计面临着新的挑战和机遇。 2. 人工智能:人工智能的发展使得数理统计...
在数理统计中,参数估计和假设检验是非常重要的,因为它们可以帮助我们更好地理解数据并作出有根据的决策。 4. 解:变换和正态分布 在数理统计中,变换和正态分布是两个非常重要的概念。变换是指将数据从一个分布...
数理统计作为数学的一个分支,主要研究如何以概率为基础对数据进行分析、解释和展示。数理统计的基本概念包括总体、样本、统计量及其分布,它们是数理统计分析的核心要素。本篇文章将围绕上述内容展开详细的知识点...
《茆诗松的概率论与数理统计》是一本系统介绍概率论与数理统计基本理论与方法的专业教材,由高等教育出版社出版。本书第二版在第一版的基础上进行了修订和补充,使之更适合教学和自学。书中内容涵盖了概率论与数理...
总的来说,这个数理统计大作业涵盖了数据处理的全过程,从数据收集到数据分析,再到模型建立和假设检验,体现了数理统计在实际问题解决中的核心作用。同时,它也展示了统计方法在自然语言处理中的应用,突显了统计学...
根据提供的文件内容,我们可以提炼出以下概率论与数理统计相关的知识点: 1. 事件表示与集合运算:题目要求使用事件A、B、C来表示不同事件的组合。例如,三个事件同时发生的表示方法是ABC,表示“只有事件A发生”的...
数理统计是概率论的一个应用领域,它利用概率论的基本原理来分析数据,从中提取有用的信息。数理统计主要包括参数估计、假设检验等内容,在科学研究、工程技术等领域有着广泛的应用。 ### 二、概率论基础 #### 2.1...
数理统计大作业-鸢尾花数据集分析 数理统计大作业是对鸢尾花数据集进行的分析,采用了马氏距离、混合高斯模型、主成分分析、线性判别分析、刀切法等数理统计知识点。 1. 鸢尾花数据集 鸢尾花数据集是一类多重...
"冰雨数理统计器"是一款专为统计分析设计的软件工具,主要服务于那些需要进行大量数据处理和统计计算的用户。它集成了多种数理统计方法,可以帮助用户快速理解和解释数据,从而在科研、教育、商业等领域发挥重要作用...
数理统计是统计学的核心部分,它主要探讨随机现象的数量规律,通过对数据的收集、整理、分析和解释,来推断总体的性质和规律。在韦来生的《数理统计》中,概率论是基础,包括概率的基本概念、事件的关系与运算、条件...
### 高等数理统计知识点概述 #### 一、概览 《高等数理统计》是一门由南开大学王兆军教授讲授的课程,该课程深入探讨了数理统计学中的高级理论与方法。根据提供的部分目录,我们可以看出这门课程涵盖了统计推断的...
数理统计期末考试题及答案 本资源摘要信息涵盖了数理统计的多个方面,包括统计量、假设检验、参数估计、 confidence interval 等。通过对试题的解析,我们可以了解到数理统计的基本概念和方法,并且掌握解决实际...