- 浏览: 45898 次
最新评论
作者 | 前嗅
来源 | 前嗅大数据(www.forenose.com)
为什么要编码?
大家可以先思考个问题:
计算机是如何表示我们人类能够理解的符号的,也就是我们人类使用的语言。
人类的语言有太多了,因而表示这些语言的符号太多。
我们无法用计算机中一个基本的存储单元—— byte 来表示。
因而必须要经过拆分或一些翻译工作,才能让计算机能理解。
我们可以把计算机能够理解的语言假定为英语,其它语言要能够在计算机中使用必须经过一次翻译,把它翻译成英语。
这个翻译的过程就是编码。
所以可以想象只要不是说英语的国家要能够使用计算机就必须要经过编码。
常见的编码有以下几种:
1. Unicode(Unicode Character Set)
Unicode包含除键盘以外的编码是Unicode,又称统一码、万国码、单一码、标准万国码。
Unicode在js、json里出现的比较多。
其格式为:\u+4位字符串\
例如:\u4e2d\ \u4e2d\
2. ASCII
美国信息交换标准代码,标准ASCII 码也叫基础ASCII码。
使用7位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0—9、标点符号以及在美式英语中使用的特殊控制字符。
3. URL编码
URL编码原理是使用安全的字符(没有特殊用途或者特殊意义的可打印字符)去表示那些不安全的字符。
可以避免Url中有些字符会引起歧义。
URI编码就是一个字符的ASCII码,它的ACSII码的十六进制式,在前面加上"%",就是它的URL编码。
例如:"/"的ASCII码是92,92的十六进制是5c, 所以"/"的URI编码就是 %5c
"胡"的ASCII码是-17670, 它的十六进制是BAFA, 所以它的URI编码就是 "%BA%FA"
4. Native编码
每个国家都有自己的Native编码,中国的是GBK(Chinese Internal Code Specification)。
GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位。
GBK编码共收录了21003个汉字,完全兼容GB2312-80标准,支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。
5. hex编码
Hex编码的原理就是将原来8位的二进制字节打断,分成两个4位的,并且在前面加上4个零,进行补位。
这样一个8位二进制字节就变成了2个8位的二进制字节,再将新得到的2个二进制字符,进行16位进制转换,得到的新的16位字符串就是Hex的值。
所以二进制的[72, 69, 88]与hex的484558是相等的。
例如:中国——E4B8ADE59BBD
6. BASE64编码
Base64要求把每三个8Bit的字节转换为四个6Bit的字节(3*8 = 4*6 = 24),然后把6Bit再添两位高位0,组成四个8Bit的字节。
也就是说,转换后的字符串理论上将要比原来的长1/3。
作者简介
前嗅,企业级大数据供应商,多年来致力于大数据技术研究与开发,自主研发了一套数据采集、挖掘、清洗、分析及可视化的数据处理系统,拥有上万家企业用户。热衷于为大家解决各种数据问题,服务号“前嗅”,微博“@前嗅大数据”,欢迎关注。
发表评论
-
从零学爬虫:采集房天下二手房信息
2021-06-09 14:35 1166l 采集网站 【场景描述】采集房天下最新二手房信息。 【 ... -
建网站/APP最全准备攻略
2020-12-16 17:37 335作者 | 前嗅 来源 | ... -
前嗅教你大数据:常见的网站反爬策略与解决方案
2020-11-27 14:10 305作者 | 前嗅 ... -
如何在ForeSpider数据采集器中设置代理IP
2020-11-24 17:21 427作者 | 前嗅 来源 | 前 ... -
前嗅教你大数据——史上最全代理IP服务商对比
2020-11-20 15:40 4作者 | 前嗅 来源 | 前嗅大数据(http://w ... -
钱嗅教你大数据——什么是代理IP?
2020-11-19 12:30 13作者 | 前嗅 来 ... -
看完之后,不要再说不懂代理IP了!
2020-11-13 16:38 9你是否还在为找不到合 ... -
看完之后,不要再说不懂代理IP了!
2020-11-13 15:14 9看完之后,不要再说不懂代理IP了! 你是否还在为找不到合 ... -
了解爬虫,这一篇就够了!
2020-10-26 16:46 0爬虫的基本原理是基于 ... -
前嗅ForeSpider采集教程:通过关键词的【检索列表】采集【检索结果】
2020-01-13 14:17 328以百度搜索关键词(http://www.baidu.com) ... -
前嗅大数据—ForeSpider教你如何采集【列表数据】
2020-01-09 14:47 529以采集起点中文小说网中(https://www.qidian ... -
前嗅forespider教程:关键词采集【检索结果】
2019-12-16 14:36 2257如何采集关键词检索结 ... -
ForeSpider采集教程:如何采集网页中附件数据
2019-12-11 14:59 544一. 网站内容 1. 网站截图说明 本教程通过“山西招投 ... -
ForeSpider采集教程:如何采集图片及链接地址
2019-12-11 14:56 481一. 网站结构 1. 网站截图说明 采集昵图网某页面中所 ... -
ForeSpider采集教程发布(论坛类):零基础轻松获取数据
2019-12-10 14:00 313本篇以360问答论坛为例: 一.网站结构 1.网站截图说 ... -
ForeSpider采集教程发布(表格类):零基础轻松获取数据
2019-12-10 13:57 344本篇以孔夫子旧书网为例: 一.网站结构 1.网站截图说明 ... -
爬虫软件真的可以获取隐私数据?真相只有一个
2019-09-24 18:22 0随着网络安全实 ... -
前嗅,做你的专属技术合伙人
2019-05-31 10:02 1<div class="iteye-blog ... -
如何用大数据在5分钟内完成一份行业报告,以果酒行业为例
2019-05-17 11:04 416果酒发展到今天,已经逐渐形成了其市场氛围,除葡萄酒仍旧占据主 ... -
如何用大数据在5分钟内完成一份行业报告,以果酒行业为例
2019-05-15 11:00 4果酒发展到今天,已经逐渐形成了其市场氛围,除葡萄酒仍旧占据主 ...
相关推荐
掘金大数据:电信数据金矿详解、挖掘及应用.docx
理解大数据:数字时代的数据与隐私2021.pdf
大数据:从海量到精准
本书名为《玩转大数据:商业分析+运营推广+营销技巧+实战案例》,由海天电商金融研究中心编著,由清华大学出版社出版,发布于2016年。它是一本关于大数据在商业活动中应用的实战宝典,为读者提供了多个行业的实战...
2021理解大数据:数字时代的数据和隐私
DRG+大数据:双重驱动下的医院精细化运营.pdf
大数据:战略●技术●实践
大数据:技术前沿
数据的广泛使用,引发了人们对三个问题的思考:如何在大数据时代保护个人隐私?数据应该归谁所有,以及该如何分配数据使用产生的福利和风险?大数据应用在多大程度上会带来“赢者通吃”的现象,从而阻止竞争,损害...
"大数据:技术与应用实践指南" 大数据是当前最为热门的信息技术应用领域,本书《大数据:技术与应用实践指南(第2版)》是电子工业出版社于2016年3月出版的图书,作者赵刚。本书从浅入深,概述了大数据的发展背景、...
深入理解大数据:大数据处理与编程实践
大数据:驱动数字经济发展的强大引擎.pdf
大数据:技术与应用实践指南
大数据:战略●技术●实践
《区块链与大数据:打造智能经济》
美修大数据:2022母婴洗护品类洞察报告(2).pdf
留学大数据:《中国留学发展报告(2016)》.doc
《决战大数据:驾驭未来商业的利器》这本书深入探讨了大数据在现代商业中的核心地位和重要影响,揭示了如何利用大数据来驱动企业的战略决策和竞争优势。大数据不仅是一个技术概念,更是一种全新的思维方式,它正在...
寻路大数据:海量数据与大规模分析
税收大数据:理论、应用与局限.pptx