Spark 读取文件中文乱码解决 - 花开时节 - ITeye博客

`

see_you_again

浏览: 158324 次

最近访客更多访客>>

PROFANS

jxusthusiwen

baby孔祥超

御羽倾城

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

zhou9629：
spring redis 整合
see_you_again：回复一楼：我也只是初学
spark使用logback+slf4j 替换log4j+slf4j
wu_shao_jie：嗨，我在用spark-submit命令提交作业的时候，应用程序 ...
spark使用logback+slf4j 替换log4j+slf4j
zhangfc682：引用
Eclipse代码模板

Spark 读取文件中文乱码解决

博客分类：

Spark篇

阅读更多

当我们获取文本文件数据源是，直接使用如下代码会出现中文乱码问题

val txt = sc.textFile(rootPath+ "/4/*")

解决方案：将文本先用数据流读进内存，转化成list，在转化成spark需要的格式。

 val files = Source.fromFile("i:\\1\\1.txt","gbk" ).toList
  val rddt = sc.parallelize(files)
  
  rddt.foreach { print }

 sc.hadoopFile(rootPath+ "/1/1.txt",classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map{
      pair =>  new String(pair._2.getBytes, 0, pair._2.getLength, "GBK")}

分享到：

spark基本概念 | scala学习笔记5

2015-11-18 14:02
浏览 6802
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

北京市空气质量数据csv格式: 描述中的“中文乱码请在excel中数据选项下用csv格式打开”提示了在处理这个CSV文件时可能会遇到的常见问题——中文字符显示不正常。这可能是由于编码问题，CSV文件可能使用了特定的字符编码（如UTF-8），而在某些...

FiletoTable.rar: 在大数据场景下，Hadoop的Hive或Spark SQL也可以实现类似功能，处理大规模文件数据。在进行这样的转换时，需要注意数据清洗、格式匹配、错误处理等步骤，确保数据的准确性和一致性。此外，还需要考虑文件编码问题...

藏经阁-第十二届 BigData NoSQL Meetup — 基于hbase的New sql落地实践.pdf: 1. **HBase**：HBase是一个分布式的、面向列的开源数据库，它是构建在Apache Hadoop文件系统（HDFS）之上的，用于大规模数据集（数十亿行，上百万列）的存储。HBase提供了实时读写能力，适合处理大规模半结构化数据...

CSV: 确保正确读取文件的编码，以免出现乱码问题。 4. 首行：CSV文件的第一行通常是列名，但这不是强制性的。如果文件没有列名，那么数据的含义需要根据上下文来理解。 5. 数据类型：CSV文件自身不包含数据类型的定义，...

ClickHouse.tar.gz: 点击“ClickHouse”这个文件名，可能是解压后包含了ClickHouse的安装文件、配置文件、示例数据或者相关的脚本和文档。为了部署和使用ClickHouse，需要按照官方文档或社区指南进行安装、配置、导入数据和编写查询语句...

2020最新-05_第五阶段大数据项目实战.txt: 根据提供的文件信息，我们可以推断出这是一份关于2020年最新的大数据项目实战教程。虽然提供的部分内容似乎包含了乱码以及一个百度网盘的链接，但为了更好地理解和阐述这份资料，我们将围绕“大数据项目实战”这一...

mycat基本工具书: 关于Mycat中出现中文乱码的问题及解决办法。 ##### 10.27 Mycat无法登陆Access denied 探讨了Mycat无法登录时显示Access denied的可能原因及解决方案。 ##### 10.28 Mycat的分片数据插入报异常...

大数据轻分析介绍.pdf: 部分内容展示了可能的数据结构和编码方式，虽然这部分看起来是乱码，但它可能代表了数据在存储或传输过程中的某种形式。在大数据分析中，数据的编码和格式转换是非常关键的步骤，确保数据能够被正确地读取和处理。 ...

kettle_4.2.0基础教程: Kettle 4.2.0不仅限于基本的ETL功能，还支持多种插件和扩展，能够与Hadoop、Spark等大数据平台无缝集成，提供更高级的数据处理和分析能力。此外，Kettle社区活跃，用户可以通过官方文档、论坛和技术支持获取丰富的...

Beam: 它支持批处理和流处理，并且可以在多种计算引擎上运行，如Google Cloud Dataflow、Apache Flink、Apache Spark以及Apache Samza等。标题"Beam"很可能指的是这个框架，而描述中没有提供额外的信息，我们主要依赖标签...

Global site tag (gtag.js) - Google Analytics