`

Spark 读取文件中文乱码解决

 
阅读更多

当我们获取文本文件数据源是,直接使用如下代码会出现中文乱码问题

val txt = sc.textFile(rootPath+ "/4/*")

 解决方案:将文本先用数据流读进内存,转化成list,在转化成spark需要的格式。

 val files = Source.fromFile("i:\\1\\1.txt","gbk" ).toList
  val rddt = sc.parallelize(files)
  
  rddt.foreach { print }

 

 sc.hadoopFile(rootPath+ "/1/1.txt",classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map{
      pair =>  new String(pair._2.getBytes, 0, pair._2.getLength, "GBK")}

 

分享到:
评论

相关推荐

    北京市空气质量数据csv格式

    描述中的“中文乱码请在excel中数据选项下用csv格式打开”提示了在处理这个CSV文件时可能会遇到的常见问题——中文字符显示不正常。这可能是由于编码问题,CSV文件可能使用了特定的字符编码(如UTF-8),而在某些...

    FiletoTable.rar

    在大数据场景下,Hadoop的Hive或Spark SQL也可以实现类似功能,处理大规模文件数据。 在进行这样的转换时,需要注意数据清洗、格式匹配、错误处理等步骤,确保数据的准确性和一致性。此外,还需要考虑文件编码问题...

    藏经阁-第十二届 BigData NoSQL Meetup — 基于hbase的New sql落地实践.pdf

    1. **HBase**:HBase是一个分布式的、面向列的开源数据库,它是构建在Apache Hadoop文件系统(HDFS)之上的,用于大规模数据集(数十亿行,上百万列)的存储。HBase提供了实时读写能力,适合处理大规模半结构化数据...

    CSV

    确保正确读取文件的编码,以免出现乱码问题。 4. 首行:CSV文件的第一行通常是列名,但这不是强制性的。如果文件没有列名,那么数据的含义需要根据上下文来理解。 5. 数据类型:CSV文件自身不包含数据类型的定义,...

    ClickHouse.tar.gz

    点击“ClickHouse”这个文件名,可能是解压后包含了ClickHouse的安装文件、配置文件、示例数据或者相关的脚本和文档。为了部署和使用ClickHouse,需要按照官方文档或社区指南进行安装、配置、导入数据和编写查询语句...

    2020最新-05_第五阶段 大数据项目实战.txt

    根据提供的文件信息,我们可以推断出这是一份关于2020年最新的大数据项目实战教程。虽然提供的部分内容似乎包含了乱码以及一个百度网盘的链接,但为了更好地理解和阐述这份资料,我们将围绕“大数据项目实战”这一...

    mycat基本工具书

    关于Mycat中出现中文乱码的问题及解决办法。 ##### 10.27 Mycat无法登陆Access denied 探讨了Mycat无法登录时显示Access denied的可能原因及解决方案。 ##### 10.28 Mycat的分片数据插入报异常...

    大数据轻分析介绍.pdf

    部分内容展示了可能的数据结构和编码方式,虽然这部分看起来是乱码,但它可能代表了数据在存储或传输过程中的某种形式。在大数据分析中,数据的编码和格式转换是非常关键的步骤,确保数据能够被正确地读取和处理。 ...

    kettle_4.2.0基础教程

    Kettle 4.2.0不仅限于基本的ETL功能,还支持多种插件和扩展,能够与Hadoop、Spark等大数据平台无缝集成,提供更高级的数据处理和分析能力。此外,Kettle社区活跃,用户可以通过官方文档、论坛和技术支持获取丰富的...

    Beam

    它支持批处理和流处理,并且可以在多种计算引擎上运行,如Google Cloud Dataflow、Apache Flink、Apache Spark以及Apache Samza等。标题"Beam"很可能指的是这个框架,而描述中没有提供额外的信息,我们主要依赖标签...

Global site tag (gtag.js) - Google Analytics