使用过滤器
过滤器是转换的一部份并为你保留你数据集的一部份给定了一个领域特定语言。过滤器可以是单一条件的一个内衬,也可以包括复杂的布尔逻辑。
TransformProcess tp = new TransformProcess.Builder(inputDataSchema)
.filter(new ConditionFilter(new CategoricalColumnCondition("MerchantCountryCode", ConditionOp.NotInSet, new HashSet<>(Arrays.asList("USA","CAN")))))
.build();
你也可以通过实现接Filter口来写自己的过滤器,尽管在更多的时候你想要创建一个定制的条件来替代。
可用的过滤器
ConditionFilter 条件过滤器
如果条件满足返回true:移除实例或序列
如果条件不满足返回false:保留实例或序列
removeExample
public boolean removeExample(Object writables)
- 参数writables是实例
- 如果实例应该被移除返回true,保留则返回false。
removeSequence
public boolean removeSequence(Object sequence)
- 参数sequence是序列实例
- 如果实例应该被移除返回true,保留则返回false。
transform
public Schema transform(Schema inputSchema)
给定一个输入概要,得到此转换的输出概要
- 参数 inputSchema
outputColumnName
public String outputColumnName()
运算应用后的输出列名
- 返回输出列名
columnName
public String columnName()
输出列名,这通常与输入列名一样。
- 返回输出列名
Filter
过滤器: 按一些条件移除实例(或序列)
FilterInvalidValues 过滤无效值
一个过滤操作,如果在任何一个指定的列集合中实例/序列包括无效的值,操作会移除任意的实例(或序列)。无效的值由概要决定。
transform
public Schema transform(Schema inputSchema)
- 参数 columnsToFilterIfInvalid 用于检查无效值的列
removeExample
public boolean removeExample(Object writables)
- 参数writables 是实例
- 如果实例应该被移除返回true,保留则返回false。
removeSequence
public boolean removeSequence(Object sequence)
- 参数sequence是序列实例
- 如果实例应该被移除返回true,保留则返回false。
outputColumnName
public String outputColumnName()
运算应用后的输出列名
- 返回这个输出列名
columnName
public String columnName()
输出列名,这通常与输入列名一样。
- 返回输出列名
InvalidNumColumns
移除一定数量的无效列
removeExample
public boolean removeExample(Object writables)
- 参数writables 是实例
- 如果实例应该被移除返回true,保留则返回false。
removeSequence
public boolean removeSequence(Object sequence)
- 参数sequence是序列实例
- 如果实例应该被移除返回true,保留则返回false。
removeExample
public boolean removeExample(List<Writable> writables)
- 参数writables 是实例
- 如果实例应该被移除返回true,保留则返回false。
removeSequence
public boolean removeSequence(List<List<Writable>> sequence)
- 参数sequence是序列实例
- 如果实例应该被移除返回true,保留则返回false。
transform
public Schema transform(Schema inputSchema)
给定一个输入概要,得到此转换的输出概要
- 参数 inputSchema
outputColumnName
public String outputColumnName()
运算应用后的输出列名
- 返回这个输出列名
columnName
public String columnName()
输出列名,这通常与输入列名一样。
- 返回输出列名
有任何问题请联系微信
如果您觉得我的文章给了您帮助,请为我买一杯饮料吧!以下是我的支付宝,意思一下我将非常感激!
相关推荐
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
数据载体DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0...
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
- **数据预处理**:DataVec是DL4J的一部分,专门用于数据清洗和转换,如归一化、标准化等。 3. **DL4J Spark**: - **分布式训练**:DL4J与Apache Spark结合,可以在大规模分布式环境中进行深度学习,利用Spark的...
(DL4J)生态系统是一组项目,旨在满足基于JVM的深度学习应用程序的所有需求。 这意味着从原始数据开始,从任何位置以任何格式加载和预处理原始数据,以构建和调整各种简单和复杂的深度学习网络。...
2. **datavec-hadoop-0.9.1.jar**:Datavec是DL4J的一部分,它是一个数据采集和转换工具,此版本支持Hadoop,允许大规模分布式数据处理,适合处理大型数据集。 3. **deeplearning4j-zoo-0.9.1.jar**:DL4J Zoo提供...
基于java+深度学习开发的农作物病虫害识别+APP软件+源码+项目解析+数据+模型训练+数据库,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于java+深度学习开发的...
- **特征提取**: 通过特征提取器将原始数据转换为模型可以处理的格式。 #### 实例分析 本部分将通过一个具体的例子来展示如何使用DL4J进行深度学习项目开发。例如,使用DL4J构建一个简单的图像分类模型: 1. **...
dl4j-examples-0.9.1.jar 深度学习示例,其中包括: •deeplearning4j-core,包含神经网络实现方法 •nd4j-native-platform,ND4J库的CPU版本,驱动DL4J •datavec-api - Datavec是我们的数据向量化和加载库
作者通过使用DL4J、ND4J和DataVec等Java生态系统中的关键库,为读者提供了一条在实际项目中应用深度学习的清晰路径。 深度学习是机器学习的一个子领域,它借鉴了人脑神经网络的结构,通过构建多层的非线性模型来...
Deeplearning4j 提供了多种预定义的网络结构,如卷积神经网络(CNN)、循环神经网络(RNN)以及多层感知器(MLP)。你可以根据具体任务选择合适的网络结构,并通过调整超参数来优化模型性能。这通常包括学习率、批...
for i in range(len(dataVec) - 3): # 非数值特征 for j in range(numList[i]): if dataVec[i] == featureDic[features[i]][j]: newData.append(j + 1) ``` 这段代码首先遍历每条记录中的非数值特征,然后查找该...