`

Java实现数据统计的常用算法

 
阅读更多
package cn;


import java.util.Arrays;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;


public class DataStatisticsUtils {
    /**
     * 求和
     *
     * @param arr
     * @return
     */
    public static double getSum(double[] arr) {
        double sum = 0;
        for (double num : arr) {
            sum += num;
        }
        return sum;
    }

    /**
     * 求均值
     *
     * @param arr
     * @return
     */
    public static double getMean(double[] arr) {
        return getSum(arr) / arr.length;
    }

    /**
     * 求众数
     *
     * @param arr
     * @return
     */
    public static double getMode(double[] arr) {
        Map<Double, Integer> map = new HashMap<Double, Integer>();
        for (int i = 0; i < arr.length; i++) {
            if (map.containsKey(arr[i])) {
                map.put(arr[i], map.get(arr[i]) + 1);
            } else {
                map.put(arr[i], 1);
            }
        }
        int maxCount = 0;
        double mode = -1;
        Iterator<Double> iter = map.keySet().iterator();
        while (iter.hasNext()) {
            double num = iter.next();
            int count = map.get(num);
            if (count > maxCount) {
                maxCount = count;
                mode = num;
            }
        }
        return mode;
    }

    /**
     * 求中位数
     *
     * @param arr
     * @return
     */
    public static double getMedian(double[] arr) {
        double[] tempArr = Arrays.copyOf(arr, arr.length);
        Arrays.sort(tempArr);
        if (tempArr.length % 2 == 0) {
            return (tempArr[tempArr.length >> 1] + tempArr[(tempArr.length >> 1) - 1]) / 2;
        } else {
            return tempArr[(tempArr.length >> 1)];
        }
    }


    /**
     * 求中列数
     *
     * @param arr
     * @return
     */
    public static double getMidrange(double[] arr) {
        double max = arr[0], min = arr[0];
        for (int i = 0; i < arr.length; i++) {
            if (arr[i] > max) {
                max = arr[i];
            }
            if (arr[i] < min) {
                min = arr[i];
            }
        }
        return (min + max) / 2;
    }

    /**
     * 求四分位数
     *
     * @param arr
     * @return 存放三个四分位数的数组
     */
    public static double[] getQuartiles(double[] arr) {
        double[] tempArr = Arrays.copyOf(arr, arr.length);
        Arrays.sort(tempArr);
        double[] quartiles = new double[3];
        // 第二四分位数(中位数)
        quartiles[1] = getMedian(tempArr);
        // 求另外两个四分位数
        if (tempArr.length % 2 == 0) {
            quartiles[0] = getMedian(Arrays.copyOfRange(tempArr, 0, tempArr.length / 2));
            quartiles[2] = getMedian(Arrays.copyOfRange(tempArr, tempArr.length / 2, tempArr.length));
        } else {
            quartiles[0] = getMedian(Arrays.copyOfRange(tempArr, 0, tempArr.length / 2));
            quartiles[2] = getMedian(Arrays.copyOfRange(tempArr, tempArr.length / 2 + 1, tempArr.length));
        }
        return quartiles;
    }

    /**
     * 求极差
     *
     * @param arr
     * @return
     */
    public static double getRange(double[] arr) {
        double max = arr[0], min = arr[0];
        for (int i = 0; i < arr.length; i++) {
            if (arr[i] > max) {
                max = arr[i];
            }
            if (arr[i] < min) {
                min = arr[i];
            }
        }
        return max - min;
    }

    /**
     * 求四分位数极差
     *
     * @param arr
     * @return
     */
    public static double getQuartilesRange(double[] arr) {
        return getRange(getQuartiles(arr));
    }

    /**
     * 求截断均值
     *
     * @param arr 求值数组
     * @param p   截断量p,例如p的值为20,则截断20%(高10%,低10%)
     * @return
     */
    public static double getTrimmedMean(double[] arr, int p) {
        int tmp = arr.length * p / 100;
        double[] tempArr = Arrays.copyOfRange(arr, tmp, arr.length + 1 - tmp);
        return getMean(tempArr);
    }

    /**
     * 求方差
     *
     * @param arr
     * @return
     */
    public static double getVariance(double[] arr) {
        double variance = 0;
        double sum = 0, sum2 = 0;
        for (int i = 0; i < arr.length; i++) {
            sum += arr[i];
            sum2 += arr[i] * arr[i];
        }
        variance = sum2 / arr.length - (sum / arr.length) * (sum / arr.length);
        return variance;
    }

    /**
     * 求绝对平均偏差(AAD)
     *
     * @param arr
     * @return
     */
    public static double getAbsoluteAverageDeviation(double[] arr) {
        double sum = 0;
        double mean = getMean(arr);
        for (int i = 0; i < arr.length; i++) {
            sum += Math.abs(arr[i] - mean);
        }
        return sum / arr.length;
    }

    /**
     * 求中位数绝对偏差(MAD)
     *
     * @param arr
     * @return
     */
    public static double getMedianAbsoluteDeviation(double[] arr) {
        double[] tempArr = new double[arr.length];
        double median = getMedian(arr);
        for (int i = 0; i < arr.length; i++) {
            tempArr[i] = Math.abs(arr[i] - median);
        }
        return getMedian(tempArr);
    }

    /**
     * 求标准差
     * @param arr
     * @return
     */
    public static double getStandardDevition(double[] arr) {
        double sum = 0;
        double mean = getMean(arr);
        for (int i = 0; i < arr.length; i++) {
            sum += Math.sqrt((arr[i] - mean) * (arr[i] - mean));
        }
        return (sum / (arr.length - 1));
    }


}

 

package cn

import java.util.Arrays;


public class DataConversionUtils {

    /**
     * 最小-最大规范化
     *
     * @param arr
     * @return 规范化后的数组
     */
    public static double[] minMaxNormalize(double[] arr) {
        // 拷贝数组
        double[] tempArr = Arrays.copyOf(arr, arr.length);
        // 找到最大值和最小值
        double max = tempArr[0], min = tempArr[0];
        for (int i = 0; i < tempArr.length; i++) {
            if (tempArr[i] > max) {
                max = tempArr[i];
            }
            if (tempArr[i] < min) {
                min = tempArr[i];
            }
        }
        // 规范化
        for (int i = 0; i < tempArr.length; i++) {
            tempArr[i] = (tempArr[i] - min) / (max - min);
        }
        return tempArr;
    }


    /**
     * Z-score规范化
     * @param arr
     * @return 规范化后的数组
     */
    public static double[] zScoreNormalize(double[] arr) {
        // 拷贝数组
        double[] tempArr = Arrays.copyOf(arr, arr.length);
        // 求均值
        double sum = 0;
        for (double num : tempArr) {
            sum += num;
        }
        double mean = sum / tempArr.length;
        // 求标准差
        double sum2 = 0;
        for (int i = 0; i < tempArr.length; i++) {
            sum2 += Math.sqrt((tempArr[i] - mean) * (tempArr[i] - mean));
        }
        double standardDivition = sum2 / (tempArr.length - 1);
        // 标准化
        for (int i = 0; i < tempArr.length; i++) {
            tempArr[i] = (tempArr[i] - mean) / standardDivition;
        }
        return tempArr;

    }

    /**
     * 小数定标规范化
     * @param arr
     * @return 规范化后的数组
     */
    public static double[] decimalsNormalize(double[] arr){
        // 拷贝数组
        double[] tempArr = Arrays.copyOf(arr, arr.length);
        // 找到最大值
        double max = tempArr[0];
        for (int i = 0; i < tempArr.length; i++) {
            if (tempArr[i] > max) {
                max = tempArr[i];
            }
        }
        // 确定j的值(j为使max(|v'|)<1的最小整数)
        int j = 0;
        while (Math.abs(max/Math.pow(10,j))>=1){
            j++;
        }
        // 规范化
        for (int i = 0; i < tempArr.length; i++) {
            tempArr[i] = tempArr[i] / Math.pow(10,j);
        }
        return tempArr;

    }


}

 

分享到:
评论

相关推荐

    Java实现kNN算法

    总之,Java实现kNN算法涉及数据预处理、距离计算、最近邻搜索和预测等多个环节。在设计和优化算法时,需要考虑到性能、准确性和适用场景,确保算法在实际应用中的有效性。同时,理解kNN算法背后的理论基础,可以帮助...

    数据挖掘的java算法

    我们可以使用Weka库,这是一个强大的数据挖掘工具,包含了多种决策树算法实现,如J48(C4.5的Java实现)。 2. 随机森林:RandomForest类在Weka库中实现了随机森林算法,用于创建多个决策树并进行集成学习。 3. 支持...

    AlgorithmGossip 常用算法C/java实现

    它的算法实现通常更为简洁,运行速度快,但需要对内存管理有深入的理解。Java则是一种面向对象的、跨平台的语言,它的语法更加严谨,内存管理由垃圾回收机制自动处理,因此更注重代码的可读性和可维护性。在Java中...

    java 实现的中文分词算法(代码)

    在Java代码实现中,常用的数据结构有`HashMap`用于存储词典,`StringBuilder`用于拼接候选词语,`ArrayList`或`LinkedList`用于存储分词结果。同时,Java的字符串操作函数,如`substring()`和`indexOf()`,会在分词...

    这是java实现机器学习算法中的k近邻算法

    总结起来,这个Java实现的K近邻算法是一个基础但重要的机器学习工具,它能用于分类问题,并通过自定义距离度量和调整K值来适应不同的数据集和应用场景。在处理小规模数据集时,KNN算法效果良好,但在大规模数据集上...

    Java实现常用排序算法

    本文将深入探讨Java中实现的四种基本排序算法:插入排序、交换排序(包括快速排序和冒泡排序)、选择排序以及归并排序。虽然树形选择排序和堆排序在这次实现中未涵盖,但理解这四种排序算法的基本原理和Java实现方式...

    常用大数据量,海量数据处理方法,算法总结

    本文总结了常用的海量数据处理方法,包括 Bloom filter、Hashing 和 bit-map 等。这些方法可以用来解决大数据量的问题,例如数据字典、判重、集合求交集等问题。 Bloom Filter Bloom filter 是一种空间效率高、...

    Java 常用数值算法集

    以上仅是部分Java中常用的数值算法,实际的"Java 常用数值算法集"可能包含了更丰富的实现,包括更多复杂的算法和优化。通过这些算法,开发者可以解决各种实际问题,提高代码的科学计算能力。在使用时,应根据具体...

    期望最大化算法java数据挖掘算法源码

    期望最大化(Expectation Maximization, 简称EM)算法是一种在统计推断中常用的迭代方法,主要用于处理含有隐藏变量的概率模型的参数估计问题。它通过反复交替进行期望(E)步骤和最大化(M)步骤来逐步优化模型的...

    KNN算法实验报告【Java实现】.doc

    KNN算法实验报告【Java实现】 KNN算法是机器学习领域中一种常用的分类算法,它的主要思想是如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。...

    java常用算法手册

    《Java常用算法手册》是一本深入浅出的编程资源,主要涵盖了Java编程语言中的各种常见算法,对于学习和提升Java编程技巧以及理解算法思想具有重要价值。这份手册以实际可运行的代码为载体,使读者能够直观地看到算法...

    Kmeans文本聚类java实现

    在自然语言处理领域,文本聚类是一种常见的无监督学习方法,...总的来说,Java实现KMeans文本聚类涉及到数据预处理、向量化、聚类算法实现和性能优化等多个方面,理解这些知识点对于提升文本分析项目的效果至关重要。

    java常用数值算法

    这个"Java常用数值算法集"可能包含了以上提到的一些算法的实现,通过学习和研究这些代码,开发者不仅可以加深对数值算法的理解,还能提高解决问题的能力。记得在实际使用时,根据具体需求选择合适的算法和库,并优化...

    Java常用数值算法集

    "Java常用数值算法集"是针对Java编程者提供的一份宝贵的资源,它包含了各种常用的数值计算算法,对于提升Java开发者的算法理解和实现能力大有裨益。以下是一些可能涵盖在该集合中的重要知识点: 1. **线性代数运算*...

    ARIMA JAVA 实现

    在JAVA中实现ARIMA模型,可以为数据分析和预测提供强大的工具。 ARIMA模型的核心概念包括: 1. 自回归(AR):AR部分假设当前值依赖于过去的几个值,即Y_t = c + φ1Y_{t-1} + φ2Y_{t-2} + ... + φpY_{t-p} + ε...

    java 常用数值算法集b

    "Java 常用数值算法集b"可能包含了一系列实用的算法实现,用于解决各种数值计算问题。下面将详细探讨Java中的常见数值算法及其应用。 1. **线性代数运算**:包括矩阵的加减乘除、求逆、特征值、特征向量等。在Java...

Global site tag (gtag.js) - Google Analytics