n = int(input())
import numpy as np
from sklearn.cluster import KMeans
c1=np.array([0,0])
c2=np.array([2,2])
# print(c1,c2)
X = []
X1 = []
X2 = []
for i in range(n):
X=([float(x) for x in input().split()])
X0=np.array(X)
if np.linalg.norm(X0-c1)<=np.linalg.norm(X0-c2):
X1.append(X)
else:
X2.append(X)
# print(X1)
d1=np.array(X1)
# print(X2)
d2=np.array(X2)
if not d1.any():
print('None')
else:
print(np.around(np.mean(d1,axis=0),2))
# print(np.array(X1))
if not d2.any():
print('None')
else:
print(np.around(np.mean(d2,axis=0),2))
# print(X2)
===============
Data Science - Pandas Pandas Pandas
Finding the next centroid
Unsupervised learning algorithm clustering involves updating the centroid of each cluster. Here we find the next centroids for given data points and initial centroids.
Task
Assume that there are two clusters among the given two-dimensional data points and two random points (0, 0), and (2, 2) are the initial cluster centroids. Calculate the euclidean distance between each data point and each of the centroid, assign each data point to its nearest centroid, then calculate the new centroid. If there's a tie, assign the data point to the cluster with centroid (0, 0). If none of the data points were assigned to the given centroid, return None.
Input Format
First line: an integer to indicate the number of data points (n)
Next n lines: two numeric values per each line to represent a data point in two dimensional space.
Output Format
Two lists for two centroids. Numbers are rounded to the second decimal place.
Sample Input
3
1 0
0 .5
4 0
Sample Output
[0.5 0.25]
[4. 0.]
Explanation
There are 3 data points and we would like to identify two clusters among them. Initial centroids are given (0, 0), and (2, 2). The distances between the first data point (1, 0) and each of the centroids are 1.0 and 2.24, rounded to the second decimal place. The first data point is closter to (0, 0), thus assigned the 0-th cluster. Similarly data point (0, .5) is closer to (0, 0) than to (2, 2), also assigned to the 0th cluster; while (4, 0) is closter to (2, 2), thus assigned to the 1st cluster. To calculate the new centroids, take the mean of all data points in the 0-th and 1st cluster, respectively. Hence the results are [0.5 0.25] and [4. 0.].
相关推荐
在“Data-Science-Notes-master”目录下,可能有各种教程文档、代码实例和练习,帮助你逐步深入数据科学的世界。无论你是希望提升自己的技能,还是刚接触这个领域,这个资源都将是一个宝贵的起点。
数据科学工具包 "data-science-tools" 是一个Python库,版本为0.1.1,可以从PyPI(Python Package Index)官方网站下载。PyPI是Python社区最常用的软件包仓库,提供了一个平台,使得开发者可以发布自己的Python模块...
pandas: Reading and Writing Data....Pages 103-130 pandas in Depth: Data Manipulation....Pages 131-165 Data Visualization with matplotlib....Pages 167-235 Machine Learning with scikit-learn....Pages ...
"data science"标签揭示了本书的主题,即数据科学。数据科学是一门综合性的学科,结合了统计学、计算机科学和领域知识,目的是从数据中提取洞察。这包括数据获取、预处理、模型训练、评估和解释。本书通过实例代码,...
《Introducing Data Science - Big Data, Machine Learning and more, using Python》这本书是对数据科学领域中的大数据、机器学习以及其他相关知识点使用Python工具进行讲解的入门教材。作者Davy Cielen、Arnold B....
DataScience-Notebooks:数据科学笔记本的集合
在这个"Algorithm-data-science-masters.zip"压缩包中,我们聚焦于算法在数据科学中的应用,这是一个全面的自学计划,旨在帮助学习者掌握如何通过算法解决复杂的数据问题。 首先,算法是数据科学的核心组成部分,...
2. Pandas:构建和操作数据结构(DataFrame)的库,非常适合数据清洗和预处理。 3. Matplotlib和Seaborn:用于数据可视化的库,可生成各种高质量图表。 4. Jupyter Notebook:交互式环境,方便编写和展示代码结果。 ...
在这个“chen_jia_zhi-data-science-homework-master.rar”压缩包中,我们找到了一份与疫情相关的数据科学大作业,这无疑是针对毕业生们的一份极具挑战性的实践项目。这份作业不仅能够提升学生们的编程技能,更能让...
本压缩包"**data-science-byFLW-master.zip**"似乎是一个关于数据科学的学习资源或项目,由用户"FLW"创建。从名称推测,这可能是一个GitHub仓库的归档,包含了"FLW"关于数据科学的教程、代码示例或者项目实践。 ...
这个压缩包“IBM-Data-Science-Professional-Certificate-源码.rar”包含了实现这些概念和技术的源代码,是学习和深入理解IBM数据科学课程的重要资源。 一、数据科学基础 源码中可能包含的数据科学基础知识包括数据...
在这个"IBM-Data-Science-Professional-Certificate-Capstone-Project-源码"压缩包中,你将找到完成此类项目所需的源代码。这个项目可能是基于Python的,因为Python是数据科学领域最常用的语言之一,具有丰富的库和...
"data-science-notebooks: Jupyter笔记本的集合" 提供了一个丰富的资源库,为学习和实践数据科学提供了便利。 Jupyter Notebook是一个基于Web的交互式计算环境,它允许用户将代码、解释性文本、数学方程和可视化...
NumPy,pandas和Matplotlib的Mypy类型存根 :warning: 这个项目基本上已经停止...正在安装您可以从PyPI获取此软件包: pip install data-science-types 要获取最新版本,请直接从GitHub安装: pip install git+https://g
完全扩展和升级,最新版本的Python Data Science Essentials将帮助您使用最常见的Python库在数据科学操作中取得成功。本书提供了对Python核心的最新见解,包括最新版本的Jupyter Notebook,NumPy,pandas和scikit-...
With the knowledge you gain from this book, you will quickly learn pandas and how it can empower you in the exciting world of data manipulation, analysis and science. What you will learn Understand ...
`gspread-pandas` 是一个Python库,专为简化数据科学家和工程师的工作流程而设计,它将Google Sheets与流行的Pandas库无缝连接起来。通过这个软件包,用户可以轻松地读取、写入和操作存储在Google Sheets中的数据,...
在这个"Data-science-notebook"项目中,我们关注的是数据科学在金融科技(FinTech)领域的应用。 金融科技,或简称FinTech,是指利用最新科技手段改造和创新金融服务的行业。它涵盖了支付系统、投资管理、风险管理...
《Python-For-DataScience-机器学习-Bootcamp-Udemy》是Udemy平台上的一个数据科学和机器学习的Python训练课程,由Jose Portilla主讲。该课程旨在为学员提供全面的Python编程和数据分析技能,特别是针对数据科学和...