`

维数 大家讨论下

阅读更多

我们现在来看由维数概念创造的世界。一个数学世界可以存在于一个点、一条线、一个平面、一个空间或一个超立方体(四维立方体)。每一个高维包含那些比它低的维,但是每一个低维本身就可以成为一个世界。设想你生活的世界是在一个平坦的面上。你不能向上或向下看。三维生物只要从上面或下面进入你的领域,就能够在你根本不知道的情况下侵犯你的世界。数学家、作家和艺术家曾经在他们的作品中运用各种不同思想试图捕捉不同维的本质。第三维以上的维一直在吸引着人们的兴趣。立方体是最早被用来通过变成超立方体而进入第四维的三维物体之一。左图显示了变成超立方体所经过的各个阶段。现在甚至已经设计出了一些计算机程序,可以利用超立方体各个面的三维透视图来一瞥第四维的视觉形象。

 

1
3
分享到:
评论
6 楼 ahuaxuan 2008-05-11  
数学中的第四维和爱因斯坦的第4维定义不太一样,老爱的第4维确实是时间
5 楼 beyondsanli 2008-05-10  
Cappuccino 一定有了很多的经验,多多指教呀!
4 楼 Cappuccino 2008-05-10  
呵呵,尤其是data mining或者自然语言处理因为需要考虑的方面很多,所以多维空间的模型用的很多。个人感觉尤其是自然语言方面,利用多维空间来进行分类之类的运算的时候相对简单一些,起码是一定程度上避免了利用基于概率计算的时候的零值平滑问题了 ~~
3 楼 beyondsanli 2008-05-10  
余弦定理和新闻的分类
2006年7月20日 上午 10:12:00

发表者:吴军,Google 研究员

余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。

Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似性。为了做到这一点,我们需要想办法用一组数字来描述一篇新闻。

我们来看看怎样找一组数字,或者说一个向量来描述一篇新闻。回忆一下我们在“如何度量网页相关性”一文中介绍的TF/IDF 的概念。对于一篇新闻中的所有实词,我们可以计算出它们的单文本词汇频率/逆文本频率值(TF/IDF)。不难想象,和新闻主题有关的那些实词频率高,TF/IDF 值很大。我们按照这些实词在词汇表的位置对它们的 TF/IDF 值排序。比如,词汇表有六万四千个词,分别为

单词编号 汉字词
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作

在一篇新闻中,这 64,000 个词的 TF/IDF 值分别为

单词编号 TF/IDF 值
==============
1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075


如果单词表中的某个次在新闻中没有出现,对应的值为零,那么这 64,000 个数,组成一个64,000维的向量。我们就用这个向量来代表这篇新闻,并成为新闻的特征向量。如果两篇新闻的特征向量相近,则对应的新闻内容相似,它们应当归在一类,反之亦然。

学过向量代数的人都知道,向量实际上是多维空间中有方向的线段。如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角了。

余弦定理对我们每个人都不陌生,它描述了三角形中任何一个夹角和三个边的关系,换句话说,给定三角形的三条边,我们可以用余弦定理求出三角形各个角的角度。假定三角形的三条边为 a, b 和 c,对应的三个角为 A, B 和 C,那么角 A 的余弦 --

[img]C:\Documents and Settings\new\My Documents\My Pictures\cos.PNG[/img]

如果我们将三角形的两边 b 和 c 看成是两个向量,那么上述公式等价于

[img]C:\Documents and Settings\new\My Documents\My Pictures\cosine-a-744082.PNG[/img]

其中分母表示两个向量 b 和 c 的长度,分子表示两个向量的内积。举一个具体的例子,假如新闻 X 和新闻 Y 对应向量分别是
x1,x2,...,x64000 和
y1,y2,...,y64000,
那么它们夹角的余弦等于,

[img]C:\Documents and Settings\new\My Documents\My Pictures\cos_theta-757119.PNG[/img]

当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。

[img]C:\Documents and Settings\new\My Documents\My Pictures\news-798354.PNG[/img]

我们在中学学习余弦定理时,恐怕很难想象它可以用来对新闻进行分类。在这里,我们再一次看到数学工具的用途。
2 楼 beyondsanli 2008-05-10  
科学普及:

   若一个本科学生大学阶段共修36门课程,成绩描述了学生的学业水平,把他的学业水平用一个向量来表示,这个向量是几维的?请大家再多举几例,说明向量的实际应用.

答:36维 如果我们还需要考察其它指标,比如平均成绩、总学分等,维数还将增加
1 楼 beyondsanli 2008-05-10  
三维空间加上时间轴就是思维空间

四维空间能见到鬼了。
  能见到从宇宙大爆炸到银河系行成,地球形成人类诞生等等各种历史事件,而且还会与各种不同维的“生物”擦肩而过却互相摸不到

相关推荐

    地球空间信息为大家——国际摄影测量与遥感学会第十九届大会技术总结.pdf

    会议讨论了三维建模方法、可视化技术以及层次细节结构(Level of Detail, LOD)模型的应用。 - **空间数据库管理**:空间数据管理的研究重点从单一矢量数据库转向了与影像和数字高程模型(Digital Elevation Model, ...

    Matlab最新的PSO工具包-psopt discription.txt

    nvars:粒子群维数 Aineq,bineq:线性不等式参数 Aineq*x Aeq,beq:线性等式参数 Aeq*x = beq LB,UB:应该是线性等式中x的上下限 nonlcon:非线性约束方程(需要说明的是,这个工具包只能处理软约束,硬约束...

    高等数学授课教案 用幻灯片做的 挺好的 和大家分享

    1. **平面点集与n维空间**:在平面中,点集可以用圆邻域表示,而在三维空间中则使用球邻域。同时,还提到了去心邻域的概念,即不包括中心点的邻域。 2. **多元函数的概念**:定义了在多个自变量下的函数形式。 3. **...

    FABmasterv8b3 大家一起用吧

    1. **三维建模**:允许用户创建、编辑和分析复杂的三维几何模型,以便于产品设计和原型制作。 2. **CAM集成**:与数控机床和其他生产设备相连接,将设计文件转换为可执行的加工代码。 3. **工艺规划**:帮助工程师...

    七年级数学下册第八章整式的乘法8.1同底数幂的乘法数学家杨辉的故事素材新版冀教版

    杨辉三角是杨辉的另一大发明,它是一个二维数组,每个数是它上面两个数的和。在现代数学中,杨辉三角与二项式定理紧密相关,每个数对应于二项式展开中系数的值。杨辉三角在组合数学、概率论和计算机科学等领域有广泛...

    yanghuisanjiao.rar_yanghuisanjiao

    杨辉三角,又称帕斯卡三角,是一个在数学中广泛使用的二维数组,其每一行的元素是由上一行的元素通过特定规则计算得出的,体现了组合数的性质。 【描述】:“用C++做的杨辉三角,欢迎大家交流,很好的一个”这段...

    ChatGPT与教育的未来

    ChatGPT火爆以来,其对教育理念和方式的冲击引起广泛讨论,似乎也让人看到了人工智能影响下未来教育的一些走向。虽然AI的教育影响似乎短期内并不是一个空间问题,但只有知道AI的边界和能力,才知道还能给实体空间...

    杨辉三角,N*N魔方阵等C语言的小程序例子

    首先,我们来讨论“杨辉三角”。杨辉三角,又称帕斯卡三角,是一个二维的数学术形,它的每一行都是一个等差数列,且每个数字是它上方两个数字的和。在C语言中实现杨辉三角,主要涉及数组的使用和循环控制。程序员...

    ACM模板——清华大学

    10. **网格**:讨论了二维和三维网格结构及其应用。 11. **圆**:包括圆的基本属性和相关计算。 12. **整数函数**:讨论了几何计算中可能用到的一些整数函数。 #### 二、组合数学 1. **组合公式**:列举了组合数学...

    数据结构与算法,希望对大家有所帮助

    学习数据结构与算法时,学生需要做到认真上课、独立完成作业和实验,并且在遇到困难时,可以通过参考其他资料或讨论来解决问题,但必须确保理解后独立完成。在实验环节,应提前规划解决方案,亲自编写程序,并避免...

    浙江省第6届 ACM大学生程序设计竞赛解题报告(作者:曹鹏)

    大家一起讨论吧…… F. 80er’s Memory:该题是简单题,直接用 set 查找即可。 G. Reforestation:该题是中等题。首先利用类似最短路的方法求出每棵树最终生长了多长时间,也就是最终树的半径。具体做法是,初始...

    妙鸭相机出圈启示录.docx

    现在,AI可以自我学习,三维重建,根据基础人像照片生成具有商业感的写真,值得尝试一下。这种新鲜感让用户感到“陌生”、“新奇”、“不常见”和“熟悉”,从而引起用户的兴趣和好奇。 其次,妙鸭相机也满足了用户...

    数据结构第七章-图,参考试题及其答案,用于大家学习参考

    在本章中,我们将讨论图的基本概念,存储结构,以及遍历算法。 1. 图的性质: - 图由顶点(节点)和边(连接)组成,可以是有向或无向。 - 在有向图中,每条边从一个顶点指向另一个顶点,而无向图的边没有方向。 ...

    Java算法实现杨辉三角的讲解

    if (i == 0 || j == 0 || j == x) { // 判断如果在每一行的第一个数或者最后一个数都赋值为 1(这个大家都能发现) arg[i][j] = 1; } else { arg[i][j] = arg[i - 1][j - 1] + arg[i - 1][j]; // 核心部分,相信...

    用C#编写的简单扫雷游戏

    【描述】"用C#编写的简单游戏扫雷,希望大家多多提提宝贵建议。给点帮助···"表明这是一个初级或中级开发者的作品,作者可能在寻求社区的反馈和帮助以改进游戏。扫雷游戏的实现涉及到了基本的UI设计,事件处理(如...

    华东师大C#课件内容详尽绝对值得下载

    5. "数组.ppt" 则专门讨论了C#中的数组,数组是存储同一类型数据集合的有效方式,学习者需要了解一维、二维数组,以及如何初始化和操作数组元素。 综合以上信息,这个压缩包提供了一个全面的C#学习路径,从基础概念...

    【会计实操经验】数据透视表计算时遇到的问题.pdf

    如果数据源是二维表,即包含多个列字段,那么默认情况下,数据透视表不会提供行总计的计算。要解决这个问题,有两种主要方法: a. 添加计算字段:在数据透视表中创建一个新的字段,用于对多列字段数据进行求和或其他...

    2048游戏开发(开源)

    例如,2048的棋盘通常为4x4的矩阵,每一步操作包括上、下、左、右滑动,以及随机在空位生成一个2或4的数字。在`2048.go`中,你需要实现这些基本功能,并处理游戏结束的判断条件,如棋盘满格且无法移动时游戏结束。 ...

Global site tag (gtag.js) - Google Analytics