聚类分析在股票_如何用MATLAB对股票数据做聚类分析

① 聚类分析的意义是什么

1、与多元分析的其他方法相比，聚类分析是很粗糙的，理论尚不完善，但由于它成功地应用于心理、经济、社会、管理、医学、地质、生态、地震、气象、考古、企业决策等，因此成了多元分析的重要方法，统计包中都有丰富的软件，对数据进行聚类处理。

2、聚类分析除了独立的统计功能外，还有一个辅助功能，就是和其他统计方法配合，对数据进行预处理。

例如，当总体不清楚时，可对原始数据进行聚类，根据聚类后相似的数据，各自建立回归分析，分析的效果会更好。同时如果聚类不是根据个案，而是对变量先进行聚类，聚类的结果，可以在每一类推出一个最有代表性的变量，从而减少了进入回归方程的变量数。

3、聚类分析是研究按一定特征，对研究对象进行分类的多元统计方法，它并不关心特征及变量间的因果关系。分类的结果，应使类别间个体差异大，而同类的个体差异相对要小。

(1)聚类分析在股票扩展阅读：

聚类效果的检验：

一、聚类分析后得到的每个类别是否可以进行有效的命名，每个类别的特征情况是否符合现实意义，如果研究者可以结合专业知识对每个聚类类别进行命名，即说明聚类效果良好，如果聚类类别无法进行命名，则需要考虑重新进行聚类分析。

二、使用判别分析方法进行判断，将SPSS生成的聚类类别变量作为因变量(Y)，而将聚类变量作为自变量(X)进行判别分析，判别分析具体分析聚类变量与类别之间投影关系情况，如果研究人员对聚类分析效果非常在乎，可以使用判别分析进行分析。

三、聚类分析方法的详细过程说明，描述清楚聚类分析的科学使用过程，科学的聚类分析方法使用即是良好结果的前提保障。

是、聚类分析后每个类别样本数量是否均匀，如果聚类结果显示为三个类别，有一个类别样本量非常少，比如低于30，此时很可能说明聚类效果较差。针对聚类效果的判断，研究者主要是结合专业知识判断，即聚类类别是否可以进行有效命名。

② 上证综指与地域板块的聚类分析如何分析

炒股扣扣群117986153
刚建的新群，希望大家都进来交流。没事的时候也可以在群里聊聊天，吹吹牛。

③ 如何运用聚类分析法

聚类分析法是理想的多变量统计技术，主要有分层聚类法和迭代聚类法。聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。

从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。
从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。
从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。
聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。
数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。

聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。
这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和
基于模型方法。
1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环
定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：
k-means,k-medoids,CLARA(Clustering LARge Application),
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上
而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合
并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：
第一个是;BIRCH(Balanced Iterative Recing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利
用其它聚类方法对这些聚类进行优化。
第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定
量（向聚类中心）进行收缩。
第三个是ROCK方法，它利用聚类间的连接进行聚类合并。
最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。
3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如
DBSCAN）不断增长聚类。典型的基于密度方法包括：
DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密
度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义
为一组“密度连接”的点集。
OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一
个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。
4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利
用网格结构完成聚类。
STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基
于网格聚类的方法。
CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方
法。
5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的
基于模型方法包括：
统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采
用符号量（属性-值）对来加以描述的。采用分类树的形式来创建
一个层次聚类。
CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚
类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利
用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）
和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。
因此它们都不适合对大数据库进行聚类处理.

④ 如何用MATLAB对股票数据做聚类分析

直接调kmeans函数。
k = 3;%类别数
idx = kmeans(X, k);%idx就是每个样本点的标号。

⑤ 一直搞不懂，什么情况下做聚类分析，求大神指点，最好有些简单的数据说明

聚类分析是在你需要对所有样本进行分类时使用
比如市场调查了我的所有客户基本信息消费行为特征等，然后根据这些数据我要对我的客户进行一下分类，找出我的客户主要有哪几类每类有什么共同特点等
之后就可以根据每类的特殊性做不同的活动

⑥ 聚类分析在股票板块中的应用急需此题论文！！

请先看看下面这教程，看能否找到你要的答案，不明再问我。。
www.fjmu.e.cn

⑦ 聚类分析方法有什么好处

聚类分析：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样本应该彼此相似，而属于不同组的样本应该足够不相似。
常用聚类方法：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。
注意事项：
1. 系统聚类法可对变量或者记录进行分类，K-均值法只能对记录进行分类；
2. K-均值法要求分析人员事先知道样品分为多少类；
3. 对变量的多元正态性，方差齐性等要求较高。
应用领域：细分市场，消费行为划分，设计抽样方案等
优点：聚类分析模型的优点就是直观，结论形式简明。
缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

⑧ 股票概念的聚类用什么模型

所有股票分析软件都有这个功能，输入想看概念板块，如煤炭输入MT小写就可以看到了

聚类分析在股票

与聚类分析在股票相关的内容