當前位置:首頁 » 行情解析 » 股票聚類分析r代碼
擴展閱讀
掛牌公司股票交易規則 2025-06-16 09:07:05
大疆香港股票代碼 2025-06-16 08:43:53

股票聚類分析r代碼

發布時間: 2021-04-30 10:29:35

Ⅰ R語言做聚類分析用統計量確定類的個數.有什麼代碼或者包嗎

聚類分析有兩種主要計算方法,分別是凝聚層次聚類(Agglomerative hierarchical method)和K均值聚類(K-Means)。
層次聚類又稱為系統聚類,首先要定義樣本之間的距離關系,距離較近的歸為一類,較遠的則屬於不同的類。可用於定義「距離」的統計量包括了歐氏距離 (euclidean)、馬氏距離(manhattan)、 兩項距離(binary)、明氏距離(minkowski)。還包括相關系數和夾角餘弦。 層次聚類首先將每個樣本單獨作為一類,然後將不同類之間距離最近的進行合並,合並後重新計算類間距離。這個過程一直持續到將所有樣本歸為一類為止。在計算類間距離時則有六種不同的方法,分別是最短距離法、最長距離法、類平均法、重心法、中間距離法、離差平方和法。 下面我們用iris數據集來進行聚類分析,在R語言中所用到的函數為hclust。
首先提取iris數據中的4個數值變數,然後計算其歐氏距離矩陣。然後將矩陣繪制熱圖,從圖中可以看到顏色越深表示樣本間距離越近,大致上可以區分出三到四個區塊,其樣本之間比較接近。 data=iris[,-5] dist.e=dist(data,method='euclidean') heatmap(as.matrix(dist.e),labRow = F, labCol = F) X 然後使用hclust函數建立聚類模型,結果存在model1變數中,其中ward參數是將類間距離計算方法設置為離差平方和法。

股票代碼前的字母R是什麼意思

R代表是融資融券的標的證券。
更多字母前綴的含義:
分紅類:
XR,表示該股已除權,購買這樣的股票後將不再享有分紅的權利;
DR,表示除權除息,購買這樣的股票不再享有送股派息的權利;
XD,表示股票除息,購買這樣的股票後將不再享有派息的權利。
其他類:
ST,這是對連續兩個會計年度都出現虧損的公司施行的特別處理。ST即為虧損股。
*ST,是連續三年虧損,有退市風險的意思,購買這樣的股票要有比較好的基本面分析能力。
N,新股上市首日的名稱前都會加一個字母N,即英文NEW的意思。
S*ST,指公司經營連續三年虧損,進行退市預警和還沒有完成股改。
SST,指公司經營連續二年虧損進行的特別處理和還沒有完成股改。
S,還沒有進行或完成股改的股票。
NST,經過重組或股改重新恢復上市的ST股。
PT,退市的股票。

Ⅲ 如何利用R軟體進行聚類分析

1. 數據預處理,
2. 為衡量數據點間的相似度定義一個距離函數,
3. 聚類或分組,
4. 評估輸出。

數據預處理包括選擇數量,類型和特徵的標度,它依靠特徵選擇和特徵抽取,特徵選擇選擇重要的特徵,特徵抽取把輸入的特徵轉化為一個新的顯著特徵,它們經常被用來獲取一個合適的特徵集來為避免「維數災」進行聚類,數據預處理還包括將孤立點移出數據,孤立點是不依附於一般數據行為或模型的數據,因此孤立點經常會導致有偏差的聚類結果,因此為了得到正確的聚類,我們必須將它們剔除。

既然相類似性是定義一個類的基礎,那麼不同數據之間在同一個特徵空間相似度的衡量對於聚類步驟是很重要的,由於特徵類型和特徵標度的多樣性,距離度量必須謹慎,它經常依賴於應用,例如,通常通過定義在特徵空間的距離度量來評估不同對象的相異性,很多距離度都應用在一些不同的領域,一個簡單的距離度量,如Euclidean距離,經常被用作反映不同數據間的相異性,一些有關相似性的度量,例如PMC和SMC,能夠被用來特徵化不同數據的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。

將數據對象分到不同的類中是一個很重要的步驟,數據基於不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個主要方法,劃分方法一般從初始劃分和最優化一個聚類標准開始。Crisp Clustering,它的每一個數據都屬於單獨的類;Fuzzy Clustering,它的每個數據可能在任何一個類中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個主要技術,劃分方法聚類是基於某個標准產生一個嵌套的劃分系列,它可以度量不同類之間的相似性或一個類的可分離性用來合並和分裂類,其他的聚類方法還包括基於密度的聚類,基於模型的聚類,基於網格的聚類。

評估聚類結果的質量是另一個重要的階段,聚類是一個無管理的程序,也沒有客觀的標准來評價聚類結果,它是通過一個類有效索引來評價,一般來說,幾何性質,包括類間的分離和類內部的耦合,一般都用來評價聚類結果的質量,類有效索引在決定類的數目時經常扮演了一個重要角色,類有效索引的最佳值被期望從真實的類數目中獲取,一個通常的決定類數目的方法是選擇一個特定的類有效索引的最佳值,這個索引能否真實的得出類的數目是判斷該索引是否有效的標准,很多已經存在的標准對於相互分離的類數據集合都能得出很好的結果,但是對於復雜的數據集,卻通常行不通,例如,對於交疊類的集合。

Ⅳ 股票代碼後面加R時什麼意思其他的字母呢

加R代表這個股票是融資融券標的意思。

ST,這是對連續兩個會計年度都出現虧損的公司施行的特別處理。ST即為虧損股。

*ST,是連續三年虧損,有退市風險的意思,購買這樣的股票要有比較好的基本面分析能力。

N,新股上市首日的名稱前都會加一個字母N,即英文NEW的意思。

S*ST,指公司經營連續三年虧損,進行退市預警和還沒有完成股改。

SST,指公司經營連續二年虧損進行的特別處理和還沒有完成股改。

S,還沒有進行或完成股改的股票。

NST,經過重組或股改重新恢復上市的ST股。

PT,退市的股票。

(4)股票聚類分析r代碼擴展閱讀:

交易時間

大多數股票的交易時間是:

交易時間4小時,分兩個時段,為:周一至周五上午9:30至11:30和下午13:00至15:00。

上午9:15開始,投資人就可以下單,委託價格限於前一個營業日收盤價的加減百分之十,即在當日的漲跌停板之間。9:25前委託的單子,在上午9:25時撮合,得出的價格便是所謂「開盤價」。9:25到9:30之間委託的單子,在9:30才開始處理。

如果你委託的價格無法在當個交易日成交的話,隔一個交易日則必須重新掛單。

休息日:周六、周日和上證所公告的休市日不交易。(一般為五一國際勞動節、十一國慶節、春節、元旦、清明節、端午節、中秋節等國家法定節假日)

Ⅳ 聚類分析可分為Q型聚類和R型聚類,請問Q和R這兩個字母的含義是什麼,為什麼叫Q和R而不叫其他的字母

在聚類分析中,通常將根據分類對象的不同分為Q型聚類分析和R型聚類分析兩大類。

R型聚類分析是對變數進行分類處理,Q型聚類分析是對樣本進行分類處理。

R型聚類分析的主要作用是:

1、不但可以了解個別變數之間的關系的親疏程度,而且可以了解各個變數組合之間的親疏程度。

2、根據變數的分類結果以及它們之間的關系,可以選擇主要變數進行回歸分析或Q型聚類分析。

Q型聚類分析的優點是:

1、可以綜合利用多個變數的信息對樣本進行分類;

2、分類結果是直觀的,聚類譜系圖非常清楚地表現其數值分類結果;

3、聚類分析所得到的結果比傳統分類方法更細致、全面、合理。

(5)股票聚類分析r代碼擴展閱讀:

Q型聚類把所有觀察對象按一定性質進行分類,使性質相近對象分在同一類,性質差異較大對象分到另一類。主要根據不同對象(如樣本)之間距離遠近(計算方法如歐幾里得距離等)進行區分,近者分為一類,遠者分成不同類。如把不同個體的人分成不同群體或類別,主要採用此聚類方法。

Ⅵ 如何利用matlab求r型聚類分析

本文重點是展示如何用Matlab來進行聚類分析。如果有需要解答的問題請留言,筆者會盡其所能地回答。

內容
展示如何使用MATLAB進行聚類分析
生成隨機二維分布圖形,三個中心
K均值聚類
分層聚類
重新調用K均值法
將分類的結果展示出來
運用高斯混合分布模型進行聚類分析
通過AIC准則尋找最優的分類數

展示如何使用MATLAB進行聚類分析
分別運用分層聚類、K均值聚類以及高斯混合模型來進行分析,然後比較三者的結果
生成隨機二維分布圖形,三個中心
% 使用高斯分布(正態分布)
% 隨機生成3個中心以及標准差
s = rng(5,'v5normal');
mu = round((rand(3,2)-0.5)*19)+1;
sigma = round(rand(3,2)*40)/10+1;
X = [mvnrnd(mu(1,:),sigma(1,:),200); ...
mvnrnd(mu(2,:),sigma(2,:),300); ...
mvnrnd(mu(3,:),sigma(3,:),400)];
% 作圖
P1 = figure;clf;
scatter(X(:,1),X(:,2),10,'ro');
title('研究樣本散點分布圖')

K均值聚類
% 距離用傳統歐式距離,分成兩類
[cidx2,cmeans2,sumd2,D2] = kmeans(X,2,'dist','sqEuclidean');
P2 = figure;clf;
[silh2,h2] = silhouette(X,cidx2,'sqeuclidean');
從輪廓圖上面看,第二類結果比較好,但是第一類有部分數據表現不佳。有相當部分的點落在0.8以下。

分層聚類

eucD = pdist(X,'euclidean');
clustTreeEuc = linkage(eucD,'average');
cophenet(clustTreeEuc,eucD);
P3 = figure;clf;
[h,nodes] = dendrogram(clustTreeEuc,20);
set(gca,'TickDir','out','TickLength',[.002 0],'XTickLabel',[]);

可以選擇dendrogram顯示的結點數目,這里選擇20 。結果顯示可能可以分成三類

重新調用K均值法
改為分成三類
[cidx3,cmeans3,sumd3,D3] = kmeans(X,3,'dist','sqEuclidean');
P4 = figure;clf;
[silh3,h3] = silhouette(X,cidx3,'sqeuclidean');

圖上看,比前面的結果略有改善。

將分類的結果展示出來
P5 = figure;clf
ptsymb = {'bo','ro','go',',mo','c+'};
MarkFace = {[0 0 1],[.8 0 0],[0 .5 0]};
hold on
for i =1:3
clust = find(cidx3 == i);
plot(X(clust,1),X(clust,2),ptsymb{i},'MarkerSize',3,'MarkerFace',MarkFace{i},'MarkerEdgeColor','black');
plot(cmeans3(i,1),cmeans3(i,2),ptsymb{i},'MarkerSize',10,'MarkerFace',MarkFace{i});
end
hold off

運用高斯混合分布模型進行聚類分析
分別用分布圖、熱能圖和概率圖展示結果 等高線

% 等高線
options = statset('Display','off');
gm = gmdistribution.fit(X,3,'Options',options);
P6 = figure;clf
scatter(X(:,1),X(:,2),10,'ro');
hold on
ezcontour(@(x,y) pdf(gm,[x,y]),[-15 15],[-15 10]);
hold off
P7 = figure;clf
scatter(X(:,1),X(:,2),10,'ro');
hold on
ezsurf(@(x,y) pdf(gm,[x,y]),[-15 15],[-15 10]);
hold off
view(33,24)

熱能圖
cluster1 = (cidx3 == 1);
cluster3 = (cidx3 == 2);
% 通過觀察,K均值方法的第二類是gm的第三類
cluster2 = (cidx3 == 3);
% 計算分類概率
P = posterior(gm,X);
P8 = figure;clf
plot3(X(cluster1,1),X(cluster1,2),P(cluster1,1),'r.')
grid on;hold on
plot3(X(cluster2,1),X(cluster2,2),P(cluster2,2),'bo')
plot3(X(cluster3,1),X(cluster3,2),P(cluster3,3),'g*')
legend('第 1 類','第 2 類','第 3 類','Location','NW')
clrmap = jet(80); colormap(clrmap(9:72,:))
ylabel(colorbar,'Component 1 Posterior Probability')
view(-45,20);
% 第三類點部分概率值較低,可能需要其他數據來進行分析。

% 概率圖
P9 = figure;clf
[~,order] = sort(P(:,1));
plot(1:size(X,1),P(order,1),'r-',1:size(X,1),P(order,2),'b-',1:size(X,1),P(order,3),'y-');
legend({'Cluster 1 Score' 'Cluster 2 Score' 'Cluster 3 Score'},'location','NW');
ylabel('Cluster Membership Score');
xlabel('Point Ranking');

通過AIC准則尋找最優的分類數
高斯混合模型法的最大好處是給出分類好壞的標准
AIC = zeros(1,4);
NlogL = AIC;
GM = cell(1,4);
for k = 1:4
GM{k} = gmdistribution.fit(X,k);
AIC(k)= GM{k}.AIC;
NlogL(k) = GM{k}.NlogL;
end
[minAIC,numComponents] = min(AIC);
按AIC准則給出的最優分類數為: 3 對應的AIC值為: 8647.63

後記
(1)pluskid指出K均值演算法的初值對結果很重要,但是在運行時還沒有發現類似的結果。也許Mathworks對該演算法進行過優化。有時間會仔細研究下代碼,將結果放上來。
轉載僅供參考,版權屬於原作者

Ⅶ 如何利用r語言代碼進行聚類分析

#讀入數據
china <- read.table("F:\\2008年我國其中31個省、市和自治區的農村居民家庭平均每人全年消費性支出.txt",header=TRUE)
distance <- dist(china) #計算距離
china.hc <- hclust(distance) #聚類分析,最長距離法
plot(china.hc, hang = -1) #繪畫系譜圖
re <- rect.hclust(china.hc, k = 5) #分為5類

re
for (i in 1:5) {
print(paste("第",i,"類"))
print(china[re[[i]],]$地區)

Ⅷ 股票中R,S,L字母各代表什麼意思

股票名字前面「L」是指「聯」,也就是指關聯品種,是指該股可能有B股、H股,或者是債券、權證什麼的。
股票名字前的字母含義:
指數名字前的「G」是指「貢」字,也就是「貢獻」的意思。你點一下可以看見所有股票對該指數的漲跌貢獻度。
股票名字前面「L」是指「聯」,也就是指關聯品種,是指該股可能有B股、H股,或者是債券、權證什麼的。
股票名稱中的英文含義:
分紅類:
XR,Exclud Right的縮寫。表示該股已除權,購買這樣的股票後將不再享有分紅的權利; (這個符號在第二個交易日會自動消失,恢復成正常名稱)
DR,Dividend Right的縮寫。表示除權除息,購買這樣的股票不再享有送股派息的權利; (這個符號在第二個交易日會自動消失,恢復成正常名稱)
XD,ex (without) dividend的縮寫。表示股票除息,購買這樣的股票後將不再享有派息的權利。 (這個符號在第二個交易日會自動消失,恢復成正常名稱)
其他類:
ST,這是對連續兩個會計年度都出現虧損的公司施行的特別處理。ST即為虧損股。
*ST,是連續三年虧損,有退市風險的意思,購買這樣的股票要有比較好的基本面分析能力。
N,新股上市首日的名稱前都會加一個字母N,即英文NEW的意思;另外股改、重組、增發後復牌第一天也有字母N進行區別。(這個符號在第二個交易日會自動消失,恢復成正常名稱)
S*ST,指公司經營連續三年虧損,進行退市預警和還沒有完成股改。
SST,指公司經營連續二年虧損進行的特別處里和還沒有完成股改。
S,指還沒有進行或完成股改的股票。
NST,經過重組或股改重新恢復上市的ST股。
股票名字前面「L」是指「聯」,也就是指關聯品種,是指該股可能有B股、H股,或者是債券、權證什麼的。
股票名字前的字母含義:
指數名字前的「G」是指「貢」字,也就是「貢獻」的意思。你點一下可以看見所有股票對該指數的漲跌貢獻度。
股票名字前面「L」是指「聯」,也就是指關聯品種,是指該股可能有B股、H股,或者是債券、權證什麼的。
股票名稱中的英文含義:
分紅類:
XR,Exclud Right的縮寫。表示該股已除權,購買這樣的股票後將不再享有分紅的權利; (這個符號在第二個交易日會自動消失,恢復成正常名稱)
DR,Dividend Right的縮寫。表示除權除息,購買這樣的股票不再享有送股派息的權利; (這個符號在第二個交易日會自動消失,恢復成正常名稱)
XD,ex (without) dividend的縮寫。表示股票除息,購買這樣的股票後將不再享有派息的權利。 (這個符號在第二個交易日會自動消失,恢復成正常名稱)
其他類:
ST,這是對連續兩個會計年度都出現虧損的公司施行的特別處理。ST即為虧損股。
*ST,是連續三年虧損,有退市風險的意思,購買這樣的股票要有比較好的基本面分析能力。
N,新股上市首日的名稱前都會加一個字母N,即英文NEW的意思;另外股改、重組、增發後復牌第一天也有字母N進行區別。(這個符號在第二個交易日會自動消失,恢復成正常名稱)
S*ST,指公司經營連續三年虧損,進行退市預警和還沒有完成股改。
SST,指公司經營連續二年虧損進行的特別處里和還沒有完成股改。
S,指還沒有進行或完成股改的股票。
NST,經過重組或股改重新恢復上市的ST股。
股票名字前面「L」是指「聯」,也就是指關聯品種,是指該股可能有B股、H股,或者是債券、權證什麼的。
股票名字前的字母含義:
指數名字前的「G」是指「貢」字,也就是「貢獻」的意思。你點一下可以看見所有股票對該指數的漲跌貢獻度。
股票名字前面「L」是指「聯」,也就是指關聯品種,是指該股可能有B股、H股,或者是債券、權證什麼的。
股票名稱中的英文含義:
分紅類:
XR,Exclud Right的縮寫。表示該股已除權,購買這樣的股票後將不再享有分紅的權利; (這個符號在第二個交易日會自動消失,恢復成正常名稱)
DR,Dividend Right的縮寫。表示除權除息,購買這樣的股票不再享有送股派息的權利; (這個符號在第二個交易日會自動消失,恢復成正常名稱)
XD,ex (without) dividend的縮寫。表示股票除息,購買這樣的股票後將不再享有派息的權利。 (這個符號在第二個交易日會自動消失,恢復成正常名稱)
其他類:
ST,這是對連續兩個會計年度都出現虧損的公司施行的特別處理。ST即為虧損股。
*ST,是連續三年虧損,有退市風險的意思,購買這樣的股票要有比較好的基本面分析能力。
N,新股上市首日的名稱前都會加一個字母N,即英文NEW的意思;另外股改、重組、增發後復牌第一天也有字母N進行區別。(這個符號在第二個交易日會自動消失,恢復成正常名稱)
S*ST,指公司經營連續三年虧損,進行退市預警和還沒有完成股改。
SST,指公司經營連續二年虧損進行的特別處里和還沒有完成股改。
S,指還沒有進行或完成股改的股票。
NST,經過重組或股改重新恢復上市的ST股。
*號,指這只股票當天有提示或者公告,你在分時走勢圖上找到這個小星星,點擊它就會出現提示的內容.

Ⅸ 誰知道R/S分析的程序代碼

cls;
load data[3089, 2] = lunwen\99201.txt;@讀入數據@
datr = data[2:3089, 2]:

@計算個數@
obv = (int((rows(datr)-1)/100)*100)+2;
print obv;

@通計算對數回報率@
datn = (ln(datr[2:obvl./datr[l:obv-1]));
obv = obv-1;

@計算AR(1)@
yi = datn[2:obv];
xi = datn[l:obv-1];
xi2 = xi^2;
ybar = meanc(yi);
xbar = meanc(xi);
xly = yi.*xi;
sxx = obv*sumc(xi2) - (sumc(xi))_2;
sxy = obv*(sumc(xly)) - sumc(xi)*sumc(yi):
slope = sxy/sxx; const = ybar-slope*xbar;
datx = datn[2:obv] - (const + slope*datn[l:obv-1]):
clear datn; obv = rows(datx);

@計算R/S值@
I = 4;
do while i<obv-1;
i = i+l; n = floor(obv/i); num = (obv/i):
if n<num:
goto repeat;
endif;
x1 = reshape(datx, n, i);
mu = meanc(xl);
xl = xl - mu;
sig = stdc (xl);
sum = cumsumc(xl);
max = maxc(sum); min = minc(sum):
r=max-min;
rs=r/sig;
a=log(meanc(rs)); b=log(i);
c=a^b^i;
?c;
repeat:endo;