大数据股票分析模型_股票诊断工具一般使用什么模型

㈠股票的估值模型越复杂,引用的大数据越多,获得的估值结果就越精确

股票估值的变量很多，从原理上说，引用的数据越多，估值结果就越精确。但是引用的每一个数据都不是准确的，所以引用再多的数据也是没用的。

㈡如何用大数据炒股

我们如今生活在一个数据爆炸的世界里。网络每天响应超过60亿次的搜索请求，日处理数据超过100PB，相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外，暗藏着无数大公司的信息存储中心，24小时夜以继日地运转着。
克托·迈尔-舍恩伯格在《大数据时代》一书中认为，大数据的核心就是预测，即只要数据丰富到一定程度，就可预测事情发生的可能性。例如，“从一个人乱穿马路时行进的轨迹和速度来看他能及时穿过马路的可能性”，或者通过一个人穿过马路的速度，预测车子何时应该减速从而让他及时穿过马路。

那么，如果把这种预测能力应用在股票投资上，又会如何？

目前，美国已经有许多对冲基金采用大数据技术进行投资，并且收获甚丰。中国的中证广发网络百发100指数基金（下称百发100），上线四个多月以来已上涨68%。

和传统量化投资类似，大数据投资也是依靠模型，但模型里的数据变量几何倍地增加了，在原有的金融结构化数据基础上，增加了社交言论、地理信息、卫星监测等非结构化数据，并且将这些非结构化数据进行量化，从而让模型可以吸收。

由于大数据模型对成本要求极高，业内人士认为，大数据将成为共享平台化的服务，数据和技术相当于食材和锅，基金经理和分析师可以通过平台制作自己的策略。

量化非结构数据

不要小看大数据的本领，正是这项刚刚兴起的技术已经创造了无数“未卜先知”的奇迹。

2014年，网络用大数据技术预测命中了全国18卷中12卷高考作文题目，被网友称为“神预测”。网络公司人士表示，在这个大数据池中，包含互联网积累的用户数据、历年的命题数据以及教育机构对出题方向作出的判断。

在2014年巴西世界杯比赛中，Google亦通过大数据技术成功预测了16强和8强名单。

从当年英格兰报社的信鸽、费城股票交易所的信号灯到报纸电话，再到如今的互联网、云计算、大数据，前沿技术迅速在投资领域落地。在股票策略中，大数据日益崭露头角。

做股票投资策略，需要的大数据可以分为结构化数据和非结构化数据。结构化数据，简单说就是“一堆数字”，通常包括传统量化分析中常用的CPI、PMI、市值、交易量等专业信息；非结构化数据就是社交文字、地理位置、用户行为等“还没有进行量化的信息”。

量化非结构化就是用深度模型替代简单线性模型的过程，其中所涉及的技术包括自然语言处理、语音识别、图像识别等。

金融大数据平台-通联数据CEO王政表示，通联数据采用的非结构化数据可以分为三类：第一类和人相关，包括社交言论、消费、去过的地点等；第二类与物相关，如通过正在行驶的船只和货车判断物联网情况；第三类则是卫星监测的环境信息，包括汽车流、港口装载量、新的建筑开工等情况。

卫星监测信息在美国已被投入使用，2014年Google斥资5亿美元收购了卫星公司Skybox，从而可以获得实施卫星监测信息。

结构化和非结构化数据也常常相互转化。“结构化和非结构化数据可以形象理解成把所有数据装在一个篮子里，根据应用策略不同相互转化。例如，在搜索频率调查中，用户搜索就是结构化数据；在金融策略分析中，用户搜索就是非结构化数据。”网络公司人士表示。

华尔街拿着丰厚薪水的分析师们还不知道，自己的雇主已经将大量资本投向了取代自己的机器。
2014年11月23日，高盛向Kensho公司投资1500万美元，以支持该公司的大数据平台建设。该平台很像iPhone里的Siri，可以快速整合海量数据进行分析，并且回答投资者提出的各种金融问题，例如“下月有飓风，将对美国建材板块造成什么影响？”

在Kensho处理的信息中，有80%是“非结构化”数据，例如政策文件、自然事件、地理环境、科技创新等。这类信息通常是电脑和模型难以消化的。因此，Kensho的CEO Daniel Nadler认为，华尔街过去是基于20%的信息做出100%的决策。

既然说到高盛，顺便提一下，这家华尔街老牌投行如今对大数据可谓青睐有加。除了Kensho，高盛还和Fortress信贷集团在两年前投资了8000万美元给小额融资平台On Deck Capital。这家公司的核心竞争力也是大数据，它利用大数据对中小企业进行分析，从而选出值得投资的企业并以很快的速度为之提供短期贷款。

捕捉市场情绪

上述诸多非结构化数据，归根结底是为了获得一个信息：市场情绪。

在采访中，2013年诺贝尔经济学奖得主罗伯特•席勒的观点被无数采访对象引述。可以说，大数据策略投资的创业者们无一不是席勒的信奉者。

席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中，主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为，市场本身带有主观判断因素，投资者情绪会影响投资行为，而投资行为直接影响资产价格。
然而，在大数据技术诞生之前，市场情绪始终无法进行量化。

回顾人类股票投资发展史，其实就是将影响股价的因子不断量化的过程。

上世纪70年代以前，股票投资是一种定性的分析，没有数据应用，而是一门主观的艺术。随着电脑的普及，很多人开始研究驱动股价变化的规律，把传统基本面研究方法用模型代替，市盈率、市净率的概念诞生，量化投资由此兴起。

量化投资技术的兴起也带动了一批华尔街大鳄的诞生。例如，巴克莱全球投资者（BGI）在上世纪70年代就以其超越同行的电脑模型成为全球最大的基金管理公司；进入80年代，另一家基金公司文艺复兴（Renaissance）年均回报率在扣除管理费和投资收益分成等费用后仍高达34%，堪称当时最佳的对冲基金，之后十多年该基金资产亦十分稳定。

“从主观判断到量化投资，是从艺术转为科学的过程。”王政表示，上世纪70年代以前一个基本面研究员只能关注20只到50只股票，覆盖面很有限。有了量化模型就可以覆盖所有股票，这就是一个大的飞跃。此外，随着计算机处理能力的发展，信息的用量也有一个飞跃变化。过去看三个指标就够了，现在看的指标越来越多，做出的预测越来越准确。

随着21世纪的到来，量化投资又遇到了新的瓶颈，就是同质化竞争。各家机构的量化模型越来越趋同，导致投资结果同涨同跌。“能否在看到报表数据之前，用更大的数据寻找规律？”这是大数据策略创业者们试图解决的问题。

于是，量化投资的多米诺骨牌终于触碰到了席勒理论的第三层变量——市场情绪。

计算机通过分析新闻、研究报告、社交信息、搜索行为等，借助自然语言处理方法，提取有用的信息；而借助机器学习智能分析，过去量化投资只能覆盖几十个策略，大数据投资则可以覆盖成千上万个策略。

基于互联网搜索数据和社交行为的经济预测研究，已逐渐成为一个新的学术热点，并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上，研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。

海外就有学术研究指出，公司的名称或者相关关键词的搜索量，与该公司的股票交易量正相关。德国科学家Tobias Preis就进行了如此研究：Tobias利用谷歌搜索引擎和谷歌趋势（Google Trends），以美国标普500指数的500只股票为其样本，以2004年至2010年为观察区间，发现谷歌趋势数据的公司名称搜索量和对应股票的交易量，在每周一次的时间尺度上有高度关联性。也就是说，当某个公司名称在谷歌的搜索量活动增加时，无论股票的价格是上涨或者下跌，股票成交量与搜索量增加；反之亦然，搜索量下降，股票成交量下降。以标普500指数的样本股为基础，依据上述策略构建的模拟投资组合在六年的时间内获得了高达329%的累计收益。

在美国市场上，还有多家私募对冲基金利用Twitter和Facebook的社交数据作为反映投资者情绪和市场趋势的因子，构建对冲投资策略。利用互联网大数据进行投资策略和工具的开发已经成为世界金融投资领域的新热点。

保罗·霍丁管理的对冲基金Derwent成立于2011年5月，注册在开曼群岛，初始规模约为4000万美元， 2013年投资收益高达23.77%。该基金的投资标的包括流动性较好的股票及股票指数产品。
通联数据董事长肖风在《投资革命》中写道，Derwent的投资策略是通过实时跟踪Twitter用户的情绪，以此感知市场参与者的“贪婪与恐惧”，从而判断市场涨跌来获利。

在Derwent的网页上可以看到这样一句话：“用实时的社交媒体解码暗藏的交易机会。”保罗·霍丁在基金宣传册中表示：“多年以来，投资者已经普遍接受一种观点，即恐惧和贪婪是金融市场的驱动力。但是以前人们没有技术或数据来对人类情感进行量化。这是第四维。Derwent就是要通过即时关注Twitter中的公众情绪，指导投资。”

另一家位于美国加州的对冲基金MarketPsych与汤普森·路透合作提供了分布在119个国家不低于18864项独立指数，比如每分钟更新的心情状态（包括乐观、忧郁、快乐、害怕、生气，甚至还包括创新、诉讼及冲突情况等），而这些指数都是通过分析Twitter的数据文本，作为股市投资的信号。

此类基金还在不断涌现。金融危机后，几个台湾年轻人在波士顿组建了一家名为FlyBerry的对冲基金，口号是“Modeling the World（把世界建模）”。它的投资理念全部依托大数据技术，通过监测市场舆论和行为，对投资做出秒速判断。

关于社交媒体信息的量化应用，在股票投资之外的领域也很常见：Twitter自己也十分注重信息的开发挖掘，它与DataSift和Gnip两家公司达成了一项出售数据访问权限的协议，销售人们的想法、情绪和沟通数据，从而作为顾客的反馈意见汇总后对商业营销活动的效果进行判断。从事类似工作的公司还有DMetics，它通过对人们的购物行为进行分析，寻找影响消费者最终选择的细微原因。

回到股票世界，利用社交媒体信息做投资的公司还有StockTwits。打开这家网站，首先映入眼帘的宣传语是“看看投资者和交易员此刻正如何讨论你的股票”。正如其名，这家网站相当于“股票界的Twitter”，主要面向分析师、媒体和投资者。它通过机器和人工相结合的手段，将关于股票和市场的信息整理为140字以内的短消息供用户参考。

此外，StockTwits还整合了社交功能，并作为插件可以嵌入Twitter、Facebook和LinkedIn等主要社交平台，让人们可以轻易分享投资信息。

另一家公司Market Prophit也很有趣。这家网站的宣传语是“从社交媒体噪音中提炼市场信号”。和StockTwits相比，Market Prophit更加注重大数据的应用。它采用了先进的语义分析法，可以将Twitter里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议。网站还根据语义量化，每天公布前十名和后十名的股票热度榜单。网站还设计了“热度地图”功能，根据投资者情绪和意见，按照不同板块，将板块内的个股按照颜色深浅进行标注，谁涨谁跌一目了然。

中国原创大数据指数

尽管大数据策略投资在美国貌似炙手可热，但事实上，其应用尚仅限于中小型对冲基金和创业平台公司。大数据策略投资第一次被大规模应用，应归于中国的百发100。

网络金融中心相关负责人表示，与欧美等成熟资本市场主要由理性机构投资者构成相比，东亚尤其是中国的股票类证券投资市场仍以散户为主，因此市场受投资者情绪和宏观政策性因素影响很大。而个人投资者行为可以更多地反映在互联网用户行为大数据上，从而为有效地预测市场情绪和趋势提供了可能。这也就是中国国内公募基金在应用互联网大数据投资方面比海外市场并不落后、甚至领先的原因。

百发100指数由网络、中证指数公司、广发基金联合研发推出，于2014年7月8日正式对市场发布，实盘运行以来一路上涨，涨幅超过60%。跟踪该指数的指数基金规模上限为30亿份，2014年9月17日正式获批，10月20日发行时一度创下26小时疯卖18亿份的“神话”。

外界都知道百发100是依托大数据的指数基金，但其背后的细节鲜为人知。

百发100数据层面的分析分为两个层面，即数据工厂的数据归集和数据处理系统的数据分析。其中数据工厂负责大数据的收集分析，例如将来源于互联网的非结构化数据进行指标化、产品化等数据量化过程；数据处理系统，可以在数据工厂递交的大数据中寻找相互统计关联，提取有效信息，最终应用于策略投资。

“其实百发100是在传统量化投资技术上融合了基于互联网大数据的市场走势和投资情绪判断。”业内人士概括道。

和传统量化投资类似，百发100对样本股的甄选要考虑财务因子、基本面因子和动量因子，包括净资产收益率（ROE）、资产收益率（ROA）、每股收益增长率（EPS）、流动负债比率、企业价值倍数（EV/EBITDA）、净利润同比增长率、股权集中度、自由流通市值以及最近一个月的个股价格收益率和波动率等。

此外，市场走势和投资情绪是在传统量化策略基础上的创新产物，也是百发100的核心竞争力。接近网络的人士称，市场情绪因子对百发100基金起决定性作用。

网络金融中心相关负责人是罗伯特•席勒观点的支持者。他认为，投资者行为和情绪对资产价格、市场走势有着巨大的影响。因此“通过互联网用户行为大数据反映的投资市场情绪、宏观经济预期和走势，成为百发100指数模型引入大数据因子的重点”。

传统量化投资主要着眼点在于对专业化金融市场基本面和交易数据的应用。但在网络金融中心相关业务负责人看来，无论是来源于专业金融市场的结构化数据，还是来源于互联网的非结构化数据，都是可以利用的数据资源。因此，前文所述的市场情绪数据，包括来源于互联网的用户行为、搜索量、市场舆情、宏观基本面预期等等，都被网络“变废为宝”，从而通过互联网找到投资者参与特征，选出投资者关注度较高的股票。

“与同期沪深300指数的表现相较，百发100更能在股票市场振荡时期、行业轮动剧烈时期、基本面不明朗时期抓住市场热点、了解投资者情绪、抗击投资波动风险。”网络金融中心相关负责人表示。

百发100选取的100只样本股更换频率是一个月，调整时间为每月第三周的周五。

业内人士指出，百发100指数的月收益率与中证100、沪深300、中证500的相关性依次提升，说明其投资风格偏向中小盘。

但事实并非如此。从样本股的构成来说，以某一期样本股为例，样本股总市值6700亿元，占A股市值4.7%。样本股的构成上，中小板21只，创业板4只，其余75只样本股均为大盘股。由此可见，百发100还是偏向大盘为主、反映主流市场走势。

样本股每个月的改变比例都不同，最极端的时候曾经有60%进行了换仓。用大数据预测热点变化，市场热点往往更迭很快；但同时也要考虑交易成本。两方面考虑，网络最后测算认为一个月换一次仓位为最佳。

样本股对百发100而言是核心机密——据说“全世界只有基金经理和指数编制机构负责人两个人知道”——都是由机器决定后，基金经理分配给不同的交易员建仓买入。基金经理也没有改变样本股的权利。

展望未来，网络金融中心相关负责人踌躇满志，“百发100指数及基金的推出，只是我们的开端和尝试，未来将形成多样化、系列投资产品。”

除了百发100，目前市场上打着大数据旗帜的基金还有2014年9月推出的南方-新浪I100和I300指数基金。

南方-新浪I100和I300是由南方基金、新浪财经和深圳证券信息公司三方联合编制的。和百发100类似，也是按照财务因子和市场情绪因子进行模型打分，按照分值将前100和前300名股票构成样本股。推出至今，这两个指数基金分别上涨了10%左右。

正如百发100的市场情绪因子来自网络，南方-新浪I100和I300的市场情绪因子全部来自新浪平台。其中包括用户在新浪财经对行情的访问热度、对股票的搜索热度；用户在新浪财经对股票相关新闻的浏览热度；股票相关微博的多空分析数据等。

此外，阿里巴巴旗下的天弘基金也有意在大数据策略上做文章。据了解，天弘基金将和阿里巴巴合作，推出大数据基金产品，最早将于2015年初问世。

天弘基金机构产品部总经理刘燕曾对媒体表示，“在传统的调研上，大数据将贡献于基础资产的研究，而以往过度依赖线下研究报告。大数据将视野拓展至了线上的数据分析，给基金经理选股带来新的逻辑。”

在BAT三巨头中，腾讯其实是最早推出指数基金的。腾讯与中证指数公司、济安金信公司合作开发的“中证腾安价值100指数”早在2013年5月就发布了，号称是国内第一家由互联网媒体与专业机构编制发布的A股指数。不过，业内人士表示，有关指数并没有真正应用大数据技术。虽然腾讯旗下的微信是目前最热的社交平台，蕴藏了大量的社交数据，但腾讯未来怎么开发，目前还并不清晰。

大数据投资平台化

中欧商学院副教授陈威如在其《平台战略》一书中提到，21世纪将成为一道分水岭，人类商业行为将全面普及平台模式，大数据金融也不例外。

然而，由于大数据模型对成本要求极高，就好比不可能每家公司都搭建自己的云计算系统一样，让每家机构自己建设大数据模型，从数据来源和处理技术方面看都是不现实的。业内人士认为，大数据未来必将成为平台化的服务。

目前，阿里、网络等企业都表示下一步方向是平台化。

蚂蚁金服所致力搭建的平台，一方面包括招财宝一类的金融产品平台，另一方面包括云计算、大数据服务平台。蚂蚁金服人士说，“我们很清楚自己的优势不是金融，而是包括电商、云计算、大数据等技术。蚂蚁金服希望用这些技术搭建一个基础平台，把这些能力开放出去，供金融机构使用。”

网络亦是如此。接近网络的人士称，未来是否向平台化发展，目前还在讨论中，但可以确定的是，“网络不是金融机构，目的不是发产品，百发100的意义在于打造影响力，而非经济效益。”
当BAT还在摸索前行时，已有嗅觉灵敏者抢占了先机，那就是通联数据。

通联数据股份公司（DataYes）由曾任博时基金副董事长肖风带队创建、万向集团投资成立，总部位于上海，公司愿景是“让投资更容易，用金融服务云平台提升投资管理效率和投研能力”。该平台7月上线公测，目前已拥有130多家机构客户，逾万名个人投资者。

通联数据目前有四个主要平台，分别是通联智能投资研究平台、通联金融大数据服务平台、通联多资产投资管理平台和金融移动办公平台。

通联智能投资研究平台包括雅典娜-智能事件研究、策略研究、智能研报三款产品，可以对基于自然语言的智能事件进行策略分析，实时跟踪市场热点，捕捉市场情绪。可以说，和百发100类似，其核心技术在于将互联网非结构化数据的量化使用。

通联金融大数据服务平台更侧重于专业金融数据的分析整理。它可以提供公司基本面数据、国内外主要证券、期货交易所的行情数据、公司公告数据、公关经济、行业动态的结构化数据、金融新闻和舆情的非结构化数据等。

假如将上述两个平台比作“收割机”，通联多资产投资管理平台就是“厨房”。在这个“厨房”里，可以进行全球跨资产的投资组合管理方案、订单管理方案、资产证券化定价分析方案等。

通联数据可以按照主题热点或者自定义关键字进行分析，构建知识图谱，将相关的新闻和股票提取做成简洁的分析框架。例如用户对特斯拉感兴趣，就可以通过主题热点看到和特斯拉相关的公司，并判断这个概念是否值得投资。“过去这个搜集过程要花费几天时间，现在只需要几分钟就可以完成。”王政表示。

“通联数据就好比一家餐馆，我们把所有原料搜集来、清洗好、准备好，同时准备了一个锅，也就是大数据存储平台。研究员和基金经理像厨师一样，用原料、工具去‘烹制’自己的策略。”王政形容道。

大数据在平台上扮演的角色，就是寻找关联关系。人类总是习惯首先构建因果关系，继而去倒推和佐证。机器学习则不然，它可以在海量数据中查获超越人类想象的关联关系。正如维克托`迈尔-舍恩伯格在《大数据时代》中所提到的，社会需要放弃它对因果关系的渴求，而仅需关注相互关系。

例如，美国超市沃尔玛通过大数据分析，发现飓风用品和蛋挞摆在一起可以提高销量，并由此创造了颇大的经济效益。如果没有大数据技术，谁能将这毫无关联的两件商品联系在一起？
通联数据通过机器学习，也能找到传统量化策略无法发现的市场联系。其中包括各家公司之间的资本关系、产品关系、竞争关系、上下游关系，也包括人与人之间的关系，例如管理团队和其他公司有没有关联，是否牵扯合作等。

未来量化研究员是否将成为一个被淘汰的职业？目前研究员的主要工作就是收集整理数据，变成投资决策，而之后这个工作将更多由机器完成。

“当初医疗科技发展时，人们也认为医生会被淘汰，但其实并不会。同理，研究员也会一直存在，但他们会更注重深入分析和调研，初级的数据搜集可以交给机器完成。”王政表示。
但当未来大数据平台并广泛应用后，是否会迅速挤压套利空间？这也是一个问题。回答根据网上资料整理

㈢股票诊断工具一般使用什么模型

诊股大致分为四个方面，一技术面二资金面三消息面四基本面，其实就是把传统和市面上所有能用到的分析方法总结在一起进行大数据分析。
比如技术面的“缩量”“超卖”“价跌量升”“一阳穿三线”“红三兵”等等等，只要近期出现了某个技术指标，就点亮一个，然后放入大数据中进行分析，如出现“价跌量升”特征后，该股近几年的表现是如何如何，平均涨跌幅等等等。
其他的也是一样，比如消息面，就是把最近所有和该股有关系的新闻罗列出来，分为利好面和利空面，并给出市场的看法（如看好或看空）。
基本面，是把所有的基本属性列出来，比如市盈率，市净率，营业收入增长（降低），毛利率，净利率，收益率等等等，然后做出图表和整个板块对比得出排名，最后给出一个看法。
比如排名在前列，看好，排名中间，观望，排名最后，看空。
资金面的分析是最乱的，它统计的是主力资金的净流入和流出，但我们知道交割是平衡的，也就是卖了多少，就一定有人买多少。
所谓的主力净流入一般是指大单主动买入，每个软件的计算方法不一样（如多少手以上算大单？），但计算方式相同。

㈣可以利用大数据炒股吗

大数据可以用于股票交易，所谓大数据，就是一个新的分析概念，利用新的系统、新的工具、新的模型来挖掘大量动态的、可持续的数据，从而获得具有洞察力和新价值的东西。大数据已经在一些金融工具中有所体现，大数据会将股票之前的数据全都发布出来，股民可以根据这只股票之前的数据来进行对比。

其实大数据只能说是个趋势，我们可以通过打数据让投资者能够有一个参考性，但不能够过度依赖大数据，毕竟着只是数据，这些数据是死的，而股市却是千变万化的，我们不能过度的依赖大数据得出的分析与结论，大数据也只是作为一个参考数据。世事无绝对，更何况是股票，可能上一秒还是盈利的状态，但是下一秒就已经处于亏损了，不少人也因为炒股倾家荡产，所以这边还是要提醒大家一下，谨慎行事，不要盲目跟风。

㈤基于微信大数据的股票预测研究

基于微信大数据的股票预测研究
大数据是近些年来的热门话题，无论国际上还是国内，影响很大。经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展，进而影响人类的价值体系、知识体系和生活方式。而全球经济目前生成了史无前例的大量数据，如果把每天产生的大量数据比作神话时期的大洪水是完全正确的，这个数据洪流是我们前所未见的，他是全新的、强大的、当然，也是让人恐慌但又极端刺激的。
而我所分享的话题，正是在互联网环境下，如何利用大数据技术，进行股票预测的研究。–今天，我想分享我认为有意义的四点。
1.大数据下的商业预测
根据大数据，我们可以有效地进行故障、人流、流量、用电量、股票市场、疾病预防、交通、食物配送、产业供需等方面的预测。而本文我们所关心的内容是股票市场的预测。
大数据的核心是预测，预测依赖于对数据的分析。那么分析的方法是否是基于随机采样的结果而设计的，这样的分析方法是否会有误差？
从传统认识上，由于资源和科技的局限，如人和计算资源受限、从计算机处理能力来讲无法处理全部数据来获取人们所关注的结果。因此随机采样应运而生，通过所选取的个体来代表全体，如使用随机抽取的方式来使得推论结果更科学。但既然提到了大数据，它是资源发展到一定程度、以及技术发展到一定阶段产生的一个新的认识。如同电力的出现，使人类进入了一个快速发展阶段，大数据也一样，它的含义是全体样本，从整体样本来做推论。在本文大数据的含义是所有股票在整个社交网络上的流动信息，从数据源上讲，本文没有采用所有社交网络上的数据，只分析了微信这个最具代表性的社交媒体作为信息源。
互动数据能反映用户情绪，搜索数据能反映用户的关注点和意图，在股市预测时这两种数据哪种更具有参考价值？
我认为都有价值，互动数据反映了用户对某一特定股票的喜好和厌恶，可以简单描述为对该股票的操作是继续持有还是卖出；而搜索数据则代表用户在收集该股票信息的过程，它是关注度的概念，某只股票搜索度高则意味着消息的影响力大。互动代表着方向，搜索代表着振幅。
我们知道这两种数据得出的结论会有差异，您是如何平衡这两种数据反映的情况来进行预测的？
正如上一个问题里提到的，如果是股票推荐，买进卖出等原则问题，则应该考虑互动数据，但如果已经买到手了，搜索数据可以提供一个幅度的概念，类似债券评级A级、AA级、AAA级等，供投资者参考，因为不同投资者对风险的承受度是不同的。
将股票和市场的消息整理成140字的短消息发布，是否意味着主要发布渠道是微博？现在微信公众号很火，有没有考虑通过这个渠道也发布消息？
事实上，信息传播的方式很多，微信作为新媒体当然影响力不容小觑，但目前技术投入最小的还是邮件、短信等方式，未来会考虑使用公众号来推送股票和市场消息。
如果在未来通过微信公众号推送消息，那么推送的消息会不会作为数据来源被再次采集？这会有多大的影响？
会被采集，但互联网上的每日关于个股的信息数量会达到很大，该推送会增加推荐股票1点权重，每只股票的权重成百上千，因此影响极小。
数据来源是微信公众号，除了准确性的考虑之外，是否还考虑过这样收集数据会较少触犯个人隐私？
从法律角度来看，搜索微信或其他个人聊天记录，是侵犯个人隐私权的，因此如果腾讯开放了这样的接口，每个公民都可以对这样的行为进行投诉、抗议、甚至进行法律起诉直至其改正过错、赔偿损失的。
这样是否意味着即使存在违法的行为，其结果也是由腾讯来承担，而我们作为数据的使用方不需要承担任何法律责任？
在整个社会，我们作为系统技术提供方，应恪守大数据的伦理道德，遵守国家法律，如侵犯个人隐私，系统不会采集，谷歌有一句座右铭“谷歌不作恶”，本文提到的系统也一样。
2.基于大数据进行股票推荐实验
股票的及时度反应了微信文章所发布的时效性，及时度越高，数据价值就越大。
股票的热度反应了当前某只股票被关注的频度，关注频度越大，上涨的可能性越高。

数据的完整性：我们采用循环的方式对所有深沪两地发行约2236只股票（创业版除外）在微信搜索网站上的搜索结果进行保存。
数据的一致性：文件格式由负责保存数据文件的程序决定，单一的流程保障了文件的一致性。
数据的准确性：由于所分析的订阅号文章的是由微信公共平台的公众号所提供，在一定程度上杜绝了虚假消息对于预测系统的破坏。
数据的及时性：考虑到磁盘读写以及采集程序所处的网络带宽，以及搜索引擎对于采集程序的屏蔽，程序中采集两条信息之间间隔了5秒，因此理论上11180秒（3.1个小时）可收集完当日推荐所需要的数据。对于每个交易日，在9点-9点30分之间采集所有数据，需要7台以上的设备可达到最佳效果。本次试验受限于试验设备，在一台设备上，交易日每天早六时开始进行数据采集，也满足及时性要求。
数据分析：查看三个高优先级的股票，该股票当日的开盘价与收盘价，再与当日（2015-4-8）上证综指进行比较，可得在收益上该算法是优于上证综指为样本的整体股票的股价差收益的。
实验结论：按照上述方式，系统每天推荐出当日股票，在开盘时进行买进，在第二个交易日进行卖出。经过一个月21个交易日（2015-3-1至2015-3-31），系统的收益为20%/月。通过微信搜索公众号来预测市场走势和投资情绪呈现出正相关性，因此可以作为股票甄选的因子。
3.股票预测的大数据发展趋势
网络数据分成三种：
一是浏览数据，主要用于电商领域的消费者行为分析，浏览数据反映了用户每一步的访问脚步，进一步刻画出用户的访问路径，分析不同页面的跳转概率等。
二是搜索数据，主要指搜索引擎记录的关键词被搜索频次的时间序列数据，能反映数亿用户的兴趣、关注点、意图。
三是互动数据，主要是微博、微信、社交网站的数据，反映用户的倾向性和情绪因素。
2013年诺贝尔经济学奖得主罗伯特?席勒的观点被无数采访对象引述。席勒于上世纪80年代设计的投资模型至今仍被业内称道。在他的模型中，主要参考三个变量：投资项目计划的现金流、公司资本的估算成本、股票市场对投资的反应（市场情绪）。他认为，市场本身带有主观判断因素，投资者情绪会影响投资行为，而投资行为直接影响资产价格。
计算机通过分析新闻、研究报告、社交信息、搜索行为等，借助自然语言处理方法，提取有用的信息；而借助机器学习智能分析，过去量化投资只能覆盖几十个策略，大数据投资则可以覆盖成千上万个策略。
基于互联网搜索数据和社交行为的经济预测研究，已逐渐成为一个新的学术热点，并在经济、社会以及健康等领域的研究中取得了一定成果。在资本市场应用上，研究发现搜索数据可有效预测未来股市活跃度（以交易量指标衡量）及股价走势的变化。
对于搜索数据：互联网搜索行为与股票市场的关联机理。这个研究属于行为金融与互联网的交叉领域，其原理是：股票量价调整是投资者行为在股票市场上的反应；与此同时，投资者行为在互联网搜索市场也有相应地行为迹象，我们要做到是：找到互联网搜索市场中领先于股票交易的行为指标，综合众多投资者的先行搜索指标，对未来的股票交易做出预判。
如同天气预报那样，不断优化模型、灌入海量信息，然后给出结果。并且在处理的信息中，有80%是“非结构化”数据，例如政策文件、自然事件、地理环境、科技创新等，这类信息通常是电脑和模型难以消化的。采用了语义分析法，可以将互动数据里的金融对话量化为“-1（极度看空）”到“1（极度看多）”之间的投资建议，通过分析互动数据的数据文本，作为股市投资的信号。
4.正在发生的未来
大数据并不是一个充斥着算法和机器的冰冷世界，人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案，只是参考答案，帮助是暂时的，而更好的方法和答案还在不久的将来。
大数据在实用层面的影响很广泛，解决了大量的日常问题。大数据更是利害攸关的，它将重塑我们的生活、工作和思维方式。在某些方面，我们面临着一个僵局，比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。我们脚下的地面在移动。过去确定无疑的事情正在受到质疑。大数据需要人们重新讨论决策、命运和正义的性质。拥有知识曾意味着掌握过去，现在则意味着能够预测未来。
大数据并不是一个充斥着算法和机器的冰冷世界，其中仍需要人类扮演重要角色。人类独有的弱点、错觉、错误都是十分必要的，因为这些特性的另一头牵着的是人类的创造力、直觉和天赋。这提示我们应该乐于接受类似的不准确，因为不准确正是我们之所以为人的特征之一。就好像我们学习处理混乱数据一样，因为这些数据服务的是更加广大的目标。必将混乱构成了世界的本质，也构成了人脑的本职，而无论是世界的混乱还是人脑的混乱，学会接受和应用他们才能得益。
我相信，利用基础数据、搜索数据、互动数据再进行加权计算，可以对所有股票进行大数据遴选，从而给出投资建议。我认为，我们的肉身刚刚步入大数据时代，但我们的精神还滞留在小数据、采样思维之中，率先用理性击碎固有思维的人，也将率先获得大数据带来的益处。

㈥如何用大数据分析股票

首先要自己建立模型才行。

㈦大数据分析领域有哪些分析模型

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。
1. 降维
在面对海量数据或大数据进行数据挖掘时，通常会面临“维度灾难”，原因是数据集的维度可以不断增加直至无穷多，但计算机的处理能力和速度却是有限的；另外，数据集的大量维度之间可能存在共线性的关系，这会直接导致学习模型的健壮性不够，甚至很多时候算法结果会失效。因此，我们需要降低维度数量并降低维度间共线性影响。
数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。数据降维的思路有两类：一类是基于特征选择的降维，一类是是基于维度转换的降维。
2. 回归
回归是研究自变量x对因变量y影响的一种数据分析方法。最简单的回归模型是一元线性回归（只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示），可以表示为Y=β0+β1x+ε，其中Y为因变量，x为自变量，β1为影响系数，β0为截距，ε为随机误差。
回归分析按照自变量的个数分为一元回归模型和多元回归模型；按照影响是否线性分为线性回归和非线性回归。
3. 聚类
聚类是数据挖掘和计算中的基本任务，聚类是将大量数据集中具有“相似”特征的数据点划分为统一类别，并最终生成多个类的方法。聚类分析的基本思想是“物以类聚、人以群分”，因此大量的数据集中必然存在相似的数据点，基于这个假设就可以将数据区分出来，并发现每个数据集（分类）的特征。
4. 分类
分类算法通过对已知类别训练集的计算和分析，从中发现类别规则，以此预测新数据的类别的一类算法。分类算法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。
5. 关联
关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则，它是从大量数据中发现多种数据之间关系的一种方法，另外，它还可以基于时间序列对多种数据间的关系进行挖掘。关联分析的典型案例是“啤酒和尿布”的捆绑销售，即买了尿布的用户还会一起买啤酒。
6. 时间序列
时间序列是用来研究数据随时间变化趋势而变化的一类算法，它是一种常用的回归预测方法。它的原理是事物的连续性，所谓连续性是指客观事物的发展具有合乎规律的连续性，事物发展是按照它本身固有的规律进行的。在一定条件下，只要规律赖以发生作用的条件不产生质的变化，则事物的基本发展趋势在未来就还会延续下去。
7. 异常检测
大多数数据挖掘或数据工作中，异常值都会在数据的预处理过程中被认为是“噪音”而剔除，以避免其对总体数据评估和分析挖掘的影响。但某些情况下，如果数据工作的目标就是围绕异常值，那么这些异常值会成为数据工作的焦点。
数据集中的异常数据通常被成为异常点、离群点或孤立点等，典型特征是这些数据的特征或规则与大多数数据不一致，呈现出“异常”的特点，而检测这些数据的方法被称为异常检测。
8. 协同过滤
协同过滤（Collaborative Filtering，CF)）是利用集体智慧的一个典型方法，常被用于分辨特定对象（通常是人）可能感兴趣的项目（项目可能是商品、资讯、书籍、音乐、帖子等），这些感兴趣的内容来源于其他类似人群的兴趣和爱好，然后被作为推荐内容推荐给特定对象。
9. 主题模型
主题模型（Topic Model），是提炼出文字中隐含主题的一种建模方法。在统计学中，主题就是词汇表或特定词语的词语概率分布模型。所谓主题，是文字（文章、话语、句子）所表达的中心思想或核心概念。
10. 路径、漏斗、归因模型
路径分析、漏斗分析、归因分析和热力图分析原本是网站数据分析的常用分析方法，但随着认知计算、机器学习、深度学习等方法的应用，原本很难衡量的线下用户行为正在被识别、分析、关联、打通，使得这些方法也可以应用到线下客户行为和转化分析。

㈧大数据分析中，有哪些常见的大数据分析模型

很多朋友还没有接触过大数据分析方案，认为其仅仅算是个愿景而非现实——毕竟能够证明其可行性与实际效果的案例确实相对有限。但可以肯定的是，实时数据流中包含着大量重要价值，足以帮助企业及人员在未来的工作中达成更为理想的结果。那么，那些领域需要实时的数据分析呢？

1、医疗卫生与生命科学

2、保险业

3、电信运营商

4、能源行业

5、电子商务

6、运输行业

7、投机市场

8、执法领域

9、技术领域

常见数据分析模型有哪些呢？

1、行为事件分析：行为事件分析法具有强大的筛选、分组和聚合能力，逻辑清晰且使用简单，已被广泛应用。

2、漏斗分析模型：漏斗分析是一套流程分析，它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。

3、留存分析模型留存分析是一种用来分析用户参与情况/活跃程度的分析模型，考察进行初始化行为的用户中，有多少人会进行后续行为。这是用来衡量产品对用户价值高低的重要方法。

4、分布分析模型分布分析是用户在特定指标下的频次、总额等的归类展现。

5、点击分析模型即应用一种特殊亮度的颜色形式，显示页面或页面组区域中不同元素点点击密度的图标。

6、用户行为路径分析模型用户路径分析，顾名思义，用户在APP或网站中的访问行为路径。为了衡量网站优化的效果或营销推广的效果，以及了解用户行为偏好，时常要对访问路径的转换数据进行分析。

7、用户分群分析模型用户分群即用户信息标签化，通过用户的历史行为路径、行为特征、偏好等属性，将具有相同属性的用户划分为一个群体，并进行后续分析。

8、属性分析模型根据用户自身属性对用户进行分类与统计分析，比如查看用户数量在注册时间上的变化趋势、省份等分布情况。

模型再多，选择一种适合自己的就行，如何利益最大化才是我们追求的目标

㈨大数据分析方法与模型有哪些

1、分类分析数据分析法

在数据分析中，如果将数据进行分类就能够更好的分析。分类分析是将一些未知类别的部分放进我们已经分好类别中的其中某一类;或者将对一些数据进行分析，把这些数据归纳到接近这一程度的类别，并按接近这一程度对观测对象给出合理的分类。这样才能够更好的进行分析数据。

2、对比分析数据分析方法

很多数据分析也是经常使用对比分析数据分析方法。对比分析法通常是把两个相互有联系的数据进行比较，从数量上展示和说明研究对象在某一标准的数量进行比较，从中发现其他的差异，以及各种关系是否协调。

3、相关分析数据分析法

相关分析数据分析法也是一种比较常见数据分析方法，相关分析是指研究变量之间相互关系的一类分析方法。按是否区别自变量和因变量为标准一般分为两类：一类是明确自变量和因变量的关系;另一类是不区分因果关系，只研究变量之间是否相关，相关方向和密切程度的分析方法。

4、综合分析数据分析法

层次分析法，是一种实用的多目标或多方案的决策方法。由于他在处理复杂的决策问题上的实用性和有效性，而层次分析数据分析法在世界范围得到广泛的应用。它的应用已遍及经济计划和管理，能源政策和分配，行为科学、军事指挥、运输、农业、教育、医疗和环境等多领域。

大数据股票分析模型

与大数据股票分析模型相关的内容