当前位置:首页>> >>


基于BP神经网络的高频金融时间序(论文和源码)php.rar

收藏

资源目录
    文档预览:
    编号:20180825164900245    类型:共享资源    大小:23.45MB    格式:RAR    上传时间:2018-08-25
      
    60
    金币
    关 键 词:
    基于 BP 神经网络 高频 金融 时间 论文 源码 php
    资源描述:
    I本科毕业论文(科研训练、毕业设计)题 目:基于BP神经网络的高频金融时间序列分析姓 名: 林雨森学 院: 信息科学与技术学院系: 计算机科学系专 业: 计算机年 级: 2012级学 号: 23320122203931指导教师(校内): 张德富 职称: 教授2016 年 5 月 13 日厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析I基于BP神经网络的高频金融时间序列分析[摘要]本文采用任意的上证或深证股票每天所有交易的数据作为样本,基于BP神经网络,对高频数据进行分析和预测。检验不同的数据预处理方法以及不同频率的金融数据对于预测未来价格效果的影响。结果发现,高频的数据更有利于预测,并根据此,完成了一个对上证或深证股票的实时预测系统。[关键词] BP神经网络高频 实时预测厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析IIAnalysisofhighfrequencyfinancialdatabasedonBPNeuralNetwork[Abstract] using all the transaction data in one day of any Shanghai stock or Shenzhen stock assamples,hereweanalyzedthehigh-frequencyfinancialdataandpredictedthefuturedata,basedonBPneural network. To find out the influence of predicting the future data, we carried out different contrastexperiments through different data pre-processing method and financial data of different frequency. Itturnedoutthatthe high-frequencyfinancialdata hadabetterresultofpredictingfuturedata.Accordingtothese,Iaccomplishedareal-timestockpredictingsystemofshanghaistockorshenzhenstock.[KeyWords]BPneuralnetwork;high-frequency;real-time;predict厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析3目录第一章 绪论.......................................................................................................................................41.1引言.....................................................................................................................................41.2论文组织结构.....................................................................................................................4第二章 数据爬取...............................................................................................................................62.1数据量的估计.....................................................................................................................62.2框架设计.............................................................................................................................62.3数据存储结构与存储策略................................................................................................8第三章 神经网络算法研究............................................................................................................103.1BP神经网络的学习.........................................................................................................103.2神经网络改进..................................................................................................................133.3深度学习,卷积神经网络..............................................................................................14第四章 数据预处理........................................................................................................................174.1数据预处理方法..............................................................................................................174.2数据预处理的注意事项..................................................................................................18第五章 梯度下降............................................................................................................................205.1全局梯度下降..................................................................................................................205.2随机梯度下降..................................................................................................................205.3共轭梯度下降..................................................................................................................21第六章 实验数据集划分与实验指标............................................................................................226.1数据集的划分..................................................................................................................226.2实验指标..........................................................................................................................22第七章 参数选取............................................................................................................................247.1网络结构的范围..............................................................................................................247.2 的初始范围..................................................................................................................247.3自动尝试随机参数..........................................................................................................24第八章 实验结果与分析................................................................................................................268.1高频数据间不同频率的对比实验..................................................................................268.2高频数据与低频数据的对比实验..................................................................................368.3不同的costFunction的对比实验................................................................................388.4单只不同股票的对比实验..............................................................................................398.5第五章中三种梯度下降方法的对比实验......................................................................41第九章 系统设计............................................................................................................................479.1功能需求..........................................................................................................................479.2环境选择..........................................................................................................................479.3框架设计..........................................................................................................................489.4系统展示..........................................................................................................................48第十章 总结.....................................................................................................................................51致谢语...............................................................................................................................................52参考文献...........................................................................................................................................53厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析4第一章绪论1.1引言所谓的“蝴蝶效应”,即万物都有联系。世界上发生的每件事,每个因素,在某种程度上都会影响着金融市场的变化。而著名的“道氏理论”告诉我们,市场包容消化一切,一切因素的作用,都能通过市场的价格变化反映出来。基于这个理论,我们只要能将所有影响的因素都找出来,就能预测未来的价格变化。然而在现实中,影响的因素太多了,没可能全部算进去。而影响的因素时时刻刻都在变化,也使得金融市场有所谓的随机游走特征,这使得预测未来的市场变化更加复杂和困难。而大量事实表明,影响价格变化的因素并不会马上消失而是有延续性。既然影响的因素能作用在价格变化上,我们可以相信,价格的历史数据和其他信息,蕴含着可用于预测未来价格的信息。我们可以将金融市场看作是一个复杂的非线性系统,即存在一个函数:),,,,,,,,,,,(1  tmttlttktt YYXXPPfP  其中,P表示市场价格, YX, 是外部变量。若只考虑金融时间序列内部关系,则f可表示为: ),,(1 tktt PPfP  预测的关键在于,由样本数据构造或用适当的方法逼近这一函数f。诸多研究表明,相对于传统统计学模型的不足,神经网络具有较强的非线性函数逼近能力。神经网络能根据样本数据进行自训练,而无需知道其内在的动力机制,这大大地降低了研究时间序列的成本。然而,以往的大多数研究都是基于低频的金融数据进行的,即日、周、月、季或年。近年来,随着云计算和大数据的发展,对高频数据或超高频数据的研究成为了可能。高频数据指的是以秒为单位的数据,超高频数据指的是以每笔交易为单位的数据。一般而言,金融市场上的信息是连续地影响着证券市场价格运动过程。数据的离散采集,必然会造成信息不同程度的缺失。采集的数据频率越高,信息丢失越少。因此,本文尝试用高频数据,基于BP神经网络,对金融时间序列进行分析和预测。1.2论文组织结构本论文共分为九章,具体内容如下:第一章绪论本章介绍了本论文研究的背景和意义,阐述了本论文主要研究的内容;厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析5第二章数据爬取本章主要讲述金融数据的爬取框架以及数据的存储结构和存储策略;第三章神经网络算法研究本章分三部分,分别是BP神经网络算法的学习、神经网络的改进、深度学习(卷积神经网络),其中BP神经网络是本文的主要算法,另外的两个小节是尝试的改进;第四章数据预处理本章主要讲述了各种数据预处理方法,以及数据处理后对数据的还原;第五章梯度下降本章主要讲述了全局梯度下降、随机梯度下降、共轭梯度下降三种下降方法的区别;第六章实验数据集划分与实验指标本章主要讲述了数据集的划分方法和本文进行实验的各种指标;第七章参数选取本章主要讲述了参数的合理选取范围,以及随机自动测试不同参数;第八章实验结果与分析本章通过进行多个不同的对比实验,分析该模型的作用效果以及其极限,得出能更好预测未来金融数据的方法;第九章系统设计本章主要讲解了股票实时预测系统的功能以及整体框架;第十章总结总结全文,得出本文总结性的结论。厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析6第二章数据爬取本章介绍了如何爬取实时的股票数据到本地。2.1节讲述了股票数据量的估计;2.2节讲述了爬取框架的架构;2.3节讲述了数据存储的结构和存储方式的策略。2.1数据量的估计高频金融数据,即证券交易过程中,以秒为单位所产生的交易数据。超高频金融数据,即证券交易过程中,每笔交易的数据。由于超高频金融数据不容易获得,所以这里对高频金融数据进行研究,本文使用沪深两股市任意股票的高频数据作为研究对象。沪深两股市每天的开盘时间都是9:30 a.m - 11:30 a.m以及13:00 p.m -15:00p.m共4小时。4小时=14400秒。若以每秒作为单位取,则一天一只股票就有14400条数据。但实际上每秒的数据同样不好获取,本文爬取的数据,是从新浪财经提供的接口爬取来的,接口提供的数据是以3-6秒为单位。即使这样,再减去空头市场导致交易减少或某些因为涨停、跌停而导致该天停止交易的情况,保守估计,平均每天也有2000条以上的交易数据。而平均一年有250个以上的工作日,即一只股票一年就有500000条数据。假设取8年的数据作为训练集,则有4000000条数据。这只是一只股票,若同时爬取多只股票,数据量就更大了。沪深两股市,共有3700只以上的股票,若同时爬取所有股票,则有14800000000条以上的数据。若将一只股票一天的数据量转换为文件大小,因为交易数据里不只有价格,还有交易时间、涨跌幅、成交量、成交额、交易性质等数据,所以保守估计,平均一只股票一天的数据量为60kb以上,一年的数据量就有15Mb以上。沪深所有股票平均一天的数据量为220Mb以上,一周就1Gb以上,保守估计一年就有60Gb以上的数据量。2.2框架设计从2.1节中可以看出,股票的高频数据量非常大。为了提高爬取的速度,多进程多线程的并行爬取框架是必须的。下图2.2.1是最初设计的数据爬取框架,四个模块分别为四个进程,每个进程内部都开启多线程,由外部的一个主进程负责开启这四个模块,四个模块并行运行。其中,curl模块负责向新浪财经接口请求数据,handle模块负责处理curl回来的数据,处理完后的数据交给save模块进行保存。模块之间的数据交流通过Queue来实现,每个模块实时地监听着对应的Queue是否有数据传进来,若有则马上处理。Control模块负责curl模块、handle模块、save模块的进度控制,负责监控各模块的完成情况,同时检测是否有死掉的线程或进程,若某一模块挂掉的线程数过多,则杀死该进程并在上次运行的地方重启该进程。厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析7图2-1数据爬取框架初始设计图然而这个框架实现出来后有两个缺点:1、Save模块、handle模块、curl模块是同时进行的,可是本文需要的数据,要求数据是有序的;可是并行抓回来的数据是无序的,所以handle模块并没做多少处理,save模块保存后的数据并不能直接使用,还要重新再处理一遍。2、Save模块将数据存进mysql里,在windows下mysql的并行连接数太少,连接稍微多点都会不断出错需要等待;这并不是最大的问题,mysql的写入速度太慢,这形成了巨大的瓶颈,curl模块和handle模块都完成了mysql还没写入多少数据,严重限制了整个系统的效率。下图2-2是改进后的框架。Curl模块和Handle模块同时进行,由Main主进程负责发起。Handle模块里,做了内存限制,当内存超过设定值时,会先将部分数据写到临时文件里,然后清空对应内存,以免内存过大。当Curl模块图2-2数据爬取框架设计图厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析8和Handle模块都结束后,Handle模块将数据传回主进程,主进程的process模块对数据进行更具体的操作(包括排序,等时间间隔取样,去除无用信息)。由于process模块进行的操作属于计算密集型的,所以开多线程并不会提高效率,反而把时间消耗在线程切换当中。Save模块此时接收到的数据,是处理完可以直接使用的数据,而且由于无用信息减少了,直接存成文件的速度非常快,没必要再开多线程。2.3数据存储结构与存储策略⑴、存储策略:mysql。把今天以前的所有数据都存进数据库;每天定时跑脚步加入实时数据。存储结构:分库分表存储。以股票所属板块和日期分库,以股票代号分表,一个表存储当天交易的所有相关数据,如下。图2-3优点:一旦爬取完数据后,以后每次查询都不需要重新爬取数据,而且把所有的完整数据都保存起来。缺点:如2.2所述,mysql插入数据的速度太慢了,严重影响效率。⑵、存储策略:存储为文件。先把今年以前的所有数据爬取完,剩下今年的数据,再根据需要实时爬取。存储结构:ⅰ、把所有数据都完整地保存起来,一只股票一个文件,包含着该股票的所有数据。优点:数据完整,想对数据做任意操作都可以。缺点:由于所有数据都保存起来了,存储空间可能会不足。ⅱ、将原来的信息经过处理后再保存起来,同一只股票一个文件,包含着该股票对 应的数据。优点:数据处理完后所占空间大大减少,且能直接被使用。缺点:限制了数据处理的灵活性。如想将以每5秒为单位的数据改成每10秒 为单位,但现在处理完后的数据已经是以每20秒为单位的,就没法处 理了。优点:不用重新爬取数据或爬取数据的时间只需非常少。缺点:索引数据很困难,不能直接取出某段时间的数据,必须做一系列复杂操作才行。⑶、存储策略:oss或亚马逊S3等云存储。先把今年以前的所有数据爬取完,剩下今年的数据,再根据需要实时爬取。存储结构:同2.3.2厦门大学本科毕业设计论文 基于BP神经网络的高频金融时间序列分析9优点:空间非常大,不用担心存储空间不足。缺点:收费;网络传输时间没有本地读文件速度快;同2.3.2缺点⑷、存储策略:不做存储,实时抓取。存储结构:没有。优点:数据操作方式非常灵活,做任何操作都没问题。缺点:每次重新抓取浪费时间。考虑到本文需要做各种各样的数据处理操作,最后选择了2.3.2与2.3.4策略的结合,某些情况下要求快速得到预测结果,使用2.3.2策略存储的数据;某些情况需要做不同对比实验,要求有高的数据操作灵活性。庆幸的是,如果只对单一只股票进行爬取,一般爬取8年的数据加上处理时间,也就3-4分钟。
    展开阅读全文
    1
      金牌文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:基于BP神经网络的高频金融时间序(论文和源码)php.rar
    链接地址:http://www.gold-doc.com/p-97666.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们
    copyright@ 2014-2018 金牌文库网站版权所有
    经营许可证编号:浙ICP备15046084号-3
    收起
    展开