- 179.00 KB
- 2022-08-30 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
计算机前沿技术课程报告姓名:王向晨学号:201010012672013.12.3\n大数据技术与应用作者:王向晨摘要从大数据技术和应用2个方面剖析大数据时代带来的影响。对数据采集,数据管理,计算处理,数据分析和数据展现5个关键技术环节进行了分析。总结和探讨了互联网、电信、金融、政府等关键领域大数据应用的初步经验。关键词大数据技术大数据应用大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。各行各业对于数据的分析由来已久。大数据的不同,不仅仅在于数据量的剧增,更重要的是互联网的高速发展,带来的数据技术、数据应用、数据价值的变革。2000年之后,Google依托搜索引擎创新了数据处理等一系列技术,一是分布式并行计算和处理技术,提高了海量数据的运算能力,降低了计算成本,解决了摩尔定律周期内的瓶颈,为大数据分析提供了动力引擎;二是数据分析技术更加智能,人工干预更少,并且由于数据量更大,更多可能的相关关系被分析挖掘出来。进而智能推荐、价格预测等建立在海量数据分析之上的互联网应用取得了巨大成功,聚集了海量社会各方面信息的互联网上的价值,获得其他各行业的关注,数据分析不再局限于企业内部数据,而是移动终端、互联网等外部数据源,互联网数据应用的思想扩展到其他行业,如互联网金融、社会趋势预测、无人驾驶汽车等大数据应用模式。数据的价值也被重新审视,作为一种资源,数据逐渐具有商品化属性。2011年,麦肯锡、世界经济论坛等总结各种创新的数据应用,并发布一系列报告,在全世界掀起一股大数据热潮。1.大数据关键技术大数据并非一项新技术,其前身是商务智能BI。大数据是一系列信息技术的集合,包括数据采集、数据管理、计算处理、数据分析和数据展现5个关键技术环节。其中,数据管理、计算处理和数据分析3个环节的变革较大,本文将着重分析。\n1.1数据采集数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载(ETL,ExtractingTransformingLoading)。由于数据源不一样,数据采集的技术体系也不尽相同,其面临的挑战主要来自两方面,一是如何自动、实时地对接收的海量数数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载(ETL,ExtractingTransformingLoading)。由于数据源不一样,数据采集的技术体系也不尽相同,其面临的挑战主要来自两方面,一是如何自动、实时地对接收的海量数据相结合。1.2数据管理大数据对存储管理技术的挑战主要在于扩展性。首先是容量上的扩展,要求底层存储架构和文件系统以低成本的方式及时按需扩展存储空间。传统的NAS、SAN等存储架构下,存储和计算分离,进行数据计算时I/O容易成为瓶颈,文件系统也存在吞吐量和可扩展性差的问题。新的以谷歌GFS和HadoopHDFS为代表的系统中,普遍采用了分布式的存储架构,使得计算和存储节点合一,消除了I/O瓶颈,文件系统也采用分布式并行设计。但GFS/HDFS主要针对大文件的追加(Append)写入和读取进行了优化。下一步的重点是突破GFS/HDFS在写操作、小文件存取等方面的性能瓶颈,设计新的文件系统。其次是数据格式可扩展,满足各种非结构化数据的管理需求。传统的关系型数据库管理系统(RDBMS)为了满足强一致性要求,影响了并发性能的发挥,而采用结构化数据表的存储方式,对非结构化数据进行管理时缺乏灵活性。在谷歌BigTable和HadoopHBase等NoSQL数据库设计中,通过Key-value、文件等非二维表的存储形式增加灵活性,并且放松了一致性要求,只保证最终一致性,极大提升了并发性能。谷歌2012年公布的Spanner数据库,能够提供较强的一致性、支持SQL结构,可在全球任意位置部署,系统规模可达到100~1000万台机器。未来存储管理上的发展趋势是融合关系型和非关系型数据库特点,研发超大规模的新型数据库。1.3计算处理对大数据进行分析处理要消耗大量的计算资源,这对计算的速度和成本都提出了更高要求。采用并行计算是应对大计算量的普遍做法。但传统的并行计算系统,一般由专用的性能强大的硬件构成,造价昂贵,若想提高系统性能,需要采取纵向扩展(ScaleUp)的方式,即通过提升单机CPU性能、增加内存、扩展磁盘等达到性能提升。这种扩展容易达到瓶颈,难以支撑持续的计算能力扩展,而且成本很高。\n谷歌在2004年公开的分布式并行计算技术MapReduce及其之后的开源实现HadoopMapReduce目前已经成为应用最广泛的大数据计算框架。Map-Reduce系统由廉价而通用的普通服务器构成,通过添加服务器节点的方式可线性扩展处理能力(ScaleOut),在成本和可扩展性上有巨大的优势。MapRe-duce架构能够满足“先存后处理”的离线批量计算需求,但也存在局限性,其中最大的问题是时延过大,难以适用机器学习迭代、流处理等实时计算任务。为此,业界在MapReduce基础上,提出了多个不同的并行计算架构路线。如Yahoo的S4系统、Twitter的Storm系统是针对“边到达边计算”的实时流计算框架,可在一个时间窗口上对数据流进行在线实时分析,它们已经在实时广告、微博等系统中得到应用。谷歌2010年公布的Dremel系统,是一种(InteractiveAnaly-sis)引擎,在PB级数据上的查询操作几秒钟就可完成。此外,还出现了将MapReduce内存化以提高实时性的Spark框架、针对大规模数据进行了优化的Pregel系统等。总结起来,下一步大数据计算技术的主要方向将集中在研发实时性高的大规模并行处理技术上,以支撑超大规模机器学习、超大规模流量计算等实时分析需求。1.1数据分析据统计,在人类掌握的全部数据中,大约有20%是结构化数据,80%是半结构化和非结构化数据。其中,仅有1%的数值型数据得到各个行业的广泛分析利用,但也仅仅应用了简单的分析模型。虽然部分大型互联网企业已经开展了大数据应用,但只局限在结构化数据和网页、log等半结构化数据的简单分析上。占总量近60%的语音、图片、视频等非结构化数据尚未得到开发利用,仍然处于沉睡状态。因此,当前大数据分析技术面临的挑战,一方面是要对结构化和半结构化数据开展深度分析,另一方面是要开发非结构化数据的宝藏,从而将海量复杂多源的数据转化为有用的知识。目前来看,借助人工智能技术进行大数据分析,是一条前景广阔的道路。虽然自1950年提出图灵测试以来,迄今尚未有真正通过测试的人工智能技术出现,人工智能技术也一度陷入僵局。2006年,GeoffreyHinton等人根据人脑认知过程的分层特性,提出增加神经网络层数,加大学习规模,可提高训练效果,并在后续试验中得到证实。基于深度神经网络的深度学习技术(DeepLearning)让面临大数据分析难题的研究人员“看见了曙光,但前路漫漫”,还需要做大量工作才能真正商用。未来大数据分析的一个主要方向是深度学习算法研究和数十亿节点的大规模神经网络构建。\n1.1数据展现数据展现主要是如何以更直观和互动的方式展示分析结果,便于人们理解。大数据的分析系统必须提供数据来源、分析过程、查询机制等一系列信息,并以可视化的方式呈现出来。目前,可视化技术多与Web技术相结合,以图形或图像的格式呈现,比如SVG一系列的绘图技术和最新的HTML5的画布