计算机前沿报告 8页

  • 179.00 KB
  • 2022-08-30 发布

计算机前沿报告

  • 8页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
  4. 网站客服QQ:403074932
计算机前沿技术课程报告姓名:王向晨学号:201010012672013.12.3\n大数据技术与应用作者:王向晨摘要从大数据技术和应用2个方面剖析大数据时代带来的影响。对数据采集,数据管理,计算处理,数据分析和数据展现5个关键技术环节进行了分析。总结和探讨了互联网、电信、金融、政府等关键领域大数据应用的初步经验。关键词大数据技术大数据应用大数据的意义是由人类日益普及的网络行为所伴生的,受到相关部门、企业采集的,蕴含数据生产者真实意图、喜好的,非传统结构和意义的数据。2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。各行各业对于数据的分析由来已久。大数据的不同,不仅仅在于数据量的剧增,更重要的是互联网的高速发展,带来的数据技术、数据应用、数据价值的变革。2000年之后,Google依托搜索引擎创新了数据处理等一系列技术,一是分布式并行计算和处理技术,提高了海量数据的运算能力,降低了计算成本,解决了摩尔定律周期内的瓶颈,为大数据分析提供了动力引擎;二是数据分析技术更加智能,人工干预更少,并且由于数据量更大,更多可能的相关关系被分析挖掘出来。进而智能推荐、价格预测等建立在海量数据分析之上的互联网应用取得了巨大成功,聚集了海量社会各方面信息的互联网上的价值,获得其他各行业的关注,数据分析不再局限于企业内部数据,而是移动终端、互联网等外部数据源,互联网数据应用的思想扩展到其他行业,如互联网金融、社会趋势预测、无人驾驶汽车等大数据应用模式。数据的价值也被重新审视,作为一种资源,数据逐渐具有商品化属性。2011年,麦肯锡、世界经济论坛等总结各种创新的数据应用,并发布一系列报告,在全世界掀起一股大数据热潮。1.大数据关键技术大数据并非一项新技术,其前身是商务智能BI。大数据是一系列信息技术的集合,包括数据采集、数据管理、计算处理、数据分析和数据展现5个关键技术环节。其中,数据管理、计算处理和数据分析3个环节的变革较大,本文将着重分析。\n1.1数据采集数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载(ETL,ExtractingTransformingLoading)。由于数据源不一样,数据采集的技术体系也不尽相同,其面临的挑战主要来自两方面,一是如何自动、实时地对接收的海量数数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数据的提取、转换和加载(ETL,ExtractingTransformingLoading)。由于数据源不一样,数据采集的技术体系也不尽相同,其面临的挑战主要来自两方面,一是如何自动、实时地对接收的海量数据相结合。1.2数据管理大数据对存储管理技术的挑战主要在于扩展性。首先是容量上的扩展,要求底层存储架构和文件系统以低成本的方式及时按需扩展存储空间。传统的NAS、SAN等存储架构下,存储和计算分离,进行数据计算时I/O容易成为瓶颈,文件系统也存在吞吐量和可扩展性差的问题。新的以谷歌GFS和HadoopHDFS为代表的系统中,普遍采用了分布式的存储架构,使得计算和存储节点合一,消除了I/O瓶颈,文件系统也采用分布式并行设计。但GFS/HDFS主要针对大文件的追加(Append)写入和读取进行了优化。下一步的重点是突破GFS/HDFS在写操作、小文件存取等方面的性能瓶颈,设计新的文件系统。其次是数据格式可扩展,满足各种非结构化数据的管理需求。传统的关系型数据库管理系统(RDBMS)为了满足强一致性要求,影响了并发性能的发挥,而采用结构化数据表的存储方式,对非结构化数据进行管理时缺乏灵活性。在谷歌BigTable和HadoopHBase等NoSQL数据库设计中,通过Key-value、文件等非二维表的存储形式增加灵活性,并且放松了一致性要求,只保证最终一致性,极大提升了并发性能。谷歌2012年公布的Spanner数据库,能够提供较强的一致性、支持SQL结构,可在全球任意位置部署,系统规模可达到100~1000万台机器。未来存储管理上的发展趋势是融合关系型和非关系型数据库特点,研发超大规模的新型数据库。1.3计算处理对大数据进行分析处理要消耗大量的计算资源,这对计算的速度和成本都提出了更高要求。采用并行计算是应对大计算量的普遍做法。但传统的并行计算系统,一般由专用的性能强大的硬件构成,造价昂贵,若想提高系统性能,需要采取纵向扩展(ScaleUp)的方式,即通过提升单机CPU性能、增加内存、扩展磁盘等达到性能提升。这种扩展容易达到瓶颈,难以支撑持续的计算能力扩展,而且成本很高。\n谷歌在2004年公开的分布式并行计算技术MapReduce及其之后的开源实现HadoopMapReduce目前已经成为应用最广泛的大数据计算框架。Map-Reduce系统由廉价而通用的普通服务器构成,通过添加服务器节点的方式可线性扩展处理能力(ScaleOut),在成本和可扩展性上有巨大的优势。MapRe-duce架构能够满足“先存后处理”的离线批量计算需求,但也存在局限性,其中最大的问题是时延过大,难以适用机器学习迭代、流处理等实时计算任务。为此,业界在MapReduce基础上,提出了多个不同的并行计算架构路线。如Yahoo的S4系统、Twitter的Storm系统是针对“边到达边计算”的实时流计算框架,可在一个时间窗口上对数据流进行在线实时分析,它们已经在实时广告、微博等系统中得到应用。谷歌2010年公布的Dremel系统,是一种(InteractiveAnaly-sis)引擎,在PB级数据上的查询操作几秒钟就可完成。此外,还出现了将MapReduce内存化以提高实时性的Spark框架、针对大规模数据进行了优化的Pregel系统等。总结起来,下一步大数据计算技术的主要方向将集中在研发实时性高的大规模并行处理技术上,以支撑超大规模机器学习、超大规模流量计算等实时分析需求。1.1数据分析据统计,在人类掌握的全部数据中,大约有20%是结构化数据,80%是半结构化和非结构化数据。其中,仅有1%的数值型数据得到各个行业的广泛分析利用,但也仅仅应用了简单的分析模型。虽然部分大型互联网企业已经开展了大数据应用,但只局限在结构化数据和网页、log等半结构化数据的简单分析上。占总量近60%的语音、图片、视频等非结构化数据尚未得到开发利用,仍然处于沉睡状态。因此,当前大数据分析技术面临的挑战,一方面是要对结构化和半结构化数据开展深度分析,另一方面是要开发非结构化数据的宝藏,从而将海量复杂多源的数据转化为有用的知识。目前来看,借助人工智能技术进行大数据分析,是一条前景广阔的道路。虽然自1950年提出图灵测试以来,迄今尚未有真正通过测试的人工智能技术出现,人工智能技术也一度陷入僵局。2006年,GeoffreyHinton等人根据人脑认知过程的分层特性,提出增加神经网络层数,加大学习规模,可提高训练效果,并在后续试验中得到证实。基于深度神经网络的深度学习技术(DeepLearning)让面临大数据分析难题的研究人员“看见了曙光,但前路漫漫”,还需要做大量工作才能真正商用。未来大数据分析的一个主要方向是深度学习算法研究和数十亿节点的大规模神经网络构建。\n1.1数据展现数据展现主要是如何以更直观和互动的方式展示分析结果,便于人们理解。大数据的分析系统必须提供数据来源、分析过程、查询机制等一系列信息,并以可视化的方式呈现出来。目前,可视化技术多与Web技术相结合,以图形或图像的格式呈现,比如SVG一系列的绘图技术和最新的HTML5的画布等。未来三维动态呈现是趋势。2.大数据的应用大数据应用基本呈现互联网领先,其他行业积极效仿的态势。各行业数据共享开放是趋势。大数据应用的关键,也是其必要条件,就在于“IT”与“经营”的融合。当然,这里的经营的内涵可以非常广泛,小至一个零售门店的经营,大至一个城市的经营。以下是我整理的关于各行各业,不同的组织机构在大数据方面的应用的案例,在此申明,以下案例均来源于网络,本文仅作引用,并在此基础上作简单的梳理和分类。2.1互联网应用互联网企业引领大数据应用,并逐步深入其他行业。互联网企业开展大数据应用具有得天独厚的优势。一是互联网企业如谷歌和亚马逊等拥有丰富的数据和强大的技术平台;二是互联网大数据应用不是飞跃型的,而是靠获取长期的累积效益;三是累积效益的获取,主要靠持续不断的快速技术迭代。互联网企业一直奉行敏捷开发、快速迭代的软件开发理念;四是技术和应用一体化组织,是快速迭代的保障。基于以上的优势,掌握大量用户行为数据的谷歌、亚马逊、Twitter、淘宝、新浪等互联网企业已广泛开展定向广告、个性推荐等较成熟的大数据应用。在此基础上,2012年谷歌发布了其大数据的跨界应用——无人驾驶汽车,依靠庞大的道路信息数据(每秒钟会采集超过750M的数据),无人驾驶汽车可以智能地选择路径和驾驶等。国内互联网企业以阿里巴巴为代表,在2012年7月推出数据分享平台“聚石塔”,为天猫、淘宝平台上的电商等提供数据云服务,并扩展到金融领域和物流行业。阿里巴巴基于对用户交易行为的大数据分析,提供面向中小企业的信用贷款,据透露,截至目前已经放贷300多亿元,坏账率仅为0.3%左右。而2013年5月阿里巴巴刚刚成立的“菜鸟”网络物流,也是基于大数据平台分析,联手各大物流企业,选择最高效的送达方式。2.2电信应用\n电信运营商和互联网企业的较量也蔓延到了大数据应用。其实电信行业一直有数据分析的应用,只不过主要用于优化自身业务,价值提升度不大。比如,智能管道中基于用户、业务及流量分级的多维管控机制,以及精准的客户分析及营销(如离网预警、套餐适配、广告精准投放等),这些应用大多数电信运营商已践行。由于互联网大数据的成功,电信业重新审视自身的数据优势,一是用户的真实信息(用户身份、用户账户等);二是用户行为的全维度信息(所有Web的访问记录、位置信息等),基于这些优势,一些服务公共社会的应用逐步展开,像智慧城市、利用位置和轨迹信息服务社会、为智慧城市提供海量数据预测服务(例如西班牙电信、中国电信、中国移动等都已开展人口流量模型、城市人口流量等)。而最新的应用,向其他行业提供数据分析结果,似乎为电信运营商大数据应用展现一缕曙光。Verizon推出的PrecisionMarketInsights包括位置和Web浏览信息在内的用户分组信息(并非用户原始信息),被以有偿方式提供给体育场馆、商场等需要做营销的公司,如太阳队就用它来了解观众赛后是否更有意愿光顾比赛的赞助商。面对自身数据不足,不易获得用户互联网或其他行业某一维度的深度行为信息,部分运营商也开始与互联网企业展开合作,引入用户的深度行为信息。Orange与Facebook合作推出PartyCall,Facebook账号与电话号码绑定,将Face-book的开放社交图谱引入电信,为其他行业提供API或加工后的用户行为特征信息。2.3金融应用在传统行业的大数据应用中,金融的大数据应用走在前列。金融行业很早就有将客户交易行为录制后进行分析的传统。我国金融行业也多采购国外的录制设备(比如NICE和彭博的产品),国内厂商的产品不多。2013年5月,全球最大的金融信息服务供应商彭博涉嫌泄露用户的行为信息,引发中国央行、欧洲央行、德国央行的高度关注。彭博数据终端被全球央行、投资银行和基金公司广泛使用,能够监测到客户所热衷查询的信息页面,例如美联储主席伯南克以及前财长盖特纳登录彭博终端的情况,并可由此用大数据技术推测其将采取的行动。可见,大数据的安全愈发重要,我国金融行业对国内厂商的产品需求会增大。2.4政府应用美国等先进国家政府部门开展大数据应用。美国国家科学基金会、国家卫生研究院、国防部、能源部、国防部高级研究局、地质勘探局等6个联邦政府的部门和机构投资2亿美元,开展大数据政府应用。美国国防部开展与网络安全相关的若干大数据项目,进行情报搜集和分析。美国国家卫生研究院着手建立健康与疾病相关的数据集、基因组信息系统、公众健康分析系统以及老龄化电子图书数据库等医疗大数据系统。国际上,早在2009年,联合国就启动全球脉搏项目,跟踪和监控全球和各地区的社会经济数据,采用大数据技术进行分析处理,以便更加及时地对危机做出反应。我国政府尚未把大数据上升到战略高度,政府部门的大数据应用案例也较少。\n2.5零售业应用[1]“我们的某个客户,是一家领先的专业时装零售商,通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务,如何定位公司的差异化,他们通过从Twitter和Facebook上收集社交信息,更深入的理解化妆品的营销模式,随后他们认识到必须保留两类有价值的客户:高消费者和高影响者。希望通过接受免费化妆服务,让用户进行口碑宣传,这是交易数据与交互数据的完美结合,为业务挑战提供了解决方案。”Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据,使他的业务服务更具有目标性。[2]零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析,从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见,此类方法已经帮助某领先零售企业减少了17%的存货,同时在保持市场份额的前提下,增加了高利润率自有品牌商品的比例。2.6能源行业应用[1]智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2~3个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。[2]维斯塔斯风力系统,依靠的是BigInsights软件和IBM超级计算机,然后对气象数据进行分析,找出安装风力涡轮机和整个风电场最佳的地点。利用大数据,以往需要数周的分析工作,现在仅需要不足1小时便可完成。3.结束语大数据时代已经到来,技术和应用的变革推动数据价值的重新定义,数据共享开放是趋势。如何安全地使用数据价值以及如何定价数据,还在不断的摸索中,目前市场已有的多种尝试,比如提供数据的再加工后的结果,而不是原始数据,成为一种可能的方向。市场需要建立一套数据收集和使用的机制以及标准规范体系,解决各行业如何共享数据、数据共享到什么程度、哪些企业之间可以共享等问题,以促进大数据的健康发展。\n参考文献1.大数据的深意.http://www.programmer.com.cn/9750/6http://wikibon.org/wiki/v/Big_Data_Market_Size_and2.大数据行业应用现状与未来应用热点.http://wenku.baidu.com/view/276f1619c5da50e2524d7f45.html83.http://news.watchstor.com/industry136574.htm4.大数据的应用http://wenku.baidu.com/view/8878312b5901020207409cc1.html5.http://www.xssc.ac.cn/ReadBrief.aspx?ItemID=940

相关文档