• 梅林信息网
  • 您的位置:首页 >> 热点专题 >> 正文

    重庆·选择不凡 华为云城市峰会2019,为您揭开大数据的未来之路

    发表时间:2019-09-12 信息来源:www.dawnmsara.com 浏览次数:725

     

    “大数据”的概念已存在超过15年。在社会对其浮躁的认识消退之后,它已经在各个领域成熟,从最初的互联网搜索行业到企业运营和制造,再到城市。治理和教育等。

    当“大数据”从一些组织的技术杀手变为每个企业可以快速应用的通用技术时,技术发展似乎已经进入了一个相对稳定的答案。我们不禁要问,大数据的未来在哪里?

    我们不讨论当今每个人都熟悉的经典应用案例,而是来自作者的替代大数据体验。

    你正在玩游戏,其他人在玩“大数据”。

    去年,“吃鸡”游戏《绝地求生》大火,我也积极打电话给相应的朋友圈,除了加班投资鸡队之外,当然大部分时间都不可避免地会变成“盒子”开场杀戮的开始)。

    所以,为了改善记录,我改变了1080TI显卡,升级了2个内存,并购买了高性能鼠标,但这仍然是一个悲剧。再一次证实,毛主席说的是“这不是决定战争结果的一两件新武器”。

    直到我最近看到一篇文章,我从大数据的角度分析了20G游戏日志数据,这让我意识到。

    该文章的作者获得了近70万个游戏中数据集的杀戮,然后使用Mathematica工具进行简单的大数据分析,并得出了几个结论。

    1.首先,通过分析凶手和被杀者的相对位置信息,可以得出结论:“房屋靠近房屋的视觉死角可以大大降低被杀的几率。”

    2.通过分析杀戮的坐标信息并分析最容易被杀的游戏区域,玩家可以根据自己的游戏策略选择进入高风险区域或避开高风险区域。

    3.通过对杀人次数的统计,可以得出结论:“杀死15个对手的玩家有75%的机会赢得比赛”。说明在游戏中,只有杀死对手才是赢得最后胜利的关键。

    根据大数据分析的结论,我开始玩了几天。虽然我仍然没有吃鸡肉,但整体游戏性能却有了显着提升。只要有数据,每个人都可以播放大数据。

    2.今天大数据是如何发生的?

    2004年左右,谷歌发表了三篇论文,标志着计算机大数据时代的开启。这三篇文章是《分布式文件系统 GFS》,《分布式计算框架 MapReduce》和《NoSQL 数据库 BigTable》,俗称“三驾马车”。

    2005年,由于其技术效率,Hadoop由Apache Software Foundation作为开源应用程序引入。

    2008年底,计算社区联盟发布了一份白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,成为第一个提出大数据概念的机构。

    2010年,Kenneth Cookeer在《经济学人》上发布了大数据报告《数据,无所不在的数据》,成功地看到了大数据时代的趋势。

    2012年,Victor Meyer Schonberg发表了《大数据时代:生活、工作与思维的大变革》,提出大数据的核心是预测。这本书也成为大数据的必读书。

    2012年,美国政府在白宫网站上发布了《大数据研究和发展倡议》,标志着大数据已成为时代的重要特征。

    2014年,“大数据”这个词首次出现在中国《政府工作报告》,引发了国内大数据研究和应用浪潮。

    2016年,Spark在大数据行业中大受欢迎,包括小发猫在内的大公司都采用了这种经济实惠的分布式计算开源框架。它标志着大数据的新技术里程碑。

    2019年,着名的大数据软件公司Cloudera和Hortonworks宣布合并,另一个大数据独角兽MapR被HPE收购,标志着大数据商业软件时代的结束,并预示着大数据的另一个未来。

    3.大数据的未来在哪里?

    在过去十年中,硬件性能,尤其是网络性能,一直是大数据应用的瓶颈。 Genius架构师自然会想到集群大数据系统架构。

    1)分布式集群的集中部署

    单服务器提供有限的计算能力,使用大规模服务器形成分布式集群,数万个普通CPU并行计算突破了单服务器计算能力限制。

    2)数据被分发并存储在物理机的每个硬盘上

    每台服务器安装几十个普通硬盘,并使用多台服务器构建分布式存储系统,有效解决了大规模数据存储的问题。

    3)数据本地化

    从远程物理机读取数据的数据处理任务很昂贵。将数据作为“中心”,数据处理任务将迁移到数据所在的物理机器,从而有效降低网络带宽并确保整体性能。

    这是集成的大数据技术架构。经过十多年的发展,网络性能提升了100倍,内存容量增加了数十倍。大数据处理的瓶颈逐渐从网络转移到CPU,并且上述集成计算架构的缺点逐渐显现。

    1)刚性扩张,浪费资源

    不同场景所需的存储空间和功率比是不同的。在实际使用中,要么计算资源达到瓶颈,要么存储容量不足,集群只能严格扩展,导致集群资源浪费。

    2)资源不灵活

    在不同的情况下,不同时期所需的计算能力不固定,并且存在峰值和谷值。在物理机器中存储数据使得不可能大规模地关闭空闲节点,从而导致空闲功率和能量浪费。

    3)数据岛

    随着企业数据和存储在不同系统中的多种数据类型的共存,形成了数据孤岛,并且互访转换的成本很高,这限制了对数据价值的进一步探索。

    4)工作拥挤

    随着数据采集技术和网络技术的发展,企业已成为EB级数据的正常状态,单个大数据分析操作需要读取数百TB甚至PB级数据,而且多任务并发性非常高容易发生工作拥堵。影响公司的正常运作。

    华为预测,到2025年,全球新的数据存储容量将达到180ZB,企业的数据利用率将达到86%。如此庞大的数据如何有效地分析其价值?显然,现有的大数据架构已经不能满足未来的需求。那么,大数据的未来在哪里?

    8月27日,在重庆悦来国际会议中心举行的“重庆选择不寻常的华为云城峰会2019”,将发布鲲鹏大数据解决方案,揭示大数据的未来。想进一步了解峰会详情,搜索:华为云官方网站 - 最新活动 - 城市峰会 - 重庆,选择非凡的华为云城峰会2019。

    ——

  • 热门标签

  • 日期归档

  • 友情链接:

    梅林信息网 版权所有© www.dawnmsara.com 技术支持:梅林信息网 | 网站地图