大数据2018：让用户4个值得兴奋的理由都有哪些

PConline 2019-01-11 12:31:29

云计算专区

　　【PConline 杂谈】随着人们对大数据的预测和预期不断加速，企业数据团队发现自己正处于一个快速变革的领域，既受到各种可能性的鼓舞，又因为各种局限性受折磨。2018年，大数据将继续沿着这两条路线发展：提供更多提高了可访问性的选择，同时又让那些寻找所有复杂问题答案的企业感到沮丧。对于刚加入大数据热潮和已经充分涉足的企业，我们总结了：

　　四个值得兴奋的理由：

　　- 机器学习方法变得更容易获得了

　　- 数据不会短缺

　　- 大数据工具可以更有效地进入企业

　　- 基础设施上升到支持大数据的数量和速度

　　兴奋点：

　　机器学习方法变得更容易获得

　　生产就绪的机器学习工具和模型的兴起，将成为2018年大数据能让人们兴奋起来的原因之一。机器学习模型可以准确地识别数据流中的特定模式。在已经被数据淹没的环境中，这种能力提供了高价值和独特的优势，整个业界也作出了相应的回应。

　　数据科学家可以利用越来越多的开源机器学习框架，包括Google的TensorFlow、Apache MXNet、Facebook Caffe2和Microsoft Cognitive Toolkit等等。最重要的是，建立模型的任务变得从未如此简单。例如，AWS提供深度学习AMI（Amazon Machine Images），其中已经内置了机器学习框架，可在AWS云上使用。对于那些刚刚起步的人来说，Google的TensorFlow Playground可以帮助用户使用简单数据集和预先训练好的模型，更多地了解机器学习框架下的神经网络

　　即使不深入研究机器学习算法的内部工作远离，开发人员也可以开始将这些技术应用于数据集。Google TensorFlow提供预先训练好的模型和示例，以及TensorFlow框架和针对如自然语言处理、音频识别和图像识别等应用流程。

　　对于更有经验的用户来说，使用机器学习会简单得多。由Facebook和微软推出的开放神经网络交换（ONNX）格式为在机器学习框架之间移动的模型提供了一个标准。除了这些公司对Caffee2和Cognitive Toolkit的早期支持之外，亚马逊最近还推出了一个开源的Python软件包，用于将ONNX模型导入Apache MXNet。

　　兴奋点：

　　数据不会短缺

　　随着企业完成他们的数字化转型，物联网等（图2）重要项目催生了很多新的数据源，因此数据科学家不会缺少数据的。受这些和其他来源的驱动，与大数据相关的每个参数都将继续迅速演变：数据量自然会随着来源的增加而呈现上升趋势；随着企业提高数据分解以降低粒度，数据速度将会增加；随着物联网应用上线，以及企业合作伙伴共享关键数据源，数据的多样性将会随之迅速增加。

　　然而，随着企业在生产中使用更深层次的分析和机器学习模型，数据科学家的工作将因为可以得到中立数据集而受益，用于测试和优化数据处理链、机器学习模型的广泛类别、甚至是算法本身。幸运的是，数据科学家可以随时访问各种公共数据集。例如，AWS提供了对环境、生命科学、图像等公共数据集的免费访问。同样，Google提供了各种各样的BigQuery公共数据集，其中包括GitHub代码、NOAA天气数据等等。数据科学家还可以通过data.gov访问超过20万个美国政府开放的数据源。

　　兴奋点：

　　大数据工具可以更有效地进入企业

　　从Hadoop和MapReduce早期开始，大数据分析工具已经发展成为一系列广泛的工具和平台。2018年，这种趋势将持续下去，人们越来越频繁地将数据提炼成更有用的信息，并利用一系列开放源代码和专有软件包来跟上数据快速增长的步伐。

　　随着企业要应对更多的数据生产者和消费者，大数据需求甚至超越了功能强大的Hadoop分布式文件系统（HDFS）的功能。今天，企业面临着结构化和非结构化数据的混合，传统批处理、流分析和来自任意数量数据存储库的交互式查询等等这些复杂而混合的分析场景。大数据架构试图通过构建在（用于数据管理和计算的）高性能框架上的综合工具链来满足这些要求。Apache Hadoop框架已经发展到包含大量解决大数据分析方面问题的工具，以及相关的Apache项目解决了更为复杂的需求。例如，Apache Spark补充了Hadoop以批处理为主导的MapReduce处理模型，提供了对数据流和交互式查询的实时分析。Apache Yarn提供了一个复杂的框架，其中包含资源管理器和作业调度程序，能够协调多个计算节点上的多个应用。因此，Apache Spark可以作为独立服务运行，也可以使用Yarn作为Hadoop集群上的Hadoop模块运行。

　　随着企业将不同来源的结构化数据和非结构化数据汇集到数据湖中，相同的做法被作为扩展大数据工具范围的基础。例如，Kylo开源平台建立在Apache框架之上，以解决相应更复杂的数据流和数据管理要求。

　　兴奋点：

　　基础设施上升到支持大数据的数量和速度

　　越来越多的数据、工具和支持平台，当然就意味着对合适的计算基础设施不断增长的需求，大数据工作者不会对2018年感到失望的。超大规模云服务提供商将继续扩大数据中心来满足这些需求，提供更多的集群和更快存储运行在更快的网络上。这也使更多的传统企业软件公司变成了硬件开发公司。例如，AWS使用自己的定制路由器，这些定制路由器使用基于Broadcom Tomahawk的专用ASIC来支持128个25 GbE通道。

　　在开放计算项目（OCP）的努力下，开源硬件在数据中心中不断获得推动力。 OCP在提高数据中心性能和效率方面的合作方式已经不仅仅是体现作为一个讨论用的公开论坛。参与者继续分享开放的规范。例如，微软在去年分享了Project Olympus服务器机架设计之后，向OCP社区提供了专注于平台安全的Project Cerebus规范。

　　随着基础架构的速度和容量的不断攀升，企业经常发现自己仍然要面对各种不同的Hado哦派配置等问题。有一个工作组一直在致力于简化这其中的流程。在Linux基金会的主导下，ODPi试图消除对于不同平台的多个Hadoop发行版的需求。[返回频道首页]

点击展开全文