五德新闻

检查大数据的真实成本

2013-10-26

　　我们一般都同意大数据是市场内的好消息，这已经到了被称为数据数量，速度和各种企业需要收集、存储、管理和分析，以大数据的定义获得商业价值，或以其他方式被称为“4 V。” 然而，这样一个广泛的定义的问题是，一旦你开始把那些V的一些实际值，它可能意味着不同的事情不同的人。

　　说实话，体积可以是不同的事情不同的组织。对有些人来说是任何超过10TB管理他们的BI环境和他人的数据，同样的速度可以从各种外部和内部网络的日常记录多亿元进入企业。当它真正归结到它，每个企业的情况会有很大的不同，不仅从规模和速度的角度来看，但也更重要的业务用例或规定。一家大型银行，一个在线零售商或航空公司的大数据问题可能是非常不同的。如果一家医院试图做的是运行智能电网公用设施提供商或电信运营商相比，所有的传感器数据的收集和分析。当然，所有可能被归类为机器生成的原始数据，但数据的确切类型提量或增长率可能会有所不同。可能是一个在所有上述行业唯一的共同点是，每个人都保持较长的时间周期的数据。

　　许多成本要考虑的因素

　　费用当然取决于个人分配的IT预算，但不管公司如何分配IT预算资金，都需要考虑新的大数据倡议。让我们面对企业买家突然来了一堆新发现的IT资产，或在自己的预算和当前世界经济形势的行项目肯定不会建议的。更可能现有的预算被重新分配，而不是花更多的时间说现有的传统数据仓库或家电，款项被分配到新项目上运行开源项目，包括Apache Hadoop，既成本低易于规模不提显而易见的最好的办法管理和分析多结构数据集。

　　利用已经规划的设想

　　今天让我们假设有一个数据仓库或数据集市，你已经在使用各种ETL或数据移动工具和BI仪表板，分析或报告工具，你不想破坏企业用户。这不仅可以影响性能水平，也可以训练一组新的工具。事实上你可能已经依赖于严格的SLA周围的各种业务报表和KPI的响应时间。然而，在同一时间，业务要求访问新的数据集，以便搜集更好的见解可直接分析这些数据，或与现有的客户数据相互混合。这可能会采取网络日志的形式，点击流数据或从各种互动网站业务现利用和跟踪社交媒体数据。影响利润率并获得竞争优势的承诺。

　　正如我们都知道，传统的关系型或柱状数据库不能处理非结构化数据类型，因此它需要推出不同的解决方案以满足业务需求。评估可以采取多种形式的NoSQL，NewSQL数据库和查询访问工具。这当然是不容易的任务，因为有大量的技术解决方案，目前市场上的声称上运行或与Hadoop提供的MapReduce或类似SQL的能力，大量非结构化数据的管理都满足要求。有些是比别人更成熟一些行之有效的。大数据项目不只是一条线，因为这将需要包括正确推出大数据的解决方案和真正满足业务需求所需的所有组件。就像任何其他的IT环境将包括：软件许可和支持、硬件、熟练的专用资源、专业服务、培训和企业用户提供专门的时间输入的关键要求，包括指定类型的报表，查询和分析自然会改变。

　　大数据的成本快速攀升

　　如果你的数据速度是显著的，你可以很快达到100个以上的节点，现在你将面对的一些其他费用，包括增聘人手及技术资源，包括系统管理和告警管理环境，积极和潜在的新增软件业务用例，它可以改变掩盖真正的对数据流的实时分析说，欺诈检测或检测不寻常的图案。您可能还需要一种商业工具，提供前端的GUI仪表板来跟踪特定KPI或数据可视化工具，让企业用户可以很快明白是怎么回事。

　　大数据带来巨大的新的机遇，这是无可否认的事实，在快速的时间框架的角度达到可量化的投资回报率仍是一个非常现实的挑战。大家都在谈论大数据和所有的创新技术解决方法，它仍然是很难找到任何一个行业内的很多企业成功的故事。仍然是相当不成熟的，但好消息是，以更快的速度比其他任何IT项目的今天，当然我们的数据仓库和BI的前辈在过去二十年的经验教训。

　　大数据是大企业，但它同样也配备了严格的要求

　　如果我们想更仔细地审查大数据项目支出的主要领域，它通过特定类型的业务和使用情况，让我们一家大型金融机构，拥有一批现有的传统数据仓库/ BI环境，但因为业务不希望抛出任何数据，切实企业要保持持续的趋势和分析特定的数据集。这包括研究的问题，如“什么构成一个低风险的客户，一个特定的时间内根据消费行为模式人口统计”，这将帮助该机构更好地针对特定的细分市场交叉引用。

　　由于IT预算不允许相关数据增长率增加，他们需要认真地降低成本，所以决定走的路线基于Hadoop环境的低成本规模的承诺和事实，可以提供洞察客户模式，捕捉半和非结构化数据。前结束的仓库配有专用的Hadoop集群是首选的建筑方法，但企业用户仍想访问Hadoop环境和现有的传统数据仓库环境。

　　与此同时，如果企业的用户要访问的数据，SQL查询访问和使用当前的BI工具针对该组新的数据也是有要求的。在一个理想的世界中，能够利用技能设置你已经有了和避免重复工作才是最关键的。