您的位置:首页 > 新闻中心
五德新闻

25年的大数据:从SQL到云

2013-10-22

  早在1985年,数据量小,没有人努力解决信息过载。关系数据库和新的SQL查询语言只是这个时代。在工作中,员工要求100%的数据是内部业务数据,数据是高度结构化。用户从数据库中提取数据时,他们意识到他们需要它。
 
  快进到21世纪。今天,无论是在他们的工作和他们的社会生活中,每个人都不断拼杀信息量。大多数今天的数据是非结构化的,而且大部分是在文件,而不是结构性表。 许多实时的数据流,都在不断变化着。 在工作中,大多数员工所需要的数据,现在是外部数据,从Web分析工具,并从各种监控系统 - 各种客户、合作伙伴、员工、竞争对手、市场营销、广告、定价数据,基础设施和运营。今天,我们需要的是智能的IT系统,当他们需要它的时候,它可以为实时的用户自动分析,过滤和推动完全正确的数据。
 
  因此,如何在IT行业回应戏剧性的变化所带来的利弊,然后最近由实时社交网络和云基础。在这个新时代的大数据,现在有什么工具提供给用户的数据量呈几何级数增长。
 
  从1985年到2004年,SQL基本上是镇上唯一的游戏。大约在2004年,以谷歌为首的多家公司,包括eBay,雅虎和Facebook上,意识到他们需要去超越关系型数据库和SQL可以提供灵活的可扩展性、并行性、性能和数据水平。他们的解决方案是采用一种简单的并行编程框架,MapReduce和到位的SQL。MapReduce和Hadoop的开源版本,现已广泛应用于非常大的数据集进行分析。
 
  那么下一步是什么?如果SQL是第一代的大数据工具,第二代的工具是MapReduce / Hadoop,那么第三代的工具可能是什么样子呢?要回答这个问题,我们需要看的MapReduce / Hadoop的薄弱领域 - 这些领域是:(一)实时,及(b)易于使用。MapReduce的模型进行了优化用于大规模批量处理。 因此,它不是一个非常适合越来越多的应用需要实时处理的工具。该模型设计的Hadoop,由经验丰富的Java程序员使用。不幸的是,今天那些大数据挑战拼杀的绝大多数是“非程序员”。他们是个人还是企业用户,依靠Excel电子表格等工具处理他们的数据。
 
  因此需要像Hadoop的工具提供可扩展性、并行性、性能和数据的灵活性,而且还能够不断地处理实时数据流,并且使用电子表格作为第三代大数据的工具。我们一直在Cloudscale应对这一挑战。我们的Cloudcel服务提供了这样一个第三代的大数据工具。
 
  SQL仍然是一个伟大的工具,用于处理结构化,表格数据和事务性应用程序。MapReduce和Hadoop的是伟大的工具,如果你是一个程序员,你的任务是处理两个PB的历史数据,在不到24小时覆盖三千个服务器。我们现在也有第三种类型的大数据工具,使大多数的人获得一个简单的、易于使用的,但功能强大的和可扩展的基于云的服务,分析庞大的数据量,现在不断充沛他们的生活和他们的工作。