五德新闻

25年的大数据：从SQL到云

2013-10-22

　　早在1985年，数据量小，没有人努力解决信息过载。关系数据库和新的SQL查询语言只是这个时代。在工作中，员工要求100％的数据是内部业务数据，数据是高度结构化。用户从数据库中提取数据时，他们意识到他们需要它。

　　快进到21世纪。今天，无论是在他们的工作和他们的社会生活中，每个人都不断拼杀信息量。大多数今天的数据是非结构化的，而且大部分是在文件，而不是结构性表。许多实时的数据流，都在不断变化着。在工作中，大多数员工所需要的数据，现在是外部数据，从Web分析工具，并从各种监控系统 - 各种客户、合作伙伴、员工、竞争对手、市场营销、广告、定价数据，基础设施和运营。今天，我们需要的是智能的IT系统，当他们需要它的时候，它可以为实时的用户自动分析，过滤和推动完全正确的数据。

　　因此，如何在IT行业回应戏剧性的变化所带来的利弊，然后最近由实时社交网络和云基础。在这个新时代的大数据，现在有什么工具提供给用户的数据量呈几何级数增长。

　　从1985年到2004年，SQL基本上是镇上唯一的游戏。大约在2004年，以谷歌为首的多家公司，包括eBay，雅虎和Facebook上，意识到他们需要去超越关系型数据库和SQL可以提供灵活的可扩展性、并行性、性能和数据水平。他们的解决方案是采用一种简单的并行编程框架，MapReduce和到位的SQL。MapReduce和Hadoop的开源版本，现已广泛应用于非常大的数据集进行分析。

　　那么下一步是什么？如果SQL是第一代的大数据工具，第二代的工具是MapReduce / Hadoop，那么第三代的工具可能是什么样子呢？要回答这个问题，我们需要看的MapReduce / Hadoop的薄弱领域 - 这些领域是：（一）实时，及（b）易于使用。MapReduce的模型进行了优化用于大规模批量处理。因此，它不是一个非常适合越来越多的应用需要实时处理的工具。该模型设计的Hadoop，由经验丰富的Java程序员使用。不幸的是，今天那些大数据挑战拼杀的绝大多数是“非程序员”。他们是个人还是企业用户，依靠Excel电子表格等工具处理他们的数据。

　　因此需要像Hadoop的工具提供可扩展性、并行性、性能和数据的灵活性，而且还能够不断地处理实时数据流，并且使用电子表格作为第三代大数据的工具。我们一直在Cloudscale应对这一挑战。我们的Cloudcel服务提供了这样一个第三代的大数据工具。

　　SQL仍然是一个伟大的工具，用于处理结构化，表格数据和事务性应用程序。MapReduce和Hadoop的是伟大的工具，如果你是一个程序员，你的任务是处理两个PB的历史数据，在不到24小时覆盖三千个服务器。我们现在也有第三种类型的大数据工具，使大多数的人获得一个简单的、易于使用的，但功能强大的和可扩展的基于云的服务，分析庞大的数据量，现在不断充沛他们的生活和他们的工作。