误区五:Hive速度极快
Hive速度并不快。它并不能在速度上给人留下深刻的印象。没错,其新版本已经得到了显著改善,但它仍然没办法带来良好的性能水平。它的规模扩展能力出色,不过大家可能需要准备好多种工具来将Hadoop与SQL加以匹配。
误区六:我们可以使用少于十二节点的集群
Hadoop 2+几乎已经能够运行在十二节点集群之上——但如果节点数量进一步减少,那么大家恐怕会面临漫长到令人抓狂的启动时间。另外,我们在其上运行的任何任务都会极为缓慢——有时候甚至根本无法完成。(当然,在十二节点集群上运行个‘hello world’还是不成问题的。)Hadoop 2运行所需要的线程更多,这意味着我们需要为其提供更多节点与更大内存容量。
由于可以将数据集驻留在内存当中,Spark能够将HDFS载入时间控制在最低水平。
误区七:数据节点的解决方案在于虚拟化
来自供应商的答案是“错”。IT团队亦会在这个问题上犹豫不决。在这里我们要强调,不,大家不能在SAN上部署数据节点。而且如果将管理节点放在虚拟机系统当中,那么日志写入、任何记录延迟状况乃至数据节点的低IOPS或高延迟都有可能成为整套体系的性能瓶颈。
也就是说,Amazon Web Services以及其它同类方案能够在解决这些问题的同时,继续保持管理工作拥有合理的性能水平与可扩展能力。当然,大家也可以或者说需要将其从内部文件服务器及外部企业宣传网站当中剔除出去,同时有效管理自己的硬件与虚拟化资源。
请记住:吞吐能力与延迟呈正比关系。HDFS会在不同场景下对二者作出权衡。
误区八:每个问题都属于大数据问题
如果大家打算在数TB级别的数据集当中将数个字段与数条状态进行匹配,那么这并不能算是大数据问题。千万不要把每一种分析需求都先入为主地划分到大数据范畴当中。
误区九:我们没有什么大数据
尽管大数据在定义上确实是对庞大数据机进行处理——不太准确,但也可以这么表达——但大数据解决方案对于小规模数据集也同样拥有良好的处理效果。因此,千万不要在处理小数据时想当然地将大数据分析机制排除在外。大家完全可以在面对数GB规模的数据时,仍然享受到Hadoop或者其它大数据技术成果所带来的便利——当然,具体情况要具体分析。
此外,我们往往拥有着一些自己并不知晓的大数据资产。很多在习惯上会被企业直接丢弃的数据当中,实际包含有大量有价值信息。任何一家员工在五十名或者以上的企业都有可能拥有大数据——即使是规模更小的公司,也可以利用大数据思路进行资产管理(例如财务数据等)。