这些毫无根据的印象涉及所需技能储备、技术方案类型以及技术匹配方式等多个层面,盲目偏信只会将大家引入歧途。
大数据分析目前已经成为技术业界的主流趋势,每一家企业都开始将此类方案视为实现自身差异化优势的核心甚至是求得生存的关键所在。有鉴于此,关于大数据的各种误解也开始不断涌现。这些误区不仅可能将大家引入歧途,甚至会让各位把宝贵的资源投入到根本走不通的发展路线当中。另外,此类误区的存在当然也会导致大家错过将预算资源投向更具意义的业务实践方法的机会。
在今天的文章中,我们将一同了解九大千万不可轻易着道的大数据与Hadoop相关认识误区。
误区一:我们能够轻松雇用到数据科学家
最近,我们公司某合作企业的一位售前工程师提到了寻找一位数据科学家到底有多困难。出于好奇,我详细询问了他们列出的合格人员条件,但答案实在是……他们需要需要一位数学博士,拥有计算机科学与MBA教育背景,此外还需要在这几大领域当中拥有实践经验。看到这里我不禁要问:“你们要招的这位得有多大年纪,九十岁?”
下面来看实际情况:
优秀的数学家往往倾向于使用Python,而且通常需要业务人士为其提供帮助。
优秀的计算机科学人才确实拥有一定程度的数学认知。
优秀的计算机科学人才在处理一定数量的问题后能够理解企业业务。
业务型人才了解数学知识。
专业人士往往拥有很强的知识指向性。
领导者应负责将上述人才汇聚起来并协同工作。
由于前面提到的这家企业找不到合适的数据科学家人选,因此只能建立起拥有跨学科专业知识的工作小组。而这也是大部分企业必须采取的解决思路。
误区二:关于大数据的一切都是新生事物
技术人员总是喜欢抛弃过去,而他们所宣扬的首选工具要么前所未见、要么会产生大量后续问题。但这种印象与实际情况并不相符。
举例来说,Kafka分布式消息系统被广泛描述为一款大数据必需的新型工具产品。不过与其它消息系统比较起来,它的功能集显得非常孱弱而且还远称不上成熟。要说其中真正的新生事物,Kafka在架构方面专门针对Hadoop平台而且在设计思路中引入了大量分布式概念。如果能够接受其种种缺陷,那么Kafka确实具备相当的实用性。
也就是说,有时候我们需要使用更为复杂的路由及保障手段。在这类情况下,我们可以使用ActiveMQ或者其它更为稳定可靠的选项。
误区三:机器学习才是解决问题的正道
我估计约有85%的朋友会将机器学习视为一种简单统计方案。但事实上,我们的常见问题往往只需要通过简单的数学与分析机制即可解决,因此不要好高骛远、先从这里起步比较好。
误区四:你很特别
正如哲学家Dirden曾经说过,“你没什么特别。你并不像雪花那样精致而且独一无二。”这里要向大家公布了项调查结果。目前技术业界当中,约有半数从业者忙于编写同样的ETL脚本,旨在为大部分同类数据源进行同样的自定义分析处理。而且在任何规模的企业当中,都有很多部门可能在重复着这方面的工作。
不用说,好好咨询一下是着手推进大数据工作的最佳前提。