大数据方面有很多的技术:
一是大数据平台本身,一般是基于某些Hadoop产品如CDH的产品部署后提供服务。部署的产品里面有很多的组件,如HIVE、HBASE、SPARK、ZOOKEEPER等,一般都是基于Java的;
二是ETL,即数据抽取过程;大数据平台中的原始数据一般是来源于公司内的其它业务系统,如银行里面的信贷、核心等,这些业务系统的数据每天会从业务系统抽取到大数据平台中,然后进行一系列的标准化、清理等操作,再然后经过一些建模生成一些模型给下游系统使用; ETL一般对应有一个调度平台,一般是Java等技术实现的,基于Kettle进行封装;因此在ETL过程中有以下工作:一是调度平台的开发(也可以是产品部署);二是ETL过程中需要使用到的一些Shell脚本的开发;三是ETL及建模过程中调用的一些SQL过程的开发;当然也还有模型的设计等较为高级的工作;
三就是数据分析了;在数据收集完成后基于这些数据要做一些什么样的处理,典型的如报表应用,那每天可能就是写SQL开发报表了;还有一些如风险监测等平台,都要基于大数据平台收集的数据来进行处理;更往上就是一些如客户行为预测分析等分析场景,这个时候就需要使用一些更加专业的数据分析工具如SAS或者其它的一些更加高级的语言如Python、R语言等来进行数据挖掘及分析了。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xxx@163.com 举报,一经查实,本站将立刻删除。