适合!
在数据仓库建模领域中,有两大主流建模思想,ER建模和维度建模(当然还有data vault、anchor等等)。
ER建模的核心思想是从全企业的高度去设计三范式模型,用实体关系模型描述企业业务。出发点是整合各系统数据,为数据分析决策服务,但不直接用于分析决策。
维度建模是从分析决策的需求出发构建模型,重点关注如何快速完成需求分析。典型代表是星形模型,以及一些特殊场景下使用雪花模型。
光从三范式模型和星形模型的区别其实就可以看出,更适合hive的就是星形模型。
hive一般使用的引擎就是mapreduce,mapreduce的设计初衷是海里数据的批量处理,在复杂的联表查询方面,反而可能比不上传统数据库,尤其是mpp架构的传统数据库。三范式模型势必会存在很多分散的表,在做数据分析或者报表加工的时候就必须要多表连接,大大降低了使用效率。
当然使用hive做为数据仓库时,也不能完全遵从维度建模的思想。我们得在维度建模思想上适当做一些改进。
比如我们可以使用星形模型完全替代雪花模型,雪花模型除了节约一部分存储外,在hive中没有其他优势。
同时我们在星形模型的事实表中可以冗余更多常用的维度信息,摒弃代理键使用快照方式处理缓慢变化维等。
因为目前阶段,hdfs的存储成本是明显低于计算资源成本,我们可以采取用空间换时间的策略,从而提升下游使用的易用性和使用性能的提升。
所以说,维度建模是适合hive的。
哪些公司在公安业务大数据建模方面做的比较好?你怎么看?
公安业务,数据抽取及清洗,数据建模!
感谢科技圈的邀请,因为本人在大数据方面的研究聚焦在营销科技领域,对于公安业务的认知是零,但建模逻辑大体相同,就是2万小时理论,哪些公司是基于超过2万小时的标准化数据来建模的,在垂直领域就是有话语权的。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 xxx@163.com 举报,一经查实,本站将立刻删除。