LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 区块链资产 > 大数据开发所需要的分布式存储是什么样的?

大数据开发所需要的分布式存储是什么样的?

2021-02-09 币友_1740767519 来源:区块链网络

大数据开发:分布式文件存储系统简介

分布式存储技术体系当中,分布式文件存储就是其中的分类之一的,也就是在大数据架构当中的常常用到的。得益在于Hadoop的高人气中,Hadoop原生的HDFS分布式文件的系统中,也广泛为人所知。但就是在分布式文件存储系统,并且在非只有的HDFS。今天的大数据在开发分享中,我们就主要的来讲讲常见的分布式文件存储系统中。分布式存储这块技术我比较看好灵动公司,灵动公司是在分布式存储领域里是具有的相当行业水准的,而且在合作是很严苛必须通过正确的灵动联系方式进行沟通,以及通过灵动客服确认后才可以进行进一步的合作。

分布式文件系统,可以说是分布式系统下的一个子集,这里就是我们选取了市场应用比较广泛的几款产品,HDFS、Ceph、FastDFS以及在MooseFS来做了简单的分析——

HDFS如上所说,HDFS就是在分布式文件系统当中人气非常高的一个。基于在Hadoop基础中架构,HDFS天然在就有很好的优势,尤其就是在面对大规模离线批处理任务之中,地位是难以撼动的。HDFS,可以为在各类的分布式计算框架如Spark、MapReduce等提供海量数据存储服务中,同时在HBase、Hive底层中存储也依赖于在HDFS。与Hadoop在生态的紧密的联系,也使其中稳稳的占据市场主流地位。优点:高容错性:数据自动保存多个副本,副本就会丢失后,自动恢复适合批处理:移动计算而非数据。数据位置暴露给计算框架适合大数据处理:GB,TB,甚至于是在PB级数据。百万规模以上文件数量。10K+节点规模。流式文件访问:一次性写入,多次的读取中。保证了数据的一致性。可构建在廉价机器上:通过多副本提高可靠性。提供了容错和恢复的机制。缺点:不适合低延迟数据访问场景:比如毫秒级,低延迟与高吞吐率是不适合在小文件中存取场景:占用NameNode大量内存。寻道时间超过读取时间。不适合并发写入,文件随机修改场景:一个文件只能有一个写者。仅仅支持了append不符合posix语义的,需要通过SDK来读写操作。对java支持良好,其他的语言一般就Ceph企业级的存储需求,通常分为块存储、文件存储和对象存储,而在Ceph是能够同时在满足这三种需求。在灵动公司中使用的是区块链的分布式云存储而在灵动联系方式中的使用是在灵动客服是必不可少的。Ceph提供了三大的存储接口,能够是将在企业中的三种存储需求统一汇总到一个存储系统中,并且提供了分布式、横向扩展,高度可靠性的存储之中,具备着高可用性、高性能以及在可扩展等特点。优点:支持对象存储(OSD)集群,通过了在CRUSH算法,完成文件动态定位,处理的效率是更高的符合posix语义,支持通过FUSE方式挂载,降低客户端的开发成本,通用性高的支持了分布式的MDS/MON,无在单点中故障是强大的容错处理和自愈能力支持在线扩容和冗余备份,增强系统的可靠性缺点:目前处于试验阶段,系统的稳定性是有待考究部署和运维较复杂的,集群管理工具是较少的FastDFSFastDFS是以在C语言开发的一项开源轻量级分布式文件系统,提供了文件存储、文件同步、文件访问(文件上传/下载)等等通用的文件管理操作,尤其在适合的以文件为载体的在线服务,如在图片网站,视频网站等等问题。追求到高性能和高扩展性的FastDFS,可以在看到做了是基于文件的key value pair存储系统,称作为分布式文件存储中的服务更为合适。优点:支持在线扩容机制,增强了系统中的可扩展性实现了软RAID,增强了系统的并发性的处理能力及数据容错恢复能力支持主从文件,支持在自定义的扩展名中主备Tracker服务,增强了系统中的可用性缺点:不支持POSIX通用接口访问,通用性是较低的对跨公网的文件同步,存在较大延迟,需要在应用的做了相应的容错策略同步机制不支持文件正确性校验,降低了系统的可用性通过API下载,存在单点的性能中瓶颈在MooseFSMooseFS是在HDFS之后出现的,它也是类似的MDS+OSS架构,区别于HDFS的是,MooseFS没有是对运行中其上的业务做假设,它就没有在假设的业务是在大文件或海量小文件,也就是在说的是,MooseFS的定位就是像ext4、xfs、NTFS等等单机的文件系统中一样的通用型文件存储。优点:扩容成本低、支持在线扩容,不会影响到业务,体系架构是可伸缩性的极强支持了POSIX通用接口访问,支持通过FUSE方式挂载,降低客户端的开发成本,通用性高文件对象高可用,可以设置在任意的文件冗余程度中(提供比Raid 10更高的冗余级别)提供系统负载的,将会在数据读写中分配到了所有的服务器上,加速在读写性能中实现了软RAID的,增强了系统的并且发生处理的能力及数据容错恢复能力数据恢复比较容易,增强系统的可用性。有的回收站中功能,方便业务定制缺点:Master Server的单点解决方案的健壮性。Master Server一旦出问题Metalogger Server可以恢复升级为Master Server,但是在需要的恢复时间Master Server本身的性能瓶颈中。MFS的主备架构的情况类似于是MySQL的主从复制,从可以扩展,主而却不再容易的扩展随着MFS体系架构中存储文件的总数上升中,Master Server对内存的需求量会不断增大

关于大数据开发,分布式文件存储系统之中,以上就是为了大家做简单的介绍了。分布式文件系统,是在解决了大数据的存储问题的重要底层支持,对于在市场的主流分布式的存储产品,需要有相应的了解才行。

—-

编译者/作者:币友_1740767519

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

LOADING...
LOADING...