LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 区块链资讯 > Filecoin 测试网踩坑盘点——filecoin二测系列(2)

Filecoin 测试网踩坑盘点——filecoin二测系列(2)

2020-07-02 星际鑫航 来源:火星财经

所有走过的弯路,都是未来前行的加速器。

本文是关于 Filecoin 二阶段测试的第2篇,主要是验证更多CPU的性能差异,异构集群的搭配优化、以及验证我们的智能运维系统Gamma OS管理集群的能力。本文将从以下几个方面介绍:

一、寻找最优解:异构集群硬件方案优化

二、踩坑大回顾:二测弯路总结分享

三、未来的计划:筹建大规模集群&优化运维系统


一、寻找最优解:异构集群硬件方案优化

之前,星际鑫航一直在尝试采用Intel的处理器测试,经过反复验证,发现只有AMD+ Intel搭配集群方式才能将Intel机器利用起来。

近期,考虑到市场上,高性能的AMD处理器一直处于缺货,或者加价才能买到。我们结合当前市场上有现货,并且性价比较高的机器测试密封扇区的效率,已获得大量实测数据,可以根据现存CPU资源灵活搭建集群,同时也确定几款低成本单机配置。

由于测试的CPU型号较多,无法一一呈现。在此,我们在多个实测的集群方案中,选择一个分享给大家。

集群的整体构成:

Miner(C2 + WinPoSt) x 1 + AMD Worker(P1) x 4 + Intel Worker(P2) x 4

测试环境

操作系统:Ubuntu-18.04LTS测试网络:Filecoin TestNet Master 分支网络(非 interopnet 网络)Lotus 版本:0.4.0+git.596ed330机器数量:9存储方案:Ceph + Raid0 + Raid5

本次测试我们投入了各种不同的 CPU 型号,各种系统配置也都优化了。测试机器的具体配置如下:

Miner(C2 + WinPoSt) 配置

CPU: Intel E5-2683 V4 x 2

RAM: 256GB + 128GB Swap存储:Ceph 存储集群系统盘:128GB SSD x 1高速缓冲盘:2TB NVME x 1万兆网:万兆网口 x 2GPU: 2080Ti x 1

Miner 搭载 2 颗 GPU 是过剩求稳的考虑,确保Miner机器在完成C2过程,不会负载过大。目前 C2 已经可以是多 GPU 并行执行了,下面是 C2 运行状态截图。

Worker(P1) 机器x 4

Worker 1

CPU: AMD 3950x

RAM: 128GB + 128GB Swap存储:8TB企业硬盘 x 2系统盘:128GB x 1万兆网:万兆网口 x 1

Worker 2

CPU: AMD 3960x

RAM: 256GB + 128GB Swap存储:8TB企业硬盘 x 2系统盘:128GB x 1万兆网:万兆网口 x 1

Worker 3

CPU: AMD 3970x

RAM: 256GB + 128GB Swap存储:8TB企业硬盘 x 2系统盘:128GB x 1万兆网:万兆网口 x 1

Worker 4

CPU: AMD 7402 x 2

RAM: 256GB + 128GB Swap存储:8TB企业硬盘 x 2系统盘:128GB x 1万兆网:万兆网口 x 1

Worker(P2)x 4

CPU: Intel E5-2683 V4 x 2

RAM: 192GB + 128GB Swap存储:8TB企业硬盘 x 2系统盘:128GB SSD x 1高速缓冲盘:1TB NVME x 1万兆网:万兆网口 x 1GPU: 2080Ti x 1

以上集群的测试结果

以上集群实现了各项硬件资源的高负载利用。当硬件资源利用率最大时,机器整体性能达到上限,对应的密封扇区产出将会最大。

如果你手边有大量机器,想要搭建高产出的集群,欢迎联系我们,获取Filecoin硬件集群方案。


二、踩坑大回顾:参加二测弯路总结分享

本次测试,相比较于刷数据刷排名,我们更关注测试本身。

不得不说,我们在整个测试过程中踩了太多的坑,既有测试网bug导致的,也有我们对于部分机器的不熟悉、还有集群方案不完善等原因导致了测试故障。其中,一些小细节稍不留意,就可能导致整个集群密封数据的效率降低10%。

我们相信,真正的运维技术考验的不是已知问题的处理能力,而是挖掘潜在风险并提前规避的能力。

所以,针对Filecoin的集群测试,除了应对一些非主动原因导致的问题,星际鑫航测试团队还尽可能的把主网上线后可能出现的问题,都进行模拟, 然后找出对应的解决方案。比如:

我们会故意把 Miner 停机 0.5-2h,确认是否会掉算力?

怎样的硬件配置可以让算力丢失的概率更小一些?

部分算力丢失以后如何快速恢复...(可以说是各种不怕死的作)

所幸,这些坑都是发生在测试网,而不是主网。所有实测走过的“坑”,将是后期主网阶段我们对集群节点批量管理的经验。现在,我们有信心未来能更从容的参与Filecoin主网阶段,同时更好的服务于我们的客户。

在此,与大家分享几个踩过的小坑:

(1)Swap 修改之后需要重启 Miner/Worker 进程。

在增加或者减少 Swap 空间之后要记得重启 Miner/Worker,Swap 和内存大小是在程序启动时候获取,然后一直缓存,而不是每次在分配任务的时候临时判断,所以修改 Swap 之后必须重启程序才能生效。

(2)警惕某些运维软件的漏洞攻击。

此前我们远程连接成都机房的集群,中间出现大量节点被攻击的情况,几乎整个局域网的机器都停摆,大量运行一个叫playstation 的程序,所有机器的 CPU 资源几乎都被耗尽。该程序杀掉之后又自动重启,卸载之后又重装,破坏性极大。

经过分析后,发现居然是远程桌面 TeamView 的问题,是 TeamView 的漏洞被人利用了,卸载 TeamView,然后在删除 playstation 集群的所有机器便恢复了正常。

(3)Miner AddPieces 或许会成为大矿工测试的瓶颈

当扇区增多的时候,主节点的 addPieces 速度会跟不上,目前测试数据是每个扇区需要 6.5min-10min.

下面是 AddPieces 实测数据:

Intel E5-2683 V4 + 128GB RAM + 2TB NVME

1 sector : 11min12s3 sectors: 13min10s8 sectors: 40min5s

AMD 3950x + 128GB RAM + 1 TB NVME

1 sector : 9min7s3 sectors: 10min56s10 sectors: 45min17s
测试数据基本表明,单机一次性添加 3 sector 是比较好的方案,另外 AddPieces 非常耗费 CPU 资源,如果 Miner CPU 资源长期被被占用,会严重影响 PoSt 和出块。假如你打算参与竞争那 400w FIL 测试奖励的话,你的目标应该是在21天内完成 PB 级的数据密封。按 1PB 算的话,那么你 Miner 需要每天完成 1800 多个 sector 的 AddPieces,这目前来说这个难度很高,甚至是不现实的。

这个问题有两个解决方案:

第一, 配置更高的CPU(如128C)以及更快的磁盘(如 Intel 的 M2 高速盘),这是下策。

第二, 更好的办法是修改源码,把 AddPieces 直接放到 Worker 去做,这样一个可以分流,每台 Worker 所需要完成的 AddPieces 的 Sector 数量大大减少,其次是减少了 32GB 的数据传输。

一个好消息是官方已经在讨论把方案二实现在官方代码了,这对不会改源码的矿工来说,无疑是一个福音。星际鑫航技术团队询问了Filecoin官方人员@WHY ,是否能在 TestNet 上线之前完成,但是目前未收到回复。

当然,我们参加测试以来,遇到的坑远远不止上面这些,在这里只分享部分问题。经历过这些“坑”以后,我们发现,Filecoin的节点集群搭建好完成,只是挖矿的开始,故障与Bug随时会来,集群的日常运维管理将是一项复杂而且极其重要的工作。

接下来,我们会将这些实测遇到的问题结合我们的解决方案,融合到我们的智能运维系统GammaOS中,通过标准化的工具,解放运维人员的双手,降低Filecoin节点集群的故障带来的惩罚风险。毕竟,损失少了,就是赚到的。更多信息,请持续关注“星际鑫航”公众号。


三、未来的计划:筹建大规模集群&优化运维系统

在此前,星际鑫航团队一直埋头参与实测,获取更多数据同时完善产品。在这个过程中,我们并没有按照行业通常采用的刷测试网排名的营销手段,因为,我们一直相信口碑与实力是最好的营销。随着我们在分布式存储领域的不断深耕,星际鑫航的技术与产品也不断得到圈内认可。

基于我们当前的技术积累与产品的完善,我们相信接下来,可以更好的服务于广大矿工。接下来,我们将推出以下产品与服务,满足更多矿工的需求:

Filecoin硬件集群方案,包含单机方案、同构集群方案、异构集群方案等。

Filecoin集群(大批量存储服务器)的节点搭建与远程运维服务(基于Gamma OS)。

联合部分矿工客户组建大规模Filecoin集群(矿池)。

欢迎,对以上产品与服务有需求的矿工朋友咨询合作。同时,在接下来我们也将围绕下一阶段的目标,不断完善产品与服务,更好的服务于合作的矿工客户。近期主要计划如下:

1、完善Filecoin集群的ceph存储,实现集群存储数据的自动化弹性拓展。采用我们集成在Gamma OS上的Ceph存储方案,集群的存储空间可以无限拓展,当磁盘故障时,也能及时修复部分数据,惩罚风险极低。

2、优化智能运维系统Gamma OS的多项核心功能:细化硬件资源负载监控的颗粒度和精准度;完善一键搭建Filecoin集群节点,实现稍有基础的小白矿工能借助Gamma OS搭建自己的节点;进一步完善管理员使用教程,降低管理员操作门槛。

3、筹备组建大规模集群。近期我们不断受到一些矿工的搭建集群的合作需求,从集群对收益的增强效应出发,集群规模越大,算力占比增长越快,相应的出块收益会越大。基于此,将联合一部分有意参与Filecoin挖矿的矿工,组建大规模Filecoin集群。有意向的矿工欢迎咨询合作(会设置基本加入门槛)。

更多信息,请持续关注“星际鑫航”公众号。

本文来源:星际鑫航
原文标题:Filecoin 测试网踩坑盘点——filecoin二测系列(2)

—-

编译者/作者:星际鑫航

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

LOADING...
LOADING...