<div dir="ltr">Morning (Hi Gilad)<div><br></div><div>We run RoCE over Mellanox 100G Ethernet and get 1.3us latency for the shortest hop.  Increasing slightly as you go through the fabric.</div><div><br></div><div>We run ethernet for a full dual-plane fat-tree :)  It is 100% possible with Mellanox :)</div><div><br></div><div>We love it.</div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Jan 15, 2021 at 8:40 PM Jörg Saßmannshausen <<a href="mailto:sassy-work@sassy.formativ.net">sassy-work@sassy.formativ.net</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Gilad,<br>
<br>
thanks for the feedback, much appreciated. <br>
In an ideal world, you are right of course. OpenStack is supported natively on <br>
InfiniBand, and you can get the MetroX system to connect between two different <br>
sites (I leave it open of how to read that) etc. <br>
<br>
However, in the real world all of that needs to fit into a budget. From what I <br>
can see on the cluster, most jobs are in the region between 64 and 128 cores. <br>
So, that raises the question for that rather small amount of cores, do we <br>
really need InfiniBand or can we do what we need to do with RoCE v2?<br>
<br>
In other words, for the same budget, does it make sense to remove the <br>
InfiniBand part of the design and get say one GPU box in instead?<br>
<br>
What I want to avoid is to make the wrong decision (cheap and cheerful) and <br>
ending up with a badly designed cluster later. <br>
<br>
As you mentioned MetroX: remind me please, what kind of cable does it need? Is <br>
that something special or can we use already existing cables, whatever is used <br>
between data centre sites (sic!)?<br>
<br>
We had a chat with Darren about that which was, as always talking to your <br>
colleague Darren, very helpful. I remember very distinct there was a reason <br>
why we went for the InfiniBand/RoCE solution but I cannot really remember it. <br>
It was something with the GPU boxes we want to buy as well. <br>
<br>
I will pass your comments on to my colleague next week when I am back at work <br>
and see what they say. So many thanks for your sentiments here which are much <br>
appreciated from me!<br>
<br>
All the best from a cold London<br>
<br>
Jörg<br>
<br>
Am Donnerstag, 26. November 2020, 12:51:55 GMT schrieb Gilad Shainer:<br>
> Let me try to help:<br>
> <br>
> -          OpenStack is supported natively on InfiniBand already, therefore<br>
> there is no need to go to Ethernet for that<br>
<br>
> -          File system wise, you can have IB file system, and connect<br>
> directly to IB system.<br>
<br>
> -          Depends on the distance, you can run 2Km IB between switches, or<br>
> use Mellanox MetroX for connecting over 40Km. VicinityIO have system that<br>
> go over thousands of miles…<br>
<br>
> -          IB advantages are with much lower latency (switches alone are 3X<br>
> lower latency), cost effectiveness (for the same speed, IB switches are<br>
> more cost effective than Ethernet) and the In-Network Computing engines<br>
> (MPI reduction operations, Tag Matching run on the network)<br>
<br>
> If you need help, feel free to contact directly.<br>
> <br>
> Regards,<br>
> Gilad Shainer<br>
> <br>
> From: Beowulf [mailto:<a href="mailto:beowulf-bounces@beowulf.org" target="_blank">beowulf-bounces@beowulf.org</a>] On Behalf Of John Hearns<br>
> Sent: Thursday, November 26, 2020 3:42 AM<br>
> To: Jörg Saßmannshausen <<a href="mailto:sassy-work@sassy.formativ.net" target="_blank">sassy-work@sassy.formativ.net</a>>; Beowulf Mailing<br>
> List <<a href="mailto:beowulf@beowulf.org" target="_blank">beowulf@beowulf.org</a>><br>
 Subject: Re: [Beowulf] RoCE vs. InfiniBand<br>
> <br>
> External email: Use caution opening links or attachments<br>
> <br>
> Jorg, I think I might know where the Lustre storage is !<br>
> It is possible to install storage routers, so you could route between<br>
> ethernet and infiniband.<br>
 It is also worth saying that Mellanox have Metro<br>
> Infiniband switches - though I do not think they go as far as the west of<br>
> London! <br>
> Seriously though , you ask about RoCE. I will stick my neck out and say yes,<br>
> if you are planning an Openstack cluster<br>
 with the intention of having<br>
> mixed AI and 'traditional' HPC workloads I would go for a RoCE style setup.<br>
> In fact I am on a discussion about a new project for a customer with<br>
> similar aims in an hours time. <br>
> I could get some benchmarking time if you want to do a direct comparison of<br>
> Gromacs on IB / RoCE<br>
<br>
> <br>
> <br>
> <br>
> <br>
> <br>
> <br>
> <br>
> <br>
> On Thu, 26 Nov 2020 at 11:14, Jörg Saßmannshausen<br>
> <<a href="mailto:sassy-work@sassy.formativ.net" target="_blank">sassy-work@sassy.formativ.net</a><mailto:<a href="mailto:sassy-work@sassy.formativ.net" target="_blank">sassy-work@sassy.formativ.net</a>>><br>
> wrote:<br>
 Dear all,<br>
> <br>
> as the DNS problems have been solve (many thanks for doing this!), I was<br>
> wondering if people on the list have some experiences with this question:<br>
> <br>
> We are currently in the process to purchase a new cluster and we want to<br>
> use<br>
 OpenStack for the whole management of the cluster. Part of the cluster<br>
> will run HPC applications like GROMACS for example, other parts typical<br>
> OpenStack applications like VM. We also are implementing a Data Safe Haven<br>
> for the more sensitive data we are aiming to process. Of course, we want to<br>
> have a decent size GPU partition as well!<br>
> <br>
> Now, traditionally I would say that we are going for InfiniBand. However,<br>
> for<br>
 reasons I don't want to go into right now, our existing file storage<br>
> (Lustre) will be in a different location. Thus, we decided to go for RoCE<br>
> for the file storage and InfiniBand for the HPC applications.<br>
> <br>
> The point I am struggling is to understand if this is really the best of<br>
> the<br>
 solution or given that we are not building a 100k node cluster, we<br>
> could use RoCE for the few nodes which are doing parallel, read MPI, jobs<br>
> too. I have a nagging feeling that I am missing something if we are moving<br>
> to pure RoCE and ditch the InfiniBand. We got a mixed workload, from ML/AI<br>
> to MPI applications like GROMACS to pipelines like they are used in the<br>
> bioinformatic corner. We are not planning to partition the GPUs, the<br>
> current design model is to have only 2 GPUs in a chassis.<br>
> So, is there something I am missing or is the stomach feeling I have really<br>
> a<br>
 lust for some sushi? :-)<br>
> <br>
> Thanks for your sentiments here, much welcome!<br>
> <br>
> All the best from a dull London<br>
> <br>
> Jörg<br>
> <br>
> <br>
> <br>
> _______________________________________________<br>
> Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a><mailto:<a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a>><br>
> sponsored by Penguin Computing<br>
 To change your subscription (digest mode or<br>
> unsubscribe) visit<br>
> <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><<a href="https://nam11.safelink" rel="noreferrer" target="_blank">https://nam11.safelink</a><br>
> <a href="http://s.protection.outlook.com/?url=https%3A%2F%2Fbeowulf.org%2Fcgi-bin%2Fmailman%" rel="noreferrer" target="_blank">s.protection.outlook.com/?url=https%3A%2F%2Fbeowulf.org%2Fcgi-bin%2Fmailman%</a><br>
> 2Flistinfo%2Fbeowulf&data=04%7C01%7CShainer%<a href="http://40nvidia.com" rel="noreferrer" target="_blank">40nvidia.com</a>%7C8e220b6be2fa48921<br>
> dce08d892005b27%7C43083d15727340c1b7db39efd9ccc17a%7C0%7C0%7C637419877513157<br>
> 960%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1h<br>
> aWwiLCJXVCI6Mn0%3D%7C1000&sdata=0NLRDQHkYol82mmqs%2BQrFryEuitIpDss2NwgIeyg1K<br>
> 8%3D&reserved=0><br>
<br>
<br>
<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature"><div dir="ltr">Dr Stuart Midgley<br><a href="mailto:sdm900@gmail.com" target="_blank">sdm900@gmail.com</a></div></div>