<div dir="ltr">Jorg, I think I might know where the Lustre storage is !<div>It is possible to install storage routers, so you could route between ethernet and infiniband.</div><div>It is also worth saying that Mellanox have Metro Infiniband switches - though I do not think they go as far as the west of London!</div><div><br></div><div>Seriously though , you ask about RoCE. I will stick my neck out and say yes, if you are planning an Openstack cluster</div><div>with the intention of having mixed AI and 'traditional' HPC workloads I would go for a RoCE style setup.</div><div>In fact I am on a discussion about a new project for a customer with similar aims in an hours time.</div><div><br></div><div>I could get some benchmarking time if you want to do a direct comparison of Gromacs on IB / RoCE</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, 26 Nov 2020 at 11:14, Jörg Saßmannshausen <<a href="mailto:sassy-work@sassy.formativ.net">sassy-work@sassy.formativ.net</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Dear all,<br>
<br>
as the DNS problems have been solve (many thanks for doing this!), I was <br>
wondering if people on the list have some experiences with this question:<br>
<br>
We are currently in the process to purchase a new cluster and we want to use <br>
OpenStack for the whole management of the cluster. Part of the cluster will <br>
run HPC applications like GROMACS for example, other parts typical OpenStack <br>
applications like VM. We also are implementing a Data Safe Haven for the more <br>
sensitive data we are aiming to process. Of course, we want to have a decent <br>
size GPU partition as well!<br>
<br>
Now, traditionally I would say that we are going for InfiniBand. However, for <br>
reasons I don't want to go into right now, our existing file storage (Lustre) <br>
will be in a different location. Thus, we decided to go for RoCE for the file <br>
storage and InfiniBand for the HPC applications. <br>
<br>
The point I am struggling is to understand if this is really the best of the <br>
solution or given that we are not building a 100k node cluster, we could use <br>
RoCE for the few nodes which are doing parallel, read MPI, jobs too. <br>
I have a nagging feeling that I am missing something if we are moving to pure <br>
RoCE and ditch the InfiniBand. We got a mixed workload, from ML/AI to MPI <br>
applications like GROMACS to pipelines like they are used in the bioinformatic <br>
corner. We are not planning to partition the GPUs, the current design model is <br>
to have only 2 GPUs in a chassis. <br>
So, is there something I am missing or is the stomach feeling I have really a <br>
lust for some sushi? :-)<br>
<br>
Thanks for your sentiments here, much welcome!<br>
<br>
All the best from a dull London<br>
<br>
Jörg<br>
<br>
<br>
<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org" target="_blank">Beowulf@beowulf.org</a> sponsored by Penguin Computing<br>
To change your subscription (digest mode or unsubscribe) visit <a href="https://beowulf.org/cgi-bin/mailman/listinfo/beowulf" rel="noreferrer" target="_blank">https://beowulf.org/cgi-bin/mailman/listinfo/beowulf</a><br>
</blockquote></div>