<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2650.12">
<TITLE>RE: Why not NT clusters? Need arguments.</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>Nice!  This is the type of thing that corporate types need to hear.  It is a difficult task to try and convince many managers/supervisors why they should steer away from NT.  Microsoft, although they have come up short on enterprise-grade "clusterable" machines, has done a great job of convincing many execs that NT is "good enough", and attainable.  Convincing them otherwise is what you're most likely up against here.</FONT></P>

<P><FONT SIZE=2>Great data and anecdotes is what it's going to take. . . .</FONT>
</P>
<BR>

<P><FONT SIZE=2>Richard Schilling</FONT>
<BR><FONT SIZE=2>Lake Stevens, WA</FONT>
</P>
<BR>

<P><FONT SIZE=2>> -----Original Message-----</FONT>
<BR><FONT SIZE=2>> From: Robert G. Brown [<A HREF="mailto:rgb@phy.duke.edu">mailto:rgb@phy.duke.edu</A>]</FONT>
<BR><FONT SIZE=2>> Sent: Friday, October 06, 2000 1:10 PM</FONT>
<BR><FONT SIZE=2>> To: Dan Yocum</FONT>
<BR><FONT SIZE=2>> Cc: Jon Tegner; beowulf@beowulf.org</FONT>
<BR><FONT SIZE=2>> Subject: Re: Why not NT clusters? Need arguments.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> On Fri, 6 Oct 2000, Dan Yocum wrote:</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> > Jon Tegner wrote:</FONT>
<BR><FONT SIZE=2>> > > </FONT>
<BR><FONT SIZE=2>> > > In a disussion of clusters I got the question why not </FONT>
<BR><FONT SIZE=2>> using systems</FONT>
<BR><FONT SIZE=2>> > > running microsoft NT. I only came up with cost and stability in a</FONT>
<BR><FONT SIZE=2>> > > sweeping way, and I couldnt present more quantitative </FONT>
<BR><FONT SIZE=2>> arguments. Later,</FONT>
<BR><FONT SIZE=2>> > </FONT>
<BR><FONT SIZE=2>> > </FONT>
<BR><FONT SIZE=2>> > And that wasn't enough?  </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> To be more specific, to have a good chance of COMPLETING a longrunning</FONT>
<BR><FONT SIZE=2>> parallel computation on N hosts, it really helps if the probability of</FONT>
<BR><FONT SIZE=2>> single host failure is considerably less than 1/N over the </FONT>
<BR><FONT SIZE=2>> time required</FONT>
<BR><FONT SIZE=2>> for completion.  This is extremely quantitative.  If you estimate that</FONT>
<BR><FONT SIZE=2>> the mean time between crashes of your NT boxes is ten days, then you</FONT>
<BR><FONT SIZE=2>> typically will almost NEVER complete a computation that runs for a day</FONT>
<BR><FONT SIZE=2>> on 20 boxes.  This alone is why you won't see many really big clusters</FONT>
<BR><FONT SIZE=2>> running NT.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> I've heard anecdotally that an organization has excellently skilled NT</FONT>
<BR><FONT SIZE=2>> people that devote enough time to the project they can tune and</FONT>
<BR><FONT SIZE=2>> configure NT well enough to be stable out at 30-60 days (or even more)</FONT>
<BR><FONT SIZE=2>> and build a workable cluster out of it.  This often limits to some</FONT>
<BR><FONT SIZE=2>> extent the applications they'll allow to be run, as some applications</FONT>
<BR><FONT SIZE=2>> are more destabilizing than others.  If this point is raised, you can</FONT>
<BR><FONT SIZE=2>> counter that:</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>   a) That extra time and skill costs money.  Quite a lot of </FONT>
<BR><FONT SIZE=2>> it -- humans</FONT>
<BR><FONT SIZE=2>> are often more expensive than hardware, and really skilled NT SE's are</FONT>
<BR><FONT SIZE=2>> no more common than any other variety, however many "MCSE"'s there are</FONT>
<BR><FONT SIZE=2>> floating around in the world.  We all know that one cannot learn to</FONT>
<BR><FONT SIZE=2>> stabilize a complex operating system in a correspondance course or</FONT>
<BR><FONT SIZE=2>> community college type environment.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>   b) Linux is more stable than the most stable NT platforms </FONT>
<BR><FONT SIZE=2>> you're ever</FONT>
<BR><FONT SIZE=2>> likely see right out of the box.  The latter 2.2 kernels are </FONT>
<BR><FONT SIZE=2>> simply rock</FONT>
<BR><FONT SIZE=2>> solid on all but a few very rare hardware combinations.  It still</FONT>
<BR><FONT SIZE=2>> requires a skilled individual to install and administer it, but</FONT>
<BR><FONT SIZE=2>> stabilizing it isn't rocket science.  It also scales very well</FONT>
<BR><FONT SIZE=2>> administratively, especially using tools like kickstart or some of the</FONT>
<BR><FONT SIZE=2>> diskless boot mechanisms described on this list.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>   c) THEN you can point out the hundreds of dollars per platform you</FONT>
<BR><FONT SIZE=2>> save on OS software and other software.  This is actually not </FONT>
<BR><FONT SIZE=2>> that much,</FONT>
<BR><FONT SIZE=2>> compared to the human costs, unless you have a lot of platforms -- one</FONT>
<BR><FONT SIZE=2>> reason a lot of institutions might reasonably give for not making a</FONT>
<BR><FONT SIZE=2>> switch.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> > > I even found that an nt cluster sits on place 207 on the </FONT>
<BR><FONT SIZE=2>> top500 list</FONT>
<BR><FONT SIZE=2>> > > (see <A HREF="http://www.top500.org/lists/TOP500List.php3?Y=2000&M=06" TARGET="_blank">http://www.top500.org/lists/TOP500List.php3?Y=2000&M=06</A>)</FONT>
<BR><FONT SIZE=2>> > > is that an exception, or are there many of these beasts around?</FONT>
<BR><FONT SIZE=2>> > </FONT>
<BR><FONT SIZE=2>> > </FONT>
<BR><FONT SIZE=2>> > Check out how many linux cluster are far above that on the list...</FONT>
<BR><FONT SIZE=2>> > actually, I'm sure you'll find many more Linux clusters </FONT>
<BR><FONT SIZE=2>> there than NT</FONT>
<BR><FONT SIZE=2>> > clusters.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> The top500 list ranking per se also doesn't address the usability of</FONT>
<BR><FONT SIZE=2>> that cluster.  There have been systems on that list before </FONT>
<BR><FONT SIZE=2>> that were so</FONT>
<BR><FONT SIZE=2>> unstable they (according to rumor, anyway) could barely get through</FONT>
<BR><FONT SIZE=2>> benchmarking runs and were used more for computer science (short runs)</FONT>
<BR><FONT SIZE=2>> than for parallel application production (long runs).  I </FONT>
<BR><FONT SIZE=2>> don't know what</FONT>
<BR><FONT SIZE=2>> fraction of them were NT systems (if any) but the </FONT>
<BR><FONT SIZE=2>> preponderance of linux</FONT>
<BR><FONT SIZE=2>> is due to its lower cost and higher stability.  People "vote" </FONT>
<BR><FONT SIZE=2>> with their</FONT>
<BR><FONT SIZE=2>> purchase decisions, and your people would be most unwise to ignore the</FONT>
<BR><FONT SIZE=2>> wisdom of the masses, especially when the masses who build top500</FONT>
<BR><FONT SIZE=2>> machines in the first place are among the best and brightest (cluster</FONT>
<BR><FONT SIZE=2>> computing) computer people in the world.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>    rgb</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> -- </FONT>
<BR><FONT SIZE=2>> Robert G. Brown                              </FONT>
<BR><FONT SIZE=2>> <A HREF="http://www.phy.duke.edu/~rgb/" TARGET="_blank">http://www.phy.duke.edu/~rgb/</A></FONT>
<BR><FONT SIZE=2>> Duke University Dept. of </FONT>
<BR><FONT SIZE=2>> Physics, Box 90305</FONT>
<BR><FONT SIZE=2>> Durham, N.C. 27708-0305</FONT>
<BR><FONT SIZE=2>> Phone: 1-919-660-2567  Fax: 919-660-2525     email:rgb@phy.duke.edu</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> _______________________________________________</FONT>
<BR><FONT SIZE=2>> Beowulf mailing list</FONT>
<BR><FONT SIZE=2>> Beowulf@beowulf.org</FONT>
<BR><FONT SIZE=2>> <A HREF="http://www.beowulf.org/mailman/listinfo/beowulf" TARGET="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</A></FONT>
<BR><FONT SIZE=2>> </FONT>
</P>

</BODY>
</HTML>