try running memtest+86 its a cd that you boot on to that tests the memory leave it running for a few hrs to makes sure it is the ram or sockets. i am not sure about how to test the cpu.<br><br><div class="gmail_quote">On Tue, Jan 13, 2009 at 10:26 AM, Francesco Pietra <span dir="ltr"><<a href="mailto:francesco.pietra@accademialucchese.it">francesco.pietra@accademialucchese.it</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">Hi:<br>
<br>
I am posting here from a suggestion on the Debian amd64 site. My<br>
original posting to the mainboard factory/vendor in Europe only<br>
resulted in uninteresting suggestions, and they did not answer any<br>
more.<br>
<br>
My question is directed to the attention of users familiar with<br>
multisocket UMA-type mainboards based on 875 dual opteron AMD CPU. My<br>
own is Supermicro H8QC8 with chipset nVidia CK804 and AMD 8132, driven<br>
by Debian Linux amd64 lenny.<br>
<br>
One of the CPUs has suddenly lost viability to its<br>
4-slots memory bank (shut down the machine in order, the problem arose on next<br>
loading Linux). Still, the CPU cores are OK, hypertransport links are<br>
fully working, parallelization to both Amber 10 and NWChem 5.1 is<br>
fully provided, but one of the CPUs must be slower, having to borrow<br>
memory from the other<br>
banks. The hardware status, after a period of complete darkness, is<br>
described in the attached lshw_deb64_7Jan2009.txt.<br>
<br>
As each bank of Kingston DDR1 is filled 2+2+1+1 GB, I identified the<br>
faulty bank, removed all slots from there, and replaced the 1+1 GB<br>
slots at another bank with 2 + 2 GB from the faulty bank, so that now<br>
the computer is at 20GB. The situation is described in the attached<br>
lshw_deb64_lessCPU2_scrambling1G_2G_CPU4_7Jan2009.txt. Actually,<br>
identification of the CPU (CPU2) related to the faulty mem bank is<br>
insecure: I just considered the nearest CPU to the faulty bank. The<br>
manual is not helpful to this regard .<br>
<br>
I understand that, in order to remove non-mainboard causes, I should<br>
be certain that a CPU has not lost memory control. Since replacing (I<br>
have one spare second-hand CPU) or scrambling, the CPUs is quite<br>
troublesome, and risky, in my context (there is very little space<br>
around the mainboard in the rack that I engineered to accept the<br>
mainboard). Ventilation is excellent, however.<br>
<br>
Therefore, is it any software way to check if the CPUs are fully in<br>
order, including the memory controller? lshw and other software<br>
provided only partial help in my hands.<br>
<br>
Also any other suggestion would be greatly appreciated.<br>
<br>
Thanks for your kind attention<br>
<font color="#888888"><br>
francesco pietra<br>
_______________________________________________<br>
Beowulf mailing list, <a href="mailto:Beowulf@beowulf.org">Beowulf@beowulf.org</a><br>
To change your subscription (digest mode or unsubscribe) visit <a href="http://www.beowulf.org/mailman/listinfo/beowulf" target="_blank">http://www.beowulf.org/mailman/listinfo/beowulf</a><br>
</font></blockquote></div><br><br clear="all"><br>-- <br>Jonathan Aquilina<br>