MemTest86 - EIN Fehler - Muss man sich Gedanken machen?

gadean

Depp vom Dienst!
Hey zusammen,
was für eine Woche, von Sonntag auf Montag Nacht sind meine Backups fehlgeschlagen, zu erst dachte ich an Probleme mit den SATA-Kabeln oder Festplatten.
Nach vielem Testen stellte sich raus, das der Arbeitsspeicher defekt ist (2x Corsair Vengeance LPX schwarz DIMM Kit 64GB, DDR4-3200, CL16-20-20-38).

Meine vier Backups (mehr halte ich nicht vorrätig) waren ebenfalls defekt und ich dachte mir "Dieses mal holst du ECC-Speicher":
4x Mushkin Proline DIMM 32GB, DDR4-3200, CL22-22-22-52, ECC (MPL4E320NF32G28)

Zwei Tage später war der neue RAM da und ich musste mit erschrecken feststellen, das ein Riegel direkt hunderte Fehler bei MemTest86 zeigt.

Aktuell teste ich meinen neuen Arbeitsspeicher mit MemTest86 und während dem achten Durchlauf wurde EIN Fehler geloggt.
Run 1-7: keine Fehler
Run 8: ein Fehler in "Test 7" (Moving inversions, 32 bit pattern) - Expected: FFFFFFFE / Actual: EFFFFFFF
Run 9-14: keine Fehler
Run 15: aktuell am laufen / kein Fehler soweit

RAM-Temperatur (min/max/avg). 32C/43C/38C

Interessant ist, das der Fehler nicht durch ECC "erkannt"/"behandelt"(?) wurde.

Muss ich mir jetzt Gedanken machen? Oder bin ich paranoid?
Wie hoch ist bitte die Wahrscheinlichkeit, das mein RAM kaputt geht und von den neu bestellten, einer definitiv defekt ist und der andere ein Fehler produziert?
 
Das Problem mit memTest und ECC ist, dass MemTest dir nicht anzeigt, wenn ECC den Fehler korregiert hat. Es zeigt also nur, wenn selbst ECC versagt hat. Du könntest also in wirklichkeit 100 ECC Errors haben, davon war einer nicht Korregierbar, und der schlägt dann in memTest auf.

Soweit ich weiß gibt es Tools die besser mit ECC umgehen können, selbst fällt mir da aber auch nichts ein - EnterpriseServer haben oft entprechende Funktionalität im BIOS was dir aber wohl nichts hilft.

Eventuell mal dein System/ein Livesystem starten und dort etwas RAM intensives machen und auf korregierte ECC Errors achten? Vielleicht kannst du auch den ECC Modus auf den kleinsten stellen, oder ECC sogar ausschalten, und dann nochmal memTest starten? Letzteres hängt etwas von RAM/Mainboard/BIOS ab.
 
Uh bist du dir da sicher? Hab das Foto leider nicht mehr aber bei dem einen Riegel der direkt hunderte Fehler produzierte, stand etwas in der Art "von ECC behandelt" und "konnte nicht behandelt werden".

Das mit dem deaktivieren schau ich mir mal an, danke.
 
Ok stimmt, ich war beim offenen MemTest86+, was etwas komplet anderes als MemTest86 (OHNE +) ist. Dann kann ich dazu nicht wirklich was sagen, da ich das Tool nicht kenne. Eventuell auch mal mit MemTest86+ testen :D
 
Staub rauspusten, im BIOS checken, ob alle Werte der Module korrekt gesetzt sind/erkannt wurden. Werksreset via jumper des Boards kann bei sowas auch nicht schaden.
Teste die Riegel einzeln in möglichst vielen slots (nicht jeder slot ist für Einzelmodule geeignet) und notiere dir die Ergebnisse. Dann via Ausschlussverfahren gegentesten.

Wie hoch ist bitte die Wahrscheinlichkeit, das mein RAM kaputt geht und von den neu bestellten, einer definitiv defekt ist und der andere ein Fehler produziert?
Jedenfalls nicht 0 ;)
Slots/Bänke können natürlich auch kaputt gehen. Ein anderes Mal dann eine ungünstig liegende Staubflocke, die für ungewollte Kriechströme sorgt.
 
Die Slots wechseln ist der Plan für die heutige Nacht, mal schauen wie das Ergebnis morgen ausschaut.
Teste jetzt erst mal die Zwei, bei denen ich mir relativ sicher bin das die nicht den Fehler ausgelöst haben und danach den einzelnen, bei dem ich vermute das der eine Fehler auftrat.
 
So, nach vielen vielen weiteren Tests, mit deaktivierten ECC im BIOS/EFI, habe ich bis jetzt keine Fehler.
Die zwei Riegel, wo ich davon ausgehe das sie nicht für den einen Fehler verantwortlich waren liefen 12 mal (3 runs mit 4 loops).
Den einzelnen Riegel, bei dem ich glaube der den einen Fehler produziert hat lief ebenfalls 12 mal (3 runs mit 4 loops).

Ich versteh es einfach nicht und vor allem nicht, warum der eine Fehler auftrat ohne korrigiert zu werden, gerade dafür ist doch ECC da?
Daran sollte auch eine Staubflocke nichts ändern.
 
Naja ECC kann ja nicht beliebig viele Bitfehler korrigieren. Glaube sogar nur 1 oder 2 Bitfehler werden in 8 Byte korrigiert, der Rest eben nur erkannt.
 
Die Corsair haben ein Auto-Übertaktprofil. Beide Module wurden ab Werk damit als 'stabil' getestet, beide haben daher auch ziemlich wahrscheinlich gleiche Chips (Samsung, Nanya... etc) und das ist der Mehrpreis von 10-20€ für ein sog. Kit.
Das Übertakten nennt sich bei Intel XMP Extreme Memory Profile und bei AMD DOCP Direct Over Clock Profile.
Besagtes Profil liegt auf jedem Modul, wird vom Mainboard ausgelesen und korrekt übersetzt bzw. alle Settings sollten dann dafür korrekt und automatisch eingestellt werden. Sollten.
Ich habe auch die Corsair Vengeance LPX, verschiedene Kits mit unterschiedlichen Chips auf einem ASUS-Board, AMD-System. Anfangs hatte ich üble Probleme mit dieser Kombi, egal mit welchem Einzelkit, egal wie gesteckt, tlw. gab es nichtmal nen Post.
Anscheinend wurde das DOCP-Profil fehlerhaft ausgelesen, sodass ich nur mit einem Einzelmodul booten konnte und das war unabhängig, ob ich DOCP aktiv hatte oder nicht. Durch etwas googlen fand ich dann den Tip, ausschließlich den VCORE für den RAM manuell in kleinen Schrittchen hochzusetzen, bis Stabilität einkehrte...und siehe da...so ab 1,4V bis 1,5V funktionierte das.
Mittlerweile gab es für das Board ne gute Anzahl FW-Updates, sodass zwei 'unterschiedliche' Kits zusammen werkeln.

Daher mein Tip, das ganze Board mal zu resetten und neue FW ausprobieren.
 
FW Upgrade hatte ich Freitag Nacht gemacht und im Anschluss zurückgesetzt.
Der eine Fehler könnte also damit zusammenhängen, auch wenn es merkwürdig wäre aber wer weiß.

Danke trotzdem
 
1 Fehler ist zu viel. Lass memtest im Mehrkernbetrieb laufen um dem System beim Test einzuheizen.

Allgemein gilt Memtest kann Fehler zeigen aber nicht die Abwesenheit von Fehlern. Unter allen Bedingungen musst Du mit 0 Fehlern wegkommen.

Eventuell brauchst Du höhere Spannungen oder musst den Takt verringern.

Bei einem Laptop half es mal die 2 Riegel einfach zu tauschen, dann liefen beide ohne Probleme.
 
@Kamikaze Das ist auch meine Annahme, wollte aber weitere Meinungen haben, da es schon merkwürdig ist.

Bezüglich DOCP/EXPO:
Ich denke schon, wobei DOCP meines Wissens nach von Asus kam und mehr oder weniger das gleiche ist.
Ich nenn das Zeug einfach immer XMP, egal bei welcher Plattform :D
 
EXPO habe ich noch nicht gehört. Kennengelernt hatte ich das auch als XMP, aber nie benutzt, weil ich bis dato eher alle Bänke mit Mischmodulen von überall her ausgemaxt habe und daher auf gemeinsamen Nenner und Stabilität pochte. Wirklich gebencht und rumgespielt damit hatte ich nur, weil ich besagte Probleme hatte und es dann doch erforderte, dass ich mich damit auseinandersetze.

wollte aber weitere Meinungen haben, da es schon merkwürdig ist
Äh ja natürlich...bei RAM ist ein Fehler zuviel. :)
 
Ein einzelner Fehler, der sich nicht wiederholt - das wäre doch genau das zu erwartende Fehlerbild für die durch kosmische Strahlung verursachten Fehler (die grob geschätzt einmal im Jahr einschlagen und nicht verhinderbar sind).

ECC, wenn es denn tauglich funktioniert, sollte im Systemlog melden wenn es was korrigiert ("COR" - mit einer eher mehr als weniger kryptischen location). Es sollte auch die "UNC" melden, aber das nur noch auf der Console (und im BIOS), weil dann sofort der Checkstop nachkommt und die Maschine steht.
 
Oh man, eine unendliche Geschichte!

Ich hatte den Riegel zurückgeschickt und um Ersatz gebeten, die hatten wohl keine mehr auf Lager und haben mir einfach den Teilbetrag erstattet.
Er war an vielen Stelle nicht verfügbar, hat also etwas gedauert bis ich ein Händler gefunden habe - vorgestern kam der neue Riegel an.
Modellnummer verglichen: passt
PCB verglichen: andere Farbe (sollte kein unterschied machen) / andere Speicherbausteine verbaut (hmmmm)

Eben in den PC eingebaut (als einziger Riegel) um memtest86 drüber laufen zu lassen:
Slot A_1: PC schaltet sich ein, aber nichts passiert (3x aus und wieder eingebaut)
Slot A_2: PC startet, komme ins UEFI, paar Sekunden später: System hat sich aufgehangen (2x aus und wieder eingebaut)
Slot B_1: PC startet, komme ins UEFI, ca. eine Minute später: System hängt sich auf (3x aus und wieder eingebaut)
Slot B_2: nicht getestet

Fängt ja gut an, also ein von den bereits getesteten Sticks in Slot A_1 und den neuen in Slot A_2 (lt. Handbuch).
System startet, komme ins UEFI, lief dort 5 Minuten ohne Probleme.
DIMMs im UEFI kontrolliert: Werte die zurückgegeben werden (Takt etc.) passen

Jetzt läuft memtest86 seit ca 3h (1x alter Riegel + 1x der neue Riegel) ohne Fehler.

Was zur Hölle? Das sind so Momente, die ich absolut nicht verstehe und an meinem "Wissen" zweifel.
Warum funktioniert der Riegel alleine nicht stabil, die anderen drei hingegen schon?
Warum funktioniert der Riegel, soweit, in Kombination mit einem anderen?

Urg!!!!! Ich will nur noch schreien und meine uralte Schreibmaschine zurück :D
 
Kann ein Wackler sein, die Pins drücken ja nicht mehr mit der Härte gegen die Kontakte als wenn sie ganz frisch sind. Hab da kein Patentrezept für, aber wenn sowas auftritt (und so sieht dein Fehlerbild jetzt aus), wippe ich den Riegel im eingerasteten Zustand ganz sachte nochmal hin und her. Nicht hulkstyle abreißen, nach fest kommt ab. ;)
Man kann bisher ja auch nicht ausschließen, dass der neue Riegel bereits tot beim Händler ankam und vom Lagern werden sie auch nicht besser.

Die Farbe ist wurscht, aber bei anderen Speicherchips kann eine andere Spannung nötig sein, unabhängig vom Takt. Bei zwei unterschiedlichen Modulen dahingehend schwierig, da man nicht weiß, welches Profil der beiden jetzt gerade die Werte vorgibt bzw. das Board die Reihenfolge liest. Sollte dein memtest in der Konstellation nochmal abstürzen, drehe die Spannung in 0,1V-Schrittchen (+0,1 bis +0,8, also acht Testschritte wären das, sollten gefahrlos sein) manuell hoch und wiederhole es nochmal. Ich hoffe dennoch, dass es oben besagter Wackler ist.

Board mit Jumper resetten empfiehlt sich nach jedem Umstecken vom Riegel sowieso, wenn das derartig zickt.
 
Dumm gefragt: ein anderes System/ein anderes Board, in welchem du diese Riegel testen könntest steht vermutlich nicht zur Verfügung?

Bei Belegung mit nur einem RAM Riegel könnte einem vielleicht auch die Bus-Termination in die Quere kommen;

Die DDR4 Riegel haben eine on-die Termination; wenn jetzt ein Riegel in einem ansonsten aktiven Channel nicht steckt, ist der Bus theoretisch nicht (korrekt) terminiert.

Im Netz findet man auch Hinweise, dass man anstatt den eigentlich logischen Slots vom ersten Channel A1/B1 (oder A1/A2 wie in deinem Fall) die vom zweiten Channel stattdessen als erstes belegen soll (A2/B2), da die "näher am Busende" sind als die Slots A1/B1 und diese dann erst bei der Erweiterung auf 4 RAM Riegel genutzt werden sollten.
 
@mr44er Mach ich auch immer, einfach um auf Nummer sicherzugehen - hatte die Situation mal bei einem Bekannten
Die Spannung ist bei allen 1.2V und auch so im UEFI konfiguriert, wie gesagt, von den Daten die auf den Sticks stehen sind die Identisch, nur die Speicherchips sind andere.
Reset vom UEFI hatte ich auch schon gemacht

@turrican Schwierig, ich habe ein anderes System mit fast gleicher Hardware, aber das kann ich leider derzeit nicht offline nehmen :/
Das mit der Belegung der Slots könnte natürlich sein, aber wäre dennoch sehr merkwürdig, da die anderen drei Riegel einzeln in jedem Slot ohne Probleme funktionieren. Auf der anderen Seite, scheint der neue Riegel ja minimal anders zu sein (Speicherchips), aber ich hatte es ja schon in 3 von 4 Slots probiert.

Mein Fehler, dachte ich hätte das schon gepostet:
Code:
1x GIGABYTE X570 AORUS Pro
1x AMD Ryzen 7 3700X
4x Mushkin Proline DIMM 32GB, DDR4-3200, CL22-22-22-52, ECC (MPL4E320NF32G28)

Edit: Mir fällt gerade auf, bei zwei Riegel für Dual-Channel sollte ich A1/B1 oder A2/B2 nehmen (lesen sollte man lernen -.-" ).
Das ändere ich gleich mal und lass memtest86 wieder laufen - bisher 0 Fehler in knapp 5h
 
das mit dem anderen System ist ein Luxus, welchen man oft nicht zur Verfügung hat;

beleg doch bei Gelegenheit mal A2/B2 anstatt A1/B1
 
Noch was anderes: Der Lüfter für den Chipsatz funktioniert generell?
Meiner Erfahrung nach sind die hauchdünn und versagen recht schnell, wenn etwas Staub drin ist. Wenn der Chip überhitzt, geht das Board ja auch einfach aus.

Wenn du ja jetzt wieder vier Module hast, kannst du auch alle vier auf einmal testen und dir die Gedanken über Steckkombinationen sparen.
Den vollen Test würdest ja nach deiner jetzigen Kombination eh machen ;)
 
Gerade den neuen Riegel, alleine, in B2 gesteckt und memtest86 läuft seit 10 Minuten.
Sofern da nichts passiert, fasse ich den Riegel nicht mehr an :D

@mr44er Jep, Lüfter läuft und der Kühlkörper ist etwas über handwarm.
Ja das ist das endgültige Ziel, wollte jedoch erst mal den Riegel alleine testen, um sicherzustellen das der in Ordnung ist.
 
Zurück
Oben