MemTest86 - EIN Fehler - Muss man sich Gedanken machen?

gadean · 23 Februar 2024

Hey zusammen,

was für eine Woche, von Sonntag auf Montag Nacht sind meine Backups fehlgeschlagen, zu erst dachte ich an Probleme mit den SATA-Kabeln oder Festplatten.
Nach vielem Testen stellte sich raus, das der Arbeitsspeicher defekt ist (2x Corsair Vengeance LPX schwarz DIMM Kit 64GB, DDR4-3200, CL16-20-20-38).

Meine vier Backups (mehr halte ich nicht vorrätig) waren ebenfalls defekt und ich dachte mir "Dieses mal holst du ECC-Speicher":
4x Mushkin Proline DIMM 32GB, DDR4-3200, CL22-22-22-52, ECC (MPL4E320NF32G28)

Zwei Tage später war der neue RAM da und ich musste mit erschrecken feststellen, das ein Riegel direkt hunderte Fehler bei MemTest86 zeigt.

Aktuell teste ich meinen neuen Arbeitsspeicher mit MemTest86 und während dem achten Durchlauf wurde EIN Fehler geloggt.
Run 1-7: keine Fehler
Run 8: ein Fehler in "Test 7" (Moving inversions, 32 bit pattern) - Expected: FFFFFFFE / Actual: EFFFFFFF
Run 9-14: keine Fehler
Run 15: aktuell am laufen / kein Fehler soweit

RAM-Temperatur (min/max/avg). 32C/43C/38C

Interessant ist, das der Fehler nicht durch ECC "erkannt"/"behandelt"(?) wurde.

Muss ich mir jetzt Gedanken machen? Oder bin ich paranoid?
Wie hoch ist bitte die Wahrscheinlichkeit, das mein RAM kaputt geht und von den neu bestellten, einer definitiv defekt ist und der andere ein Fehler produziert?

medV2 · 23 Februar 2024

Das Problem mit memTest und ECC ist, dass MemTest dir nicht anzeigt, wenn ECC den Fehler korregiert hat. Es zeigt also nur, wenn selbst ECC versagt hat. Du könntest also in wirklichkeit 100 ECC Errors haben, davon war einer nicht Korregierbar, und der schlägt dann in memTest auf.

Soweit ich weiß gibt es Tools die besser mit ECC umgehen können, selbst fällt mir da aber auch nichts ein - EnterpriseServer haben oft entprechende Funktionalität im BIOS was dir aber wohl nichts hilft.

Eventuell mal dein System/ein Livesystem starten und dort etwas RAM intensives machen und auf korregierte ECC Errors achten? Vielleicht kannst du auch den ECC Modus auf den kleinsten stellen, oder ECC sogar ausschalten, und dann nochmal memTest starten? Letzteres hängt etwas von RAM/Mainboard/BIOS ab.

gadean · 23 Februar 2024

Uh bist du dir da sicher? Hab das Foto leider nicht mehr aber bei dem einen Riegel der direkt hunderte Fehler produzierte, stand etwas in der Art "von ECC behandelt" und "konnte nicht behandelt werden".

Das mit dem deaktivieren schau ich mir mal an, danke.

medV2 · 23 Februar 2024

Ok stimmt, ich war beim offenen MemTest86+, was etwas komplet anderes als MemTest86 (OHNE +) ist. Dann kann ich dazu nicht wirklich was sagen, da ich das Tool nicht kenne. Eventuell auch mal mit MemTest86+ testen

mr44er · 23 Februar 2024

Staub rauspusten, im BIOS checken, ob alle Werte der Module korrekt gesetzt sind/erkannt wurden. Werksreset via jumper des Boards kann bei sowas auch nicht schaden.
Teste die Riegel einzeln in möglichst vielen slots (nicht jeder slot ist für Einzelmodule geeignet) und notiere dir die Ergebnisse. Dann via Ausschlussverfahren gegentesten.

gadean schrieb:
Wie hoch ist bitte die Wahrscheinlichkeit, das mein RAM kaputt geht und von den neu bestellten, einer definitiv defekt ist und der andere ein Fehler produziert?

Jedenfalls nicht 0

Slots/Bänke können natürlich auch kaputt gehen. Ein anderes Mal dann eine ungünstig liegende Staubflocke, die für ungewollte Kriechströme sorgt.

gadean · 23 Februar 2024

Die Slots wechseln ist der Plan für die heutige Nacht, mal schauen wie das Ergebnis morgen ausschaut.
Teste jetzt erst mal die Zwei, bei denen ich mir relativ sicher bin das die nicht den Fehler ausgelöst haben und danach den einzelnen, bei dem ich vermute das der eine Fehler auftrat.

gadean · 25 Februar 2024

So, nach vielen vielen weiteren Tests, mit deaktivierten ECC im BIOS/EFI, habe ich bis jetzt keine Fehler.
Die zwei Riegel, wo ich davon ausgehe das sie nicht für den einen Fehler verantwortlich waren liefen 12 mal (3 runs mit 4 loops).
Den einzelnen Riegel, bei dem ich glaube der den einen Fehler produziert hat lief ebenfalls 12 mal (3 runs mit 4 loops).

Ich versteh es einfach nicht und vor allem nicht, warum der eine Fehler auftrat ohne korrigiert zu werden, gerade dafür ist doch ECC da?
Daran sollte auch eine Staubflocke nichts ändern.

medV2 · 25 Februar 2024

Naja ECC kann ja nicht beliebig viele Bitfehler korrigieren. Glaube sogar nur 1 oder 2 Bitfehler werden in 8 Byte korrigiert, der Rest eben nur erkannt.

mr44er · 25 Februar 2024

Die Corsair haben ein Auto-Übertaktprofil. Beide Module wurden ab Werk damit als 'stabil' getestet, beide haben daher auch ziemlich wahrscheinlich gleiche Chips (Samsung, Nanya... etc) und das ist der Mehrpreis von 10-20€ für ein sog. Kit.
Das Übertakten nennt sich bei Intel XMP Extreme Memory Profile und bei AMD DOCP Direct Over Clock Profile.
Besagtes Profil liegt auf jedem Modul, wird vom Mainboard ausgelesen und korrekt übersetzt bzw. alle Settings sollten dann dafür korrekt und automatisch eingestellt werden. Sollten.
Ich habe auch die Corsair Vengeance LPX, verschiedene Kits mit unterschiedlichen Chips auf einem ASUS-Board, AMD-System. Anfangs hatte ich üble Probleme mit dieser Kombi, egal mit welchem Einzelkit, egal wie gesteckt, tlw. gab es nichtmal nen Post.
Anscheinend wurde das DOCP-Profil fehlerhaft ausgelesen, sodass ich nur mit einem Einzelmodul booten konnte und das war unabhängig, ob ich DOCP aktiv hatte oder nicht. Durch etwas googlen fand ich dann den Tip, ausschließlich den VCORE für den RAM manuell in kleinen Schrittchen hochzusetzen, bis Stabilität einkehrte...und siehe da...so ab 1,4V bis 1,5V funktionierte das.
Mittlerweile gab es für das Board ne gute Anzahl FW-Updates, sodass zwei 'unterschiedliche' Kits zusammen werkeln.

Daher mein Tip, das ganze Board mal zu resetten und neue FW ausprobieren.

gadean · 25 Februar 2024

FW Upgrade hatte ich Freitag Nacht gemacht und im Anschluss zurückgesetzt.
Der eine Fehler könnte also damit zusammenhängen, auch wenn es merkwürdig wäre aber wer weiß.

Danke trotzdem

Kamikaze · 26 Februar 2024

1 Fehler ist zu viel. Lass memtest im Mehrkernbetrieb laufen um dem System beim Test einzuheizen.

Allgemein gilt Memtest kann Fehler zeigen aber nicht die Abwesenheit von Fehlern. Unter allen Bedingungen musst Du mit 0 Fehlern wegkommen.

Eventuell brauchst Du höhere Spannungen oder musst den Takt verringern.

Bei einem Laptop half es mal die 2 Riegel einfach zu tauschen, dann liefen beide ohne Probleme.

Kamikaze · 26 Februar 2024

mr44er schrieb:
Das Übertakten nennt sich bei Intel XMP Extreme Memory Profile und bei AMD DOCP Direct Over Clock Profile.

Meinst Du EXPO?

gadean · 26 Februar 2024

@Kamikaze Das ist auch meine Annahme, wollte aber weitere Meinungen haben, da es schon merkwürdig ist.

Bezüglich DOCP/EXPO:
Ich denke schon, wobei DOCP meines Wissens nach von Asus kam und mehr oder weniger das gleiche ist.
Ich nenn das Zeug einfach immer XMP, egal bei welcher Plattform

mr44er · 26 Februar 2024

EXPO habe ich noch nicht gehört. Kennengelernt hatte ich das auch als XMP, aber nie benutzt, weil ich bis dato eher alle Bänke mit Mischmodulen von überall her ausgemaxt habe und daher auf gemeinsamen Nenner und Stabilität pochte. Wirklich gebencht und rumgespielt damit hatte ich nur, weil ich besagte Probleme hatte und es dann doch erforderte, dass ich mich damit auseinandersetze.

gadean schrieb:
wollte aber weitere Meinungen haben, da es schon merkwürdig ist

Äh ja natürlich...bei RAM ist ein Fehler zuviel.

Lance · 26 Februar 2024

Vielleicht hilft das weiter, läuft allerdings momentan nur unter Windows (sonst mit Rufus ein Win to Go erstellen und es davon dann versuchen):

OCBASE/OCCT : Free, all-in-one stability, stress test, benchmark and monitoring tool for your PC

Ocbase is the home of OCCT, the most popular all-in-one stability / stress testing / benchmarking / monitoring tool available for PC

www.ocbase.com

PMc · 27 Februar 2024

Ein einzelner Fehler, der sich nicht wiederholt - das wäre doch genau das zu erwartende Fehlerbild für die durch kosmische Strahlung verursachten Fehler (die grob geschätzt einmal im Jahr einschlagen und nicht verhinderbar sind).

ECC, wenn es denn tauglich funktioniert, sollte im Systemlog melden wenn es was korrigiert ("COR" - mit einer eher mehr als weniger kryptischen location). Es sollte auch die "UNC" melden, aber das nur noch auf der Console (und im BIOS), weil dann sofort der Checkstop nachkommt und die Maschine steht.

gadean · 28 Februar 2024

Hab den einen Riegel ebenfalls zurück geschickt, sicher ist sicher, danke trotzdem

gadean · Gestern um 18:57

Oh man, eine unendliche Geschichte!

Ich hatte den Riegel zurückgeschickt und um Ersatz gebeten, die hatten wohl keine mehr auf Lager und haben mir einfach den Teilbetrag erstattet.
Er war an vielen Stelle nicht verfügbar, hat also etwas gedauert bis ich ein Händler gefunden habe - vorgestern kam der neue Riegel an.
Modellnummer verglichen: passt
PCB verglichen: andere Farbe (sollte kein unterschied machen) / andere Speicherbausteine verbaut (hmmmm)

Eben in den PC eingebaut (als einziger Riegel) um memtest86 drüber laufen zu lassen:
Slot A_1: PC schaltet sich ein, aber nichts passiert (3x aus und wieder eingebaut)
Slot A_2: PC startet, komme ins UEFI, paar Sekunden später: System hat sich aufgehangen (2x aus und wieder eingebaut)
Slot B_1: PC startet, komme ins UEFI, ca. eine Minute später: System hängt sich auf (3x aus und wieder eingebaut)
Slot B_2: nicht getestet

Fängt ja gut an, also ein von den bereits getesteten Sticks in Slot A_1 und den neuen in Slot A_2 (lt. Handbuch).
System startet, komme ins UEFI, lief dort 5 Minuten ohne Probleme.
DIMMs im UEFI kontrolliert: Werte die zurückgegeben werden (Takt etc.) passen

Jetzt läuft memtest86 seit ca 3h (1x alter Riegel + 1x der neue Riegel) ohne Fehler.

Was zur Hölle? Das sind so Momente, die ich absolut nicht verstehe und an meinem "Wissen" zweifel.
Warum funktioniert der Riegel alleine nicht stabil, die anderen drei hingegen schon?
Warum funktioniert der Riegel, soweit, in Kombination mit einem anderen?

Urg!!!!! Ich will nur noch schreien und meine uralte Schreibmaschine zurück

mr44er · Gestern um 20:22

Kann ein Wackler sein, die Pins drücken ja nicht mehr mit der Härte gegen die Kontakte als wenn sie ganz frisch sind. Hab da kein Patentrezept für, aber wenn sowas auftritt (und so sieht dein Fehlerbild jetzt aus), wippe ich den Riegel im eingerasteten Zustand ganz sachte nochmal hin und her. Nicht hulkstyle abreißen, nach fest kommt ab.

Man kann bisher ja auch nicht ausschließen, dass der neue Riegel bereits tot beim Händler ankam und vom Lagern werden sie auch nicht besser.

Die Farbe ist wurscht, aber bei anderen Speicherchips kann eine andere Spannung nötig sein, unabhängig vom Takt. Bei zwei unterschiedlichen Modulen dahingehend schwierig, da man nicht weiß, welches Profil der beiden jetzt gerade die Werte vorgibt bzw. das Board die Reihenfolge liest. Sollte dein memtest in der Konstellation nochmal abstürzen, drehe die Spannung in 0,1V-Schrittchen (+0,1 bis +0,8, also acht Testschritte wären das, sollten gefahrlos sein) manuell hoch und wiederhole es nochmal. Ich hoffe dennoch, dass es oben besagter Wackler ist.

Board mit Jumper resetten empfiehlt sich nach jedem Umstecken vom Riegel sowieso, wenn das derartig zickt.

turrican · Gestern um 20:26

Dumm gefragt: ein anderes System/ein anderes Board, in welchem du diese Riegel testen könntest steht vermutlich nicht zur Verfügung?

Bei Belegung mit nur einem RAM Riegel könnte einem vielleicht auch die Bus-Termination in die Quere kommen;

Die DDR4 Riegel haben eine on-die Termination; wenn jetzt ein Riegel in einem ansonsten aktiven Channel nicht steckt, ist der Bus theoretisch nicht (korrekt) terminiert.

Im Netz findet man auch Hinweise, dass man anstatt den eigentlich logischen Slots vom ersten Channel A1/B1 (oder A1/A2 wie in deinem Fall) die vom zweiten Channel stattdessen als erstes belegen soll (A2/B2), da die "näher am Busende" sind als die Slots A1/B1 und diese dann erst bei der Erweiterung auf 4 RAM Riegel genutzt werden sollten.

mr44er · Gestern um 20:36

Ist das ein ASUS-Board? Bzw. gib' mal bitte mehr Specs zu dem Board.

gadean · Gestern um 20:47

@mr44er Mach ich auch immer, einfach um auf Nummer sicherzugehen - hatte die Situation mal bei einem Bekannten
Die Spannung ist bei allen 1.2V und auch so im UEFI konfiguriert, wie gesagt, von den Daten die auf den Sticks stehen sind die Identisch, nur die Speicherchips sind andere.
Reset vom UEFI hatte ich auch schon gemacht

@turrican Schwierig, ich habe ein anderes System mit fast gleicher Hardware, aber das kann ich leider derzeit nicht offline nehmen :/
Das mit der Belegung der Slots könnte natürlich sein, aber wäre dennoch sehr merkwürdig, da die anderen drei Riegel einzeln in jedem Slot ohne Probleme funktionieren. Auf der anderen Seite, scheint der neue Riegel ja minimal anders zu sein (Speicherchips), aber ich hatte es ja schon in 3 von 4 Slots probiert.

Mein Fehler, dachte ich hätte das schon gepostet:

Code:

1x GIGABYTE X570 AORUS Pro
1x AMD Ryzen 7 3700X
4x Mushkin Proline DIMM 32GB, DDR4-3200, CL22-22-22-52, ECC (MPL4E320NF32G28)

Edit: Mir fällt gerade auf, bei zwei Riegel für Dual-Channel sollte ich A1/B1 oder A2/B2 nehmen (lesen sollte man lernen -.-" ).
Das ändere ich gleich mal und lass memtest86 wieder laufen - bisher 0 Fehler in knapp 5h

turrican · Gestern um 21:19

das mit dem anderen System ist ein Luxus, welchen man oft nicht zur Verfügung hat;

beleg doch bei Gelegenheit mal A2/B2 anstatt A1/B1

mr44er · Gestern um 21:21

Noch was anderes: Der Lüfter für den Chipsatz funktioniert generell?
Meiner Erfahrung nach sind die hauchdünn und versagen recht schnell, wenn etwas Staub drin ist. Wenn der Chip überhitzt, geht das Board ja auch einfach aus.

Wenn du ja jetzt wieder vier Module hast, kannst du auch alle vier auf einmal testen und dir die Gedanken über Steckkombinationen sparen.
Den vollen Test würdest ja nach deiner jetzigen Kombination eh machen

gadean · Gestern um 21:34

Gerade den neuen Riegel, alleine, in B2 gesteckt und memtest86 läuft seit 10 Minuten.
Sofern da nichts passiert, fasse ich den Riegel nicht mehr an

@mr44er Jep, Lüfter läuft und der Kühlkörper ist etwas über handwarm.
Ja das ist das endgültige Ziel, wollte jedoch erst mal den Riegel alleine testen, um sicherzustellen das der in Ordnung ist.

MemTest86 - EIN Fehler - Muss man sich Gedanken machen?

Depp vom Dienst!

Well-Known Member

Depp vom Dienst!

Well-Known Member

moderater Moderator

Depp vom Dienst!

Depp vom Dienst!

Well-Known Member

moderater Moderator

Depp vom Dienst!

Warrior of Sunlight

Warrior of Sunlight

Depp vom Dienst!

moderater Moderator

Well-Known Member

Well-Known Member

Depp vom Dienst!

Depp vom Dienst!

moderater Moderator

Well-Known Member

moderater Moderator

Depp vom Dienst!

Well-Known Member

moderater Moderator

Depp vom Dienst!

Wir schützen deine Privatsphäre