MeshRoute — Wie System 5 funktioniert (Schritt für Schritt)

Das große Bild

Jedes Routing-Protokoll beantwortet eine Frage: Wenn Knoten A eine Nachricht an Knoten Z senden will, welche Zwischenknoten sollen sie weiterleiten?

Das aktuelle Meshtastic verwendet Managed Flooding: Jeder Knoten sendet jede Nachricht weiter, in der Hoffnung, dass sie das Ziel erreicht. Das funktioniert für kleine Netzwerke, erzeugt aber eine Bandbreitenexplosion bei Skalierung — 100 Knoten bedeuten ~100 Übertragungen pro Nachricht.

System 5 verfolgt einen grundlegend anderen Ansatz: Knoten organisieren sich selbst in geografische Cluster, entdecken Multi-Hop-Routen und senden jede Nachricht über einen spezifisch berechneten Pfad. Die Kosten pro Nachricht sind proportional zur Anzahl der Hops, nicht zur Anzahl der Knoten.

Managed Flooding (Meshtastic heute) A sendet → jeder Knoten sendet weiter → Z empfängt (irgendwann) Kosten: O(n) Übertragungen pro Nachricht — skaliert mit Netzwerkgröße System 5 (MeshRoute-Vorschlag) A sendet → B → D → G → Z (berechneter Pfad) Kosten: O(Hops) Übertragungen pro Nachricht — skaliert mit Entfernung, nicht Größe

Die folgenden Abschnitte erklären jeden Schritt im Detail.

Schritt 1: Start — Was passiert, wenn ein Knoten eingeschaltet wird

Wenn ein System 5-Knoten hochfährt, weiß er noch nichts über das Netzwerk. Hier ist die genaue Abfolge:

Hardware-Initialisierung: Das LoRa-Funkmodul beginnt auf der konfigurierten Frequenz zu lauschen (EU 868MHz). Das GPS-Modul beginnt mit der Satellitenerfassung (falls vorhanden).
Positionsbestimmung: Der Knoten versucht drei Methoden in dieser Reihenfolge:
- Echtes GPS — beste Option, genau auf ~5m (T-Beam, RAK4631 mit GPS-Modul)
- RSSI-Triangulation — falls kein GPS, aber 3+ Nachbarn mit bekannten Positionen, wird die Position aus der Signalstärke geschätzt
- Cluster-Übernahme — falls beides nicht funktioniert, wird die Cluster-ID des stärksten Nachbarn übernommen
Geohash-Berechnung: GPS-Koordinaten werden in einen Geohash-String umgewandelt (z.B. "u33d"). Die ersten 4 Zeichen definieren den Cluster des Knotens. Knoten mit dem gleichen 4-Zeichen-Präfix befinden sich im selben Cluster.
OGM-Broadcast: Der Knoten sendet seine erste Originator Message (OGM) — ein kleines Paket das verkündet: „Ich existiere, hier sind meine Position, mein Batteriestand und meine Cluster-ID."

Was ist ein Geohash?

Ein Geohash kodiert eine GPS-Koordinate in einen String, bei dem gemeinsame Präfixe geografische Nähe bedeuten. Zwei Knoten mit Geohash "u33d8" und "u33d9" teilen das Präfix "u33d" — sie sind im selben Cluster. Ein Knoten mit "u33e1" ist in einem benachbarten Cluster. Bei 4-Zeichen-Genauigkeit deckt jeder Cluster ungefähr 40km × 20km ab.

Schritt 2: Nachbarerkennung via OGM

Alle 30 Sekunden sendet jeder Knoten eine OGM (Originator Message). Das ist ein kompaktes Paket (~20 Bytes) mit folgendem Inhalt:

Feld	Größe	Zweck
Node ID	4 Bytes	Eindeutige Kennung (abgeleitet von der Hardware-MAC)
Position	8 Bytes	Breitengrad + Längengrad (oder Cluster-ID falls kein GPS)
Batterie	1 Byte	Aktueller Ladestand (0–100%)
Cluster-ID	4 Bytes	Geohash-Präfix des Clusters dieses Knotens
Nachbaranzahl	1 Byte	Wie viele Nachbarn dieser Knoten aktuell hat
NHS	1 Byte	Network Health Score des Clusters dieses Knotens

Wenn ein Knoten eine OGM empfängt, geschieht Folgendes:

RSSI/SNR messen des empfangenen Signals → bestimmt die Verbindungsqualität zum Sender
Sender in die Nachbartabelle eintragen/aktualisieren (max. 16 Nachbarn pro Knoten)
Cluster-ID vermerken — falls der Sender in einem anderen Cluster ist, könnte dieser Knoten ein Border Node sein

Warum maximal 16 Nachbarn?

Speicherbeschränkung. Jeder Nachbareintrag kostet ~80 Bytes. Auf nRF52-Geräten mit 256KB RAM bedeuten 16 Nachbarn × 80 Bytes = 1.280 Bytes — leistbar. Falls ein Knoten mehr als 16 Nachbarn hört, wird der mit der niedrigsten Verbindungsqualität entfernt. Das ist unproblematisch, da das Routing nur die besten Nachbarn braucht, nicht alle.

Verbindungsqualität ist asymmetrisch

Ein kritisches Detail: Die Verbindung von A→B kann eine andere Qualität haben als B→A. Ein Berggipfel-Knoten mit freier Sichtlinie sendet möglicherweise mit Qualität 0,95 zum Talknoten, aber der Talknoten (umgeben von Gebäuden) kann nur mit Qualität 0,3 zurücksenden. System 5 verfolgt beide Richtungen unabhängig.

Berggipfel (600m, Freiraum) ——— Qualität 0,95 ———→ Tal (50m, urban) Berggipfel ←—— Qualität 0,30 —————— Tal System 5 kennt beide Werte. Beim Routing ZUM Tal wird die 0,95-Verbindung genutzt. Beim Routing VOM Tal wird ein anderer Pfad gefunden (vielleicht über einen Hügelknoten).

Schritt 3: Geo-Clustering — Selbstorganisierende Geografie

Nach einigen OGM-Runden (~1–2 Minuten) haben die Knoten ihre Nachbarn entdeckt. Nun organisiert sich das Netzwerk selbst in geografische Cluster.

Wie Clustering funktioniert

Es gibt keinen zentralen Koordinator. Jeder Knoten handelt unabhängig:

Berechnet seinen Geohash aus seiner GPS-Position
Nimmt die ersten 4 Zeichen als seine Cluster-ID
Knoten mit dem gleichen 4-Zeichen-Präfix sind automatisch im selben Cluster

Das ist komplett dezentral — kein Knoten muss das gesamte Netzwerk „kennen". Wenn ein neuer Knoten in München eingeschaltet wird, berechnet er seinen Geohash ("u281") und ist automatisch Teil des München-Clusters. Er braucht keine Genehmigung und keine Koordination.

Border Nodes — Die Brücken zwischen Clustern

Ein Border Node ist jeder Knoten, der Nachbarn in einem anderen Cluster hat. Border Nodes sind entscheidend — sie sind die Brücken für das clusterübergreifende Routing.

Cluster "u33d" Cluster "u33e" ┌──────────────┐ ┌──────────────┐ │ A B C │ │ F G H │ │ D │ │ I │ │ [E] ─┼── Link ──┼─ [J] │ └──────────────┘ └──────────────┘ [E] und [J] sind Border Nodes — sie haben Nachbarn über Clustergrenzen hinweg. Um von A nach H zu senden: A → D → E → J → G → H (innerhalb u33d) (Brücke) (innerhalb u33e)

System 5 begrenzt Brückenverbindungen auf 2 pro Clusterpaar, um eine Routenexplosion zu verhindern. Die zwei stärksten Verbindungen zwischen jedem Paar benachbarter Cluster werden ausgewählt.

Warum das skaliert

Jeder Knoten muss nur Folgendes kennen:

Vollständige Topologie innerhalb seines eigenen Clusters (direkte Nachbarkenntnis, ~20–50 Knoten)
Border Nodes zu benachbarten Clustern (2 pro Paar × ~8 Nachbarcluster = 16 Knoten)
Cluster-Level-Routen für entfernte Cluster (abstrakt — „um Cluster u33e zu erreichen, gehe über Border Node E")

Ein Knoten in San Francisco muss nicht jeden einzelnen Knoten in Oakland kennen. Er muss nur wissen: „Um Oakland zu erreichen, route über Border Node #47 auf dem Bay Bridge-Kamm."

Schritt 4: Routenberechnung — Mehrere Pfade finden

Sobald Cluster und Border Nodes bekannt sind, berechnet jeder Knoten bis zu 5 Routen zu jedem Ziel, das er erreichen möchte.

Der Algorithmus: BFS mit progressivem Ausschluss

Kürzesten Pfad finden via Breadth-First Search (BFS) von Quelle zu Ziel
Zwischenknoten aufzeichnen dieses Pfades
Diese Zwischenknoten ausschließen und den nächstkürzesten Pfad finden (erzwingt eine andere Route)
Bis zu 5 Mal wiederholen — jeder neue Pfad muss mindestens einen anderen Zwischenknoten verwenden

Routenberechnung: A → Z Pfad 1 (BFS): A → B → D → G → Z (kürzester, Qualität 0,92) Ausschluss: B, D, G Pfad 2 (BFS\{B,D,G}): A → C → F → H → Z (zweitbester, Qualität 0,85) Ausschluss: B, D, G, C, F, H Pfad 3 (BFS\{...}): A → E → J → K → Z (dritter, Qualität 0,71) Ergebnis: 3 gecachte Routen mit unabhängigen Ausfalldomänen.

Routenqualitätsberechnung

Für jede Route ist die Qualität das Produkt aller Verbindungsqualitäten entlang des Pfades:

Routenqualität Q(route) = q(A→B) × q(B→D) × q(D→G) × q(G→Z)

Wenn eine einzelne Verbindung Qualität 0,5 hat, sinkt die Gesamtroutenqualität erheblich. Das bestraft natürlich lange Pfade und Pfade mit schwachen Verbindungen.

Lazy vs. Eager Berechnung

Kleine Netzwerke (<200 Knoten): Routen werden beim Start für alle Paare vorberechnet (Eager-Modus)
Große Netzwerke (>200 Knoten): Routen werden bei Bedarf berechnet, wenn eine Nachricht gesendet werden muss (Lazy-Modus). Einmal berechnet, werden sie gecacht.

Schritt 5: Eine Nachricht senden — Gewichtete Routenauswahl

Wenn Knoten A eine Nachricht an Knoten Z senden will, ist dies der genaue Entscheidungsprozess:

QoS-Gate prüfen

Ist die Priorität dieser Nachricht hoch genug für den aktuellen Netzwerkzustand? (Siehe Schritt 6)

Gecachte Routen abrufen

Alle gecachten Routen zum Ziel Z nachschlagen. Typischerweise 2–5 Routen.

Tote Routen filtern

Routen entfernen, bei denen ein Zwischenknoten ausgefallen ist (Batterie = 0) oder eine Verbindung unterbrochen ist.

Gewichte berechnen

Für jede verbleibende Route wird ein Gewicht berechnet, das drei Faktoren ausbalanciert:

Routengewicht (die Kernformel) W(r) = 0.4 × Q(r) + 0.35 × (1 − Load(r)) + 0.25 × Batt(r)

Faktor	Gewicht	Was er misst	Warum er wichtig ist
Q(r) — Qualität	0,4 (40%)	Produkt aller Verbindungsqualitäten entlang des Pfades	Höher = weniger Paketverluste, weniger Wiederholungen nötig
1−Load(r) — Freie Kapazität	0,35 (35%)	Durchschnittliche Warteschlangenauslastung der Zwischenknoten (invertiert)	Vermeidet Routing durch überlastete Knoten
Batt(r) — Batterie	0,25 (25%)	Minimaler Batteriestand über alle Knoten im Pfad	Knoten mit niedrigem Akku nicht entleeren; sie könnten solar sein und Reserven brauchen

Proportionale Auswahl (nicht nur die Beste!)

Dies ist eine kritische Designentscheidung. System 5 wählt nicht immer die beste Route. Es wählt Routen probabilistisch, proportional zu ihrem Gewicht:

Auswahlwahrscheinlichkeit P(route r) = W(r) / Σ W(alle Routen)

Beispiel: Wenn Route 1 Gewicht 0,8 und Route 2 Gewicht 0,4 hat:

Route 1 wird ~67% der Zeit gewählt (0,8 / 1,2)
Route 2 wird ~33% der Zeit gewählt (0,4 / 1,2)

Das hält sekundäre Routen „warm" — gelegentlich fließt Verkehr durch sie, sodass das Netzwerk weiß, dass sie noch funktionieren. Wenn Route 1 ausfällt, ist Route 2 sofort mit aktuellen Qualitätsdaten verfügbar.

Hop-by-Hop-Weiterleitung

Die Nachricht wird entlang des gewählten Pfades gesendet, ein Hop nach dem anderen:

A sendet an B (erster Hop im Pfad)
Wenn B empfängt → B leitet an D weiter (nächster Hop)
Wenn B nicht empfängt → A wiederholt (bis zu 3 Mal bei guten Verbindungen, 5 bei schlechten)
Wenn alle Wiederholungen scheitern → nächste gecachte Route versuchen (bis zu 5 Routenversuche)
Wenn alle Routen scheitern → Fallback auf begrenztes Cluster-Flooding

Adaptive Wiederholungen

Verbindungen mit Qualität > 0,5 bekommen 3 Wiederholungen (werden wahrscheinlich schnell erfolgreich). Verbindungen mit Qualität ≤ 0,5 bekommen 5 Wiederholungen (brauchen mehr Versuche). Das balanciert Zustellwahrscheinlichkeit gegen Sendezeit-Kosten.

Backpressure — Automatische Stau-Vermeidung

Wenn die Warteschlange eines Zwischenknotens sich füllt, wendet System 5 graduellen Gegendruck an:

Warteschlangenlast	Aktion
< 80%	Normaler Betrieb — Routengewicht unverändert
80–95%	Routengewicht bestraft (× 0,8–0,95) — Verkehr verlagert sich auf Alternativen
> 95%	Route vollständig blockiert — kein neuer Verkehr durch diesen Knoten

Das verhindert kaskadierende Überlastung: Wenn ein Knoten beginnt, überlastet zu werden, verteilt sich der Verkehr natürlich auf andere Pfade, bevor der Knoten Pakete verwirft.

Schritt 6: QoS — Priorisierung unter Druck

Nicht alle Nachrichten sind gleich. System 5 verwendet einen Network Health Score (NHS) pro Cluster, um niedrig priorisierten Verkehr zu drosseln, wenn das Netzwerk belastet ist.

NHS-Berechnung

NHS ist ein Wert von 0,0 bis 1,0, der den Gesundheitszustand des Clusters repräsentiert, basierend auf:

Durchschnittliche Verbindungsqualität über alle Verbindungen im Cluster
Anzahl aktiver (lebender) Knoten vs. erwartete Knoten
Durchschnittliche Warteschlangenauslastung der Cluster-Mitglieder

Prioritäts-Gating

NHS-Bereich	Netzwerkzustand	Erlaubte Prioritäten	Beispiel
0,8 – 1,0	Gesund	Alle (0–7)	Alles kommt durch
0,6 – 0,8	Mäßig	Nur 0–5	Niedrig priorisierte Telemetrie gedrosselt
0,4 – 0,6	Verschlechtert	Nur 0–3	Nur wichtige Nachrichten
0,2 – 0,4	Kritisch	Nur 0–1	Nur Notfall/SOS
< 0,2	Zusammengebrochen	Nur 0	Nur SOS-Nachrichten

Priorität 0 = SOS/Notfall — kommt immer durch, unabhängig vom Netzwerkzustand. Das stellt sicher, dass in einem Katastrophenszenario kritische Nachrichten niemals durch routinemäßige Telemetrie blockiert werden.

Schritt 7: Fallback — Wenn alle Routen versagen

Wenn alle 5 gecachten Routen versagen (nach Wiederholungen auf jeder einzelnen), gibt System 5 nicht auf. Es fällt zurück auf begrenztes Cluster-Flooding — eine gezielte Mini-Flut entlang des Korridors zwischen Quelle und Ziel.

Wie begrenztes Flooding funktioniert

Cluster-Level-Pfad finden: BFS auf dem Cluster-Nachbarschaftsgraphen vom Quell-Cluster zum Ziel-Cluster
Korridor definieren: Quell-Cluster + Ziel-Cluster + alle Border Nodes entlang des Cluster-Pfads
Nur innerhalb des Korridors fluten: Nachricht wird nur an Knoten im Korridor gesendet — nicht ans gesamte Netzwerk

Gesamtes Netzwerk (Flooding würde alle 5 Cluster betreffen): ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ C1 │──│ C2 │──│ C3 │──│ C4 │──│ C5 │ └─────┘ └─────┘ └─────┘ └─────┘ └─────┘ Quelle in C1, Ziel in C4. Cluster-Pfad: C1 → C2 → C3 → C4 Begrenzter Flood-Korridor (System 5 Fallback): ┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐ │ C1 │──│ B2 │──│ B3 │──│ C4 │ C5 wird NICHT geflutet └─────┘ └─────┘ └─────┘ └─────┘ C1 und C4: vollständiges Cluster-Flooding (alle Mitglieder) B2 und B3: nur Border Nodes + ihre direkten Nachbarn

Das ist dramatisch günstiger als netzwerkweites Flooding. In einem 500-Knoten-Netzwerk mit 10 Clustern betrifft ein vollständiges Flooding alle 500 Knoten. Ein begrenztes Korridor-Flooding betrifft ~100 Knoten (2 vollständige Cluster + Border Nodes).

Bekannte Einschränkung

Wenn das Korridor-Flooding häufig ausgelöst wird (wie im Bay Area Half-Duplex-Szenario), kann es dennoch hohe TX-Zahlen erzeugen. Dies ist das wichtigste Optimierungsziel: mehr alternative gerichtete Routen versuchen, bevor das Korridor-Flooding ausgelöst wird.

Schritt 8: Selbstwartung — Routen aktuell halten

Netzwerke ändern sich ständig: Knoten bewegen sich, Batterien entleeren sich, Verbindungen verschlechtern sich. System 5 wartet sich durch mehrere Mechanismen selbst:

Routenqualitäts-Abklingung (Pheromon-Modell)

Inspiriert von der Ameisenkolonie-Optimierung: Alle 30 Sekunden klingen alle gecachten Routenqualitäten um 5% ab:

Qualitätsabklingung (alle 30s) Q(route) = Q(route) × 0.95

Routen, die tatsächlich genutzt werden, erhalten ihre Qualität aktualisiert aus realen Verbindungsmessungen. Routen, die nie genutzt werden, verblassen allmählich auf null und werden schließlich ersetzt. Das stellt sicher, dass die Routing-Tabelle immer die aktuellen Netzwerkbedingungen widerspiegelt, nicht veraltete historische Daten.

Routen-Feedback

Nach jedem Nachrichtenzustellungsversuch:

Erfolg: Routenqualität um 5% erhöht (gedeckelt bei 1,0). Fehlerzähler auf 0 zurückgesetzt.
Misserfolg: Routenqualität halbiert. Fehlerzähler erhöht. Nach 3 Fehlschlägen wird die Route bis zur Aktualisierung durch die nächste OGM-Runde von der Auswahl ausgeschlossen.

Nachbar-Verdrängung

Wenn ein Knoten einen neuen Nachbarn entdeckt, aber seine Tabelle voll ist (16 Einträge), wird der Nachbar mit der niedrigsten Verbindungsqualität verdrängt. Das stellt sicher, dass die Routing-Tabelle immer die besten verfügbaren Verbindungen enthält.

Dynamisches Hop-Limit

Anders als Meshtastics festes 3–7 Hop-Limit verwendet System 5 ein dynamisches Limit, das mit der Netzwerkgröße skaliert:

Dynamisches Max-Hops max_hops = clamp(√n × 3, 15, 40)

Für ein 100-Knoten-Netzwerk: max_hops = √100 × 3 = 30. Für ein 1000-Knoten-Netzwerk: max_hops = 40 (gedeckelt). Das ermöglicht Nachrichten, große Netzwerke zu durchqueren, ohne künstliche Grenzen, und verhindert gleichzeitig Endlosschleifen.

Das Half-Duplex-Problem (Bay Area-Entdeckung)

Dies ist die wichtigste reale Beschränkung, die Simulatoren typischerweise ignorieren. LoRa-Funkmodule sind Half-Duplex: Ein Knoten kann nicht senden, während er empfängt.

Warum das für Flooding wichtig ist

Betrachten wir einen Berggipfel-Router auf 600m Höhe, der 100 Knoten hören kann. Wenn eine Nachricht durch das Netzwerk flutet:

Knoten A sendet eine Nachricht. Der Berggipfel hört sie (jetzt im RX-Zustand).
10 Dachknoten nahe A hören sie ebenfalls und senden gleichzeitig weiter.
Der Berggipfel empfängt noch diese 10 Weitersendungen — er kann nicht senden.
4 Langstrecken-Router senden ebenfalls weiter. Der Berggipfel steckt immer noch im RX-Zustand fest.
Bis der Berggipfel senden kann, ist der Timer des Managed-Flooding-Algorithmus abgelaufen — er sendet entweder weiter (verursacht weitere Kollisionen) oder unterdrückt (Nachricht stirbt).

Ergebnis: 5% tatsächliche Nutzung wird zu 50% Kanalauslastung am Berggipfel, und Nachrichten schaffen es nicht über den ersten Hop hinaus.

Warum System 5 Half-Duplex überlebt

Mit gerichtetem Routing empfängt der Berggipfel-Knoten ein gezieltes Paket (nicht 14 gleichzeitige Weitersendungen). Er verarbeitet es, wartet auf ein freies TX-Fenster und leitet an den nächsten Hop weiter. Die Funk-Zustandsmaschine ist einfach:

Managed Flooding am Berggipfel: RX(A) → RX(B) → RX(C) → ... → RX(N) → TX-Fenster? ALLES BLOCKIERT Dauer: 10–20 Sekunden kontinuierlicher Empfang → Nachricht stirbt System 5 gerichtetes Routing: RX(Paket für uns) → TX(Weiterleitung an nächsten Hop) → IDLE Dauer: ~2 Sekunden gesamt → Nachricht geht weiter

Simulationsergebnisse

Wir haben eine Bay Area-artige Simulation mit 235 Knoten in 3 Höhenstufen und Half-Duplex-Funkmodellierung erstellt. Die Ergebnisse bestätigen die realen Beobachtungen:

Szenario	Router	Zustellung	Gesamt-TX
Bay Area ohne Half-Duplex	Managed Flood	87,5%	908.785
Bay Area ohne Half-Duplex	System 5	80,5%	47.094
Bay Area mit Half-Duplex	Managed Flood	6,0%	6.752
Bay Area mit Half-Duplex	System 5	77,5%	540.780

Half-Duplex lässt Flooding von 87,5% → 6% Zustellung zusammenbrechen. System 5 hält bei 77,5%. Probiere das Bay Area-Szenario im Live-Simulator →

Speicherbedarf — Läuft das auf dem nRF52?

Reale Mesh-Geräte haben enge Speichergrenzen. Der nRF52840 (verwendet im RAK4631 Solar-Router) hat 256KB RAM, mit ~64KB verfügbar nach BLE- und LoRa-Stacks.

Datenstrukturen

Struktur	Größe	Anzahl	Gesamt
Nachbareintrag	~80 Bytes	max. 16	1.280 Bytes
Routeneintrag (pro Ziel)	~410 Bytes	5 Routen × N Ziele	variabel
Cluster-Metadaten	~100 Bytes	8 Cluster	800 Bytes
Eigener Knotenzustand	~100 Bytes	1	100 Bytes

Skalierung mit Netzwerkgröße

Netzwerkgröße	Verfolgte Ziele	Routing-Speicher	Passt auf nRF52?
20 Knoten (lokal)	20	~10 KB	Ja
100 Knoten (Stadt)	100	~43 KB	Ja (knapp)
500 Knoten (regional)	~70 (Cluster-Sicht)	~30 KB	Ja
1000 Knoten	~70 (Cluster-Sicht)	~30 KB	Ja
10.000 Knoten	~200 (Cluster + Grenzen)	~84 KB	Braucht reduzierte Parameter

Die Kernidee: Geo-Clustering bedeutet, dass ein Knoten nur seinen eigenen Cluster + Grenzrouten verfolgt. Ein 10.000-Knoten-Netzwerk bedeutet nicht 10.000 Routeneinträge — es bedeutet ~200 Einträge (eigene Cluster-Mitglieder + Border Nodes zu benachbarten Clustern).

nRF52-Optimierung

Für speicherbeschränkte Geräte können diese Firmware-Konstanten reduziert werden:

S5_MAX_ROUTES: 5 → 2 (spart 60% Speicher)
S5_MAX_PATH_LEN: 15 → 8 (reduziert Routengröße um 47%)
Lazy-Routenberechnung verwenden (nur Routen zu kürzlich kontaktierten Zielen cachen)
Ergebnis: ~15 KB für 200-Ziel-Ansicht → passt komfortabel auf den nRF52

Bay Area-Topologie — Der Praxistest unter Extrembedingungen

Basierend auf Feedback von Bay Area Mesh-Betreibern haben wir eine Simulation erstellt, die die tatsächliche Netzwerkstruktur modelliert:

Drei-Stufen-Höhenmodell

Stufe	Knoten	Höhe	Reichweite	Gelände	Rolle
Berg	7 (3%)	600–1200m	45km	Freiraum	Backbone-Router (Mt Diablo, Mt Tam, etc.)
Hügel/Dach	35 (15%)	150–500m	10km	Vorstadt	Brücke zwischen Berg und Tal
Tal/Innenraum	193 (82%)	0–100m	0,75–2,5km	Urban/Innen	Endnutzer-Handgeräte und Indoor-Knoten

Was dieses Szenario schwierig macht

Extreme Asymmetrie: Berg→Tal Qualität ~1,0 (freie Sichtlinie), Tal→Berg Qualität ~0 (urbanes Gelände + Distanz)
Half-Duplex-Blockierung: Bergknoten hören jede Übertragung im 45km-Radius — sie sind während des Floodings permanent im RX-Zustand
Kollisionskaskade: 10+ Knoten senden gleichzeitig am Berggipfel → Capture Effect hilft nur, wenn ein Signal 6dB stärker ist
Hidden Terminal: Zwei Talknoten können sich gegenseitig nicht hören, senden aber beide gleichzeitig an denselben Berggipfel

Probiere dieses Szenario im Live-Simulator → — wähle „Bay Area Mesh (235 nodes, 3-tier elevation)" aus dem Dropdown.

Lies die vollständige Q&A mit der Bay Area Mesh-Community →

Node Silencing — Redundante Knoten stummschalten

Eines der wirkungsvollsten v2.0-Features, inspiriert durch Feedback der Bay Area Mesh-Community. Die Kernerkenntnis: In einem 235-Knoten-Netzwerk sind die meisten Talknoten redundant — ihre Nachbarn können alle über andere Pfade erreicht werden. Jedes Mal, wenn diese redundanten Knoten weitersenden, fügen sie Kollisionsrauschen an Berggipfel-Empfängern hinzu, ohne zur Nachrichtenzustellung beizutragen.

Wie es funktioniert

Redundanz-Bewertung: Für jeden Knoten wird jeder Nachbar geprüft — kann dieser Nachbar von mindestens 2 anderen lebenden Knoten erreicht werden? Falls ja, ist diese Nachbarverbindung „redundant". Der Redundanzwert des Knotens = Anteil redundanter Nachbarverbindungen (0,0 = kritisch, 1,0 = vollständig ersetzbar).
Schutz kritischer Brücken: Border Nodes mit wenigen Alternativen (≤3 andere Brücken zum selben Clusterpaar) werden stark abgewertet. Bergknoten und essentielle Hügelknoten werden nie stummgeschaltet.
Batteriegewichtete Priorität: silence_priority = redundancy × 0.6 + (1 - battery) × 0.4. Knoten mit niedrigem Akkustand werden zuerst stummgeschaltet. Solarknoten (immer 100%) bleiben am längsten aktiv.
Anwendung pro Cluster: Innerhalb jedes Clusters werden die oberen 60% der Kandidaten (nach Priorität) stummgeschaltet. Mindestens 2 Knoten bleiben pro Cluster immer aktiv.

Was stummgeschaltete Knoten tun (und nicht tun)

Aktion	Stummgeschalteter Knoten	Aktiver Knoten
OGMs empfangen	Ja — bleibt über das Netzwerk informiert	Ja
Direkte Nachrichten empfangen	Ja — kann adressiert werden	Ja
Eigene Nachrichten senden	Ja — kann initiieren	Ja
Flooding weitersenden	Nein — bleibt still	Ja
OGMs senden	Nein — spart Sendezeit	Ja
Gerichtete S5-Pakete weiterleiten	Ja — wenn auf dem berechneten Pfad	Ja

Batteriefaire Rotation

Dieselben Knoten können nicht für immer stummgeschaltet sein — ihre Batterien würden länger halten, aber die aktiven Knoten würden schneller entladen. System 5 rotiert die stille Gruppe alle 10 Minuten:

Alle abgelaufenen Stummschaltungen werden aufgehoben
Redundanzwerte werden neu berechnet (Knoten können sich bewegt haben, ausgefallen sein oder ihre Last geändert haben)
Eine neue Gruppe von Knoten wird zur Stummschaltung ausgewählt, gewichtet nach aktuellem Batteriestand

Ergebnis: Jeder Knoten verbringt ungefähr gleich viel Zeit aktiv und still. Der Batterieverbrauch wird gleichmäßig über das Netzwerk verteilt.

Ergebnisse

Bay Area-Szenario	S5-Zustellung	S5-TX	Stummgeschaltete Knoten
Ohne Node Silencing	77,5%	540.780	0
Mit Node Silencing	74,5%	267.927	134 (57%)
128 Talknoten stummgeschaltet, 6 Hügelknoten stummgeschaltet, 0 Bergknoten stummgeschaltet

Notfall-Umleitung — Letzter Ausweg vor Flooding

Wenn alle 5 gecachten Routen versagen (jeder Hop wurde mit Wiederholungen versucht), löste das ursprüngliche System 5 sofort begrenztes Korridor-Flooding aus. Das war teuer — im Bay Area-Szenario lösten 73 von 200 Nachrichten Fallback-Floods aus.

Die v2.0-Verbesserung fügt einen weiteren Schritt vor dem Flooding hinzu:

Alle Zwischenknoten der gescheiterten Routen in eine failed_nodes-Menge sammeln
Eine neue BFS von Quelle zu Ziel durchführen, unter Ausschluss aller gescheiterten Knoten
Wenn ein neuer Pfad gefunden wird, einmal versuchen (gerichtet, kein Flooding)
Nur wenn auch dieser Notfallpfad scheitert → Korridor-Flooding auslösen

Das ist günstig (eine BFS-Berechnung, keine zusätzlichen TX außer der Pfad funktioniert) und oft erfolgreich, weil die gescheiterten Knoten das eigentliche Problem waren — der Rest des Netzwerks hat möglicherweise einwandfreie Pfade.

Sequenznummern — Fehlende Nachrichten erkennen

Multi-Pfad-Routing kann Nachrichten in falscher Reihenfolge zustellen. Wenn Nachrichten A, B, C über drei verschiedene Pfade mit unterschiedlichen Latenzen gesendet werden, könnte der Empfänger C, B, A sehen — oder schlimmer, C, A (B auf einem gescheiterten Pfad verloren).

Das v2.0-Übertragungsprotokoll fügt einen 2-Byte-Sequenzzähler (uint16_t seq) pro (Quelle, Ziel)-Paar hinzu:

Der Sender erhöht seq für jede Nachricht an ein bestimmtes Ziel
Der Empfänger verfolgt die zuletzt gesehene Sequenznummer pro Quelle
Lücken sind erkennbar: „seq 3 empfangen, dann seq 5 — seq 4 fehlt"
Falsche Reihenfolge ist erkennbar: „seq 5 empfangen, dann seq 4 — Umsortierung"

Warum nicht erneut senden?

Erneutes Senden erfordert einen ACK + Wiederholungs-Zyklus. Bei LoRa benötigt jedes Paket 500ms–2s Sendezeit. Eine 5-Hop-Wiederholung kostet 5–10 Sekunden Kanalzeit — während derer der Berggipfel für allen anderen Verkehr blockiert ist. Sequenznummern bieten Lückenerkennung bei null TX-Kosten (nur 2 zusätzliche Bytes im Header). Die Anwendungsschicht kann entscheiden, ob eine Wiederholung angefordert wird oder einfach „1 Nachricht fehlt" angezeigt wird.

Die Sequenzzähler werden effizient in der Firmware gespeichert: Nachbar-indiziertes Array für bekannte Nachbarn (32 Bytes) + LRU-Cache für andere (96 Bytes) = insgesamt 128 Bytes, unabhängig von der Netzwerkgröße.

Paketformat — Was über den Äther geht

Jedes System 5-Paket hat einen 22-Byte-Header:

Offset	Feld	Größe	Beschreibung
0	Version	1 Byte	Protokollversion (aktuell 0x01)
1	Typ	1 Byte	DATA (0x01), OGM (0x02), ACK (0x03), CLUSTER_ANNOUNCE (0x04)
2	Quell-ID	4 Bytes	Ursprungsknoten-ID
6	Ziel-ID	4 Bytes	Zielknoten-ID (0xFFFFFFFF = Broadcast)
10	Paket-ID	4 Bytes	Eindeutig pro Paket (zur Deduplizierung)
14	Hop-Zähler	1 Byte	Aktueller Hop-Zähler (wird bei jedem Hop erhöht)
15	Max Hops	1 Byte	TTL — dynamisch, basierend auf √n × 3
16	Priorität	1 Byte	QoS-Priorität (0 = SOS, 7 = niedrigste)
17	Flags	1 Byte	Fallback-Bit, Route-Request-Bit, etc.
18	Nutzlastlänge	2 Bytes	Nutzlastgröße in Bytes
20	Prüfsumme	2 Bytes	CRC-16 von Header + Nutzlast
22+	Nutzlast	variabel	Anwendungsdaten (max. ~230 Bytes für LoRa)

System 5 vs. alles andere

Eigenschaft	Naives Flooding	Managed Flooding	Next-Hop	System 5
TX-Kosten pro Nachricht	O(n)	O(n) × 0,5	O(Hops)*	O(Hops)
Funktioniert für Broadcasts	Ja	Ja	Nein	Ja
Hop-Limit nötig	Ja (3–7)	Ja (3–7)	Teilweise	Nein (dynamisch)
Multi-Pfad-Failover	Nein	Nein	Nein	5 Routen
Lastverteilung	Nein	Nein	Nein	Gewichtet
Stau-Vermeidung	Nein	Nein	Nein	Backpressure
QoS-Priorität	Nein	Nein	Nein	8 Stufen + NHS-Gate
Half-Duplex-resistent	Nein	Nein	Teilweise	Ja
GPS erforderlich	Nein	Nein	Nein	Ja**
Speicher-Overhead	Minimal	Minimal	Gering	Moderat (~8–30KB)

* Next-Hop funktioniert nur für Direktnachrichten nach einem lernenden Flood. Die erste Nachricht flutet trotzdem.
** GPS erforderlich für Clustering, aber RSSI-Triangulation und Cluster-Übernahme bieten Fallbacks.

Zum Live-Simulator → ← Zurück zur Präsentation