Deep Dive: EvoFlow, MCE, AgentFactory — und was Agent-Systeme daraus lernen können
Reading: 3 of 5 · After reading this, you’ll understand how EvoFlow implements niching selection for workflows, how MCE formalizes skill co-evolution, and a concrete 4-phase upgrade path from Prelife to full agent evolution.
Datum: 2026-03-19 Typ: Vergleichsanalyse (3 Papers → 1 System)
1. Die drei Papers im Überblick
EvoFlow (2502.07373) — Populationsbasierte Workflow-Evolution
Kernidee: Statt EINEN optimalen Workflow zu suchen, evolve eine POPULATION heterogener Workflows. Nutze Niching-Selektion (verwandt mit MAP-Elites) um Diversität und Qualität gleichzeitig zu erhalten.
Architektur (3 Ebenen):
Workflow G = (O, Eᵃ) ← Gerichteter Graph von Operator-Knoten
└── Operator Oⱼ = (Iⱼ, ξⱼ) ← Sammlung von Invoking Nodes + interne Konnektivität
└── Invoking Node Iᵢ = (Mᵢ, Pᵢ, τᵢ) ← LLM-Modell + Prompt + Temperature
Evolutionärer Zyklus:
- Tag-based Retrieval: Wähle Eltern-Workflows aus der Population basierend auf Aufgaben-Tags
- Crossover: Kombiniere Elemente zweier Eltern-Workflows
- Mutation (3 Typen):
- LLM-Mutation: Anderes Modell einsetzen
- Prompt-Mutation: Template verfeinern
- Operator-Mutation: Workflow-Struktur ändern
- Niching Selection: Behalte diverse, hochperformante Workflows entlang der Pareto-Front (Quality vs. Cost)
Optimierung: Multi-Objective: max{u(G,q), -c(G,q)} — Utility maximieren, Cost minimieren.
Seed Population: 4 initiale Workflow-Typen (Reflective Agent I/O, Arithmetic Collaborator, Lightweight Programmer, Advanced Multi-programmer).
Ergebnisse:
- o1-preview übertroffen bei 12.4% der Kosten (mit Open-Source-Modellen: LLaMa-3.1-70b, Qwen-2.5-72b)
- 1.23%–29.86% Verbesserung über handcrafted Workflows
- Training: $0.45 vs. $1.23 (AFlow), Inferenz: $0.51 vs. $2.62
MCE — Meta Context Engineering (2601.21557) — Skill-Koevolution
Kernidee: Context Engineering (CE) sollte nicht manuell designt werden. Stattdessen: Ein Meta-Agent, der CE-Skills automatisch verfeinert, während ein Base-Agent diese Skills ausführt.
Bi-Level-Architektur:
Meta-Agent (obere Ebene)
├── Deliberative Search über: historische Skills, Ausführungen, Evaluationen
├── "Agentic Crossover": Kombiniere erfolgreiche Skill-Elemente
└── Verfeinere Skills iterativ
Base-Agent (untere Ebene)
├── Führt Skills aus
├── Optimiert Context-Artefakte
└── Liefert Feedback an Meta-Agent
Ergebnisse: 5.6–53.8% Verbesserung über SOTA CE-Methoden (Mittel: 16.9%), getestet in 5 Domänen, offline + online.
AgentFactory (2603.18000) — Executable Subagent Accumulation
Kernidee: Erfolgreiche Lösungen nicht als Text-Erfahrung speichern (fragil), sondern als ausführbaren Subagent-Code (Python). Diese Subagents werden kontinuierlich verfeinert und wiederverwendet.
Schlüsselinnovation:
- Textuelle Reflexion (z.B. “nächstes Mal anders machen”) ≠ zuverlässige Re-Execution
- Ausführbarer Code = deterministisch wiederholbar
- Standardisierte Python-Dokumentation → Portabilität über Systeme hinweg
- Bibliothek wächst über Zeit → progressive Aufwandsreduktion
2. Die Isomorphie-Tabelle: EvoFlow → MCE → AgentFactory → Dein System
| Konzept | EvoFlow | MCE | AgentFactory | Dein System | Typischer Status |
|---|---|---|---|---|---|
| Basiseinheit | Invoking Node (M, P, τ) | CE Skill | Executable Subagent (Python) | Skill (SKILL.md) | ✅ Vorhanden |
| Komposition | Operator Node (Knoten-Cluster) | Skill-Kette | Subagent-Bibliothek | Skill-Chain (max 4) | ✅ Vorhanden |
| Gesamtsystem | Workflow (DAG) | Meta+Base-Agent | Wachsende Bibliothek | Orchestrator + Skills | ✅ Vorhanden |
| Selektion | Niching (Pareto: Quality/Cost) | Evaluation + Deliberative Search | Execution Feedback | Quality-Gate | ⚠️ Nur Quality, kein Cost |
| Mutation | LLM/Prompt/Operator-Mutation | Skill-Verfeinerung | Code-Refinement via Feedback | Manuelles Skill-Editing | ❌ Nicht automatisiert |
| Crossover | Workflow-Rekombination | “Agentic Crossover” | — | — | ❌ Fehlt komplett |
| Retrieval | Tag-based (κ Tags/Individual) | History-basiert | Code-Suche in Bibliothek | Skill Router | ⚠️ Intent-basiert, nicht tag-basiert |
| Population | N Workflows parallel | Skill-Varianten | Subagent-Bibliothek | ~30 Skills | ⚠️ Statisch, keine Evolution |
| Diversität | Niching Selection erzwingt Diversität | Domänen-Diversität | Natürliches Wachstum | Manuell kuratiert | ❌ Kein Diversitäts-Mechanismus |
| Feedback-Loop | Benchmark-Evaluation → Selection | Meta-Agent-Evaluation | Execution Feedback → Refinement | Usage-Metriken + Quality-Gate | ⚠️ Feedback existiert, Loop fehlt |
| Cost-Awareness | Multi-Objective (Quality + Cost) | Effizienz als Nebenziel | Aufwandsreduktion als Ziel | — | ❌ Kein Token-Cost-Tracking |
Legende: ✅ = typischerweise vorhanden, ⚠️ = teilweise, ❌ = fehlt meist
3. Was Agent-Systeme daraus lernen können
3.1 Sofort umsetzbar: Cost-Tracking als zweite Optimierungsachse
EvoFlow-Insight: Multi-Objective (Quality + Cost) ist besser als Single-Objective (nur Quality).
Anwendung: Token-Verbrauch als zweite Achse in Quality-Gate einbauen:
- Quality-Score ≥ Schwelle UND Token-Cost ≤ Budget → Keep
- Alternativ: Pareto-Darstellung pro Skill (Quality vs. Cost)
Aufwand: Gering — Usage-Daten existieren in den meisten Agent-Frameworks bereits.
3.2 Kurzfristig: Tag-basiertes Skill-Retrieval
EvoFlow-Insight: Tag-based Retrieval (κ Tags pro Workflow) ist besser als freie Textsuche für Skill-Auswahl. Ablation: -3-4% Performance ohne Tags.
Anwendung: Typische Skill-Router arbeiten intent-basiert (Textklassifikation). Ergänzung um strukturierte Tags:
- Jeder Skill bekommt Tags:
domain,complexity,input-type,output-type - Routing nutzt Tag-Matching als erste Stufe, Intent-Klassifikation als Fallback
Aufwand: Mittel. Tag-Schema definieren, Skills taggen, Routing anpassen.
3.3 Mittelfristig: Automatisierte Skill-Mutation
MCE-Insight: Ein Meta-Agent kann Skills durch “deliberative search over history of skills, executions, and evaluations” automatisch verfeinern.
AgentFactory-Insight: Executable Code > textuelle Reflexion für zuverlässige Wiederverwendung.
Anwendung: Skills in modernen Agent-Frameworks sind bereits semi-strukturierter Code (SKILL.md mit Workflow-Steps). Der Schritt zu automatischer Mutation:
- Prompt-Mutation: Kleine Variationen in Skill-Anweisungen, A/B-Test über Usage-Metriken
- Workflow-Mutation: Schritte hinzufügen/entfernen, Reihenfolge ändern
- Bewertung: Quality-Gate + Token-Cost als Fitness
Aufwand: Hoch. Braucht: Skill-Versionierung, A/B-Test-Infrastruktur, automatische Evaluation.
3.4 Langfristig: Crossover — neue Skills aus bestehenden kombinieren
EvoFlow-Insight: Crossover (Elemente zweier Eltern-Workflows kombinieren) erzeugt Lösungen, die keiner der Eltern allein erreicht hätte.
MCE-Insight: “Agentic Crossover” = nicht zufällige Rekombination, sondern deliberative Search über historische Erfolge.
Für uns: Könnten wir z.B. research-pipeline + challenge zu einem “adversarial research” Skill kreuzen? Oder express + signal-check zu einem “self-checked writing” Skill?
Voraussetzung: Skill-Mutation muss erst funktionieren. Crossover ist der nächste Schritt.
4. Die Nowak-Brücke — formale Entsprechungen
| Nowak | EvoFlow | Typisches System (Ist) | Ziel (Soll) |
|---|---|---|---|
| Sequenz/Replikator | Invoking Node (M,P,τ) | Skill (SKILL.md) | Skill mit Version + Tags |
| Fitness fᵢ | Utility u(G,q) | Quality-Score | Quality + Cost (Pareto) |
| Mutation | 3 Mutations-Typen | Manuelles Editing | Automatisierte Skill-Mutation |
| Selektion (φ) | Niching (Pareto) | Quality-Gate (binary) | Multi-Objective Niching |
| Replikation | Seed-Population → Vererbung | SKILL.md bleibt statisch | Skill-Versionierung + Vererbung |
| Populationsgröße | N Workflows | ~30 Skills | 30+ Skills, aktiv gemanagt |
| Error Threshold | Max. Mutationen/Iteration | Deviation Rules (max 3 Fixes) | Formalisiert: 1 Änderung/Iteration |
| Prelife → Life | Seed → evolvierte Population | Manuell → ? | Manuell → automatisch |
| Kooperation (Γ) | Workflow-Komposition | Skill-Chains | Messbare Kooperationsgewinne |
Schlüsselbeobachtung: Die meisten Agent-Systeme befinden sich derzeit in der “Prelife”-Phase nach Nowaks Terminologie — es gibt Diversität und Selektion, aber keine Replikation (automatische Vererbung erfolgreicher Muster). EvoFlow zeigt, wie der Phasenübergang zu “Life” aussehen könnte.
5. Der Upgrade-Pfad: Prelife → Life
Phase 0 (JETZT): Prelife
- Skills existieren, werden manuell kuratiert
- Quality-Gate selektiert, aber ohne Konsequenz für Skills selbst
- Usage-Tracking misst, aber Metriken fließen nicht in Skill-Änderungen
Phase 1: Feedback-Loop schließen
- Cost-Tracking als zweite Achse (Usage → Quality-Gate)
- Tag-basiertes Retrieval im Orchestrator
- Skill-Performance-Historie (welcher Skill, welcher Task, welcher Score)
Phase 2: Automatisierte Mutation
- Prompt-Variationen automatisch testen (A/B)
- MCE-Pattern: Meta-Agent schlägt Skill-Änderungen vor
- Mensch entscheidet (keep/discard) → Human-in-the-Loop Selektion
Phase 3: Population Management
- Mehrere Skill-Varianten pro Task-Typ
- Niching: Diversität explizit erhalten
- Crossover: Neue Skills aus bestehenden generieren
Phase 4: Full Evolution (= "Life")
- Automatischer Zyklus: Task → Skill-Auswahl → Execution → Evaluation → Mutation/Selection
- Der Phasenübergang rₓ: Ab hier verbessert sich das System schneller durch Evolution als durch manuelle Kuration
6. Kritische Einordnung
Was EvoFlow NICHT adressiert (und wir berücksichtigen müssen)
- Kein persistentes Gedächtnis: EvoFlow evaluiert auf Benchmarks, hat keine Session-History. AgentField’s Memory-System ist ein fundamentaler Vorteil.
- Keine Human-in-the-Loop: EvoFlow ist voll automatisch. Unser Human-Feedback ist reicheres Signal als automatische Evaluation.
- Kein Kontext: EvoFlow arbeitet auf isolierten Tasks. Unsere Projekte haben reichen Kontext (Projekt-State, Vault, Episodic Memory).
- Benchmark ≠ Real World: EvoFlow’s 29.86% Verbesserung ist auf MATH/GSM8K. Ob das auf offene, kreative Aufgaben (unsere Kerndomäne) übertragbar ist: unklar.
Was MCE NICHT adressiert
- Keine Populationsdiversität: MCE ko-evolviert EIN Skill-Set, nicht eine Population. Kein Niching.
- Keine Cost-Optimierung: Nur Performance als Ziel.
Was AgentFactory NICHT adressiert
- Nur Code-Aufgaben: Executable Subagents = Python-Code. Unsere Skills sind breiter (Research, Writing, Analysis).
- Keine Komposition: Subagents werden einzeln akkumuliert, nicht kombiniert.
Unsere einzigartige Position
AgentField sitzt an einer Kreuzung, die keines der drei Papers abdeckt:
- Populationsdiversität (EvoFlow) + Skill-Koevolution (MCE) + Persistent Memory (wir)
- Dazu: Human-in-the-Loop als reichstes Feedback-Signal
- Und: Projektkontext als Information, die keines der Benchmark-Papers hat