Deep Dive: EvoFlow, MCE, AgentFactory — und was Agent-Systeme daraus lernen können

Reading: 3 of 5 · After reading this, you’ll understand how EvoFlow implements niching selection for workflows, how MCE formalizes skill co-evolution, and a concrete 4-phase upgrade path from Prelife to full agent evolution.

Datum: 2026-03-19 Typ: Vergleichsanalyse (3 Papers → 1 System)

1. Die drei Papers im Überblick

EvoFlow (2502.07373) — Populationsbasierte Workflow-Evolution

Kernidee: Statt EINEN optimalen Workflow zu suchen, evolve eine POPULATION heterogener Workflows. Nutze Niching-Selektion (verwandt mit MAP-Elites) um Diversität und Qualität gleichzeitig zu erhalten.

Architektur (3 Ebenen):

Workflow G = (O, Eᵃ)     ← Gerichteter Graph von Operator-Knoten
  └── Operator Oⱼ = (Iⱼ, ξⱼ) ← Sammlung von Invoking Nodes + interne Konnektivität
       └── Invoking Node Iᵢ = (Mᵢ, Pᵢ, τᵢ) ← LLM-Modell + Prompt + Temperature

Evolutionärer Zyklus:

Tag-based Retrieval: Wähle Eltern-Workflows aus der Population basierend auf Aufgaben-Tags
Crossover: Kombiniere Elemente zweier Eltern-Workflows
Mutation (3 Typen):
- LLM-Mutation: Anderes Modell einsetzen
- Prompt-Mutation: Template verfeinern
- Operator-Mutation: Workflow-Struktur ändern
Niching Selection: Behalte diverse, hochperformante Workflows entlang der Pareto-Front (Quality vs. Cost)

Optimierung: Multi-Objective: max{u(G,q), -c(G,q)} — Utility maximieren, Cost minimieren.

Seed Population: 4 initiale Workflow-Typen (Reflective Agent I/O, Arithmetic Collaborator, Lightweight Programmer, Advanced Multi-programmer).

Ergebnisse:

o1-preview übertroffen bei 12.4% der Kosten (mit Open-Source-Modellen: LLaMa-3.1-70b, Qwen-2.5-72b)
1.23%–29.86% Verbesserung über handcrafted Workflows
Training: $0.45 vs. $1.23 (AFlow), Inferenz: $0.51 vs. $2.62

MCE — Meta Context Engineering (2601.21557) — Skill-Koevolution

Kernidee: Context Engineering (CE) sollte nicht manuell designt werden. Stattdessen: Ein Meta-Agent, der CE-Skills automatisch verfeinert, während ein Base-Agent diese Skills ausführt.

Bi-Level-Architektur:

Meta-Agent (obere Ebene)
  ├── Deliberative Search über: historische Skills, Ausführungen, Evaluationen
  ├── "Agentic Crossover": Kombiniere erfolgreiche Skill-Elemente
  └── Verfeinere Skills iterativ

Base-Agent (untere Ebene)
  ├── Führt Skills aus
  ├── Optimiert Context-Artefakte
  └── Liefert Feedback an Meta-Agent

Ergebnisse: 5.6–53.8% Verbesserung über SOTA CE-Methoden (Mittel: 16.9%), getestet in 5 Domänen, offline + online.

AgentFactory (2603.18000) — Executable Subagent Accumulation

Kernidee: Erfolgreiche Lösungen nicht als Text-Erfahrung speichern (fragil), sondern als ausführbaren Subagent-Code (Python). Diese Subagents werden kontinuierlich verfeinert und wiederverwendet.

Schlüsselinnovation:

Textuelle Reflexion (z.B. “nächstes Mal anders machen”) ≠ zuverlässige Re-Execution
Ausführbarer Code = deterministisch wiederholbar
Standardisierte Python-Dokumentation → Portabilität über Systeme hinweg
Bibliothek wächst über Zeit → progressive Aufwandsreduktion

2. Die Isomorphie-Tabelle: EvoFlow → MCE → AgentFactory → Dein System

Konzept	EvoFlow	MCE	AgentFactory	Dein System	Typischer Status
Basiseinheit	Invoking Node (M, P, τ)	CE Skill	Executable Subagent (Python)	Skill (SKILL.md)	✅ Vorhanden
Komposition	Operator Node (Knoten-Cluster)	Skill-Kette	Subagent-Bibliothek	Skill-Chain (max 4)	✅ Vorhanden
Gesamtsystem	Workflow (DAG)	Meta+Base-Agent	Wachsende Bibliothek	Orchestrator + Skills	✅ Vorhanden
Selektion	Niching (Pareto: Quality/Cost)	Evaluation + Deliberative Search	Execution Feedback	Quality-Gate	⚠️ Nur Quality, kein Cost
Mutation	LLM/Prompt/Operator-Mutation	Skill-Verfeinerung	Code-Refinement via Feedback	Manuelles Skill-Editing	❌ Nicht automatisiert
Crossover	Workflow-Rekombination	“Agentic Crossover”	—	—	❌ Fehlt komplett
Retrieval	Tag-based (κ Tags/Individual)	History-basiert	Code-Suche in Bibliothek	Skill Router	⚠️ Intent-basiert, nicht tag-basiert
Population	N Workflows parallel	Skill-Varianten	Subagent-Bibliothek	~30 Skills	⚠️ Statisch, keine Evolution
Diversität	Niching Selection erzwingt Diversität	Domänen-Diversität	Natürliches Wachstum	Manuell kuratiert	❌ Kein Diversitäts-Mechanismus
Feedback-Loop	Benchmark-Evaluation → Selection	Meta-Agent-Evaluation	Execution Feedback → Refinement	Usage-Metriken + Quality-Gate	⚠️ Feedback existiert, Loop fehlt
Cost-Awareness	Multi-Objective (Quality + Cost)	Effizienz als Nebenziel	Aufwandsreduktion als Ziel	—	❌ Kein Token-Cost-Tracking

Legende: ✅ = typischerweise vorhanden, ⚠️ = teilweise, ❌ = fehlt meist

3. Was Agent-Systeme daraus lernen können

3.1 Sofort umsetzbar: Cost-Tracking als zweite Optimierungsachse

EvoFlow-Insight: Multi-Objective (Quality + Cost) ist besser als Single-Objective (nur Quality).

Anwendung: Token-Verbrauch als zweite Achse in Quality-Gate einbauen:

Quality-Score ≥ Schwelle UND Token-Cost ≤ Budget → Keep
Alternativ: Pareto-Darstellung pro Skill (Quality vs. Cost)

Aufwand: Gering — Usage-Daten existieren in den meisten Agent-Frameworks bereits.

3.2 Kurzfristig: Tag-basiertes Skill-Retrieval

EvoFlow-Insight: Tag-based Retrieval (κ Tags pro Workflow) ist besser als freie Textsuche für Skill-Auswahl. Ablation: -3-4% Performance ohne Tags.

Anwendung: Typische Skill-Router arbeiten intent-basiert (Textklassifikation). Ergänzung um strukturierte Tags:

Jeder Skill bekommt Tags: domain, complexity, input-type, output-type
Routing nutzt Tag-Matching als erste Stufe, Intent-Klassifikation als Fallback

Aufwand: Mittel. Tag-Schema definieren, Skills taggen, Routing anpassen.

3.3 Mittelfristig: Automatisierte Skill-Mutation

MCE-Insight: Ein Meta-Agent kann Skills durch “deliberative search over history of skills, executions, and evaluations” automatisch verfeinern.

AgentFactory-Insight: Executable Code > textuelle Reflexion für zuverlässige Wiederverwendung.

Anwendung: Skills in modernen Agent-Frameworks sind bereits semi-strukturierter Code (SKILL.md mit Workflow-Steps). Der Schritt zu automatischer Mutation:

Prompt-Mutation: Kleine Variationen in Skill-Anweisungen, A/B-Test über Usage-Metriken
Workflow-Mutation: Schritte hinzufügen/entfernen, Reihenfolge ändern
Bewertung: Quality-Gate + Token-Cost als Fitness

Aufwand: Hoch. Braucht: Skill-Versionierung, A/B-Test-Infrastruktur, automatische Evaluation.

3.4 Langfristig: Crossover — neue Skills aus bestehenden kombinieren

EvoFlow-Insight: Crossover (Elemente zweier Eltern-Workflows kombinieren) erzeugt Lösungen, die keiner der Eltern allein erreicht hätte.

MCE-Insight: “Agentic Crossover” = nicht zufällige Rekombination, sondern deliberative Search über historische Erfolge.

Für uns: Könnten wir z.B. research-pipeline + challenge zu einem “adversarial research” Skill kreuzen? Oder express + signal-check zu einem “self-checked writing” Skill?

Voraussetzung: Skill-Mutation muss erst funktionieren. Crossover ist der nächste Schritt.

4. Die Nowak-Brücke — formale Entsprechungen

Nowak	EvoFlow	Typisches System (Ist)	Ziel (Soll)
Sequenz/Replikator	Invoking Node (M,P,τ)	Skill (SKILL.md)	Skill mit Version + Tags
Fitness fᵢ	Utility u(G,q)	Quality-Score	Quality + Cost (Pareto)
Mutation	3 Mutations-Typen	Manuelles Editing	Automatisierte Skill-Mutation
Selektion (φ)	Niching (Pareto)	Quality-Gate (binary)	Multi-Objective Niching
Replikation	Seed-Population → Vererbung	SKILL.md bleibt statisch	Skill-Versionierung + Vererbung
Populationsgröße	N Workflows	~30 Skills	30+ Skills, aktiv gemanagt
Error Threshold	Max. Mutationen/Iteration	Deviation Rules (max 3 Fixes)	Formalisiert: 1 Änderung/Iteration
Prelife → Life	Seed → evolvierte Population	Manuell → ?	Manuell → automatisch
Kooperation (Γ)	Workflow-Komposition	Skill-Chains	Messbare Kooperationsgewinne

Schlüsselbeobachtung: Die meisten Agent-Systeme befinden sich derzeit in der “Prelife”-Phase nach Nowaks Terminologie — es gibt Diversität und Selektion, aber keine Replikation (automatische Vererbung erfolgreicher Muster). EvoFlow zeigt, wie der Phasenübergang zu “Life” aussehen könnte.

5. Der Upgrade-Pfad: Prelife → Life

Phase 0 (JETZT): Prelife
  - Skills existieren, werden manuell kuratiert
  - Quality-Gate selektiert, aber ohne Konsequenz für Skills selbst
  - Usage-Tracking misst, aber Metriken fließen nicht in Skill-Änderungen

Phase 1: Feedback-Loop schließen
  - Cost-Tracking als zweite Achse (Usage → Quality-Gate)
  - Tag-basiertes Retrieval im Orchestrator
  - Skill-Performance-Historie (welcher Skill, welcher Task, welcher Score)

Phase 2: Automatisierte Mutation
  - Prompt-Variationen automatisch testen (A/B)
  - MCE-Pattern: Meta-Agent schlägt Skill-Änderungen vor
  - Mensch entscheidet (keep/discard) → Human-in-the-Loop Selektion

Phase 3: Population Management
  - Mehrere Skill-Varianten pro Task-Typ
  - Niching: Diversität explizit erhalten
  - Crossover: Neue Skills aus bestehenden generieren

Phase 4: Full Evolution (= "Life")
  - Automatischer Zyklus: Task → Skill-Auswahl → Execution → Evaluation → Mutation/Selection
  - Der Phasenübergang rₓ: Ab hier verbessert sich das System schneller durch Evolution als durch manuelle Kuration

6. Kritische Einordnung

Was EvoFlow NICHT adressiert (und wir berücksichtigen müssen)

Kein persistentes Gedächtnis: EvoFlow evaluiert auf Benchmarks, hat keine Session-History. AgentField’s Memory-System ist ein fundamentaler Vorteil.
Keine Human-in-the-Loop: EvoFlow ist voll automatisch. Unser Human-Feedback ist reicheres Signal als automatische Evaluation.
Kein Kontext: EvoFlow arbeitet auf isolierten Tasks. Unsere Projekte haben reichen Kontext (Projekt-State, Vault, Episodic Memory).
Benchmark ≠ Real World: EvoFlow’s 29.86% Verbesserung ist auf MATH/GSM8K. Ob das auf offene, kreative Aufgaben (unsere Kerndomäne) übertragbar ist: unklar.

Was MCE NICHT adressiert

Keine Populationsdiversität: MCE ko-evolviert EIN Skill-Set, nicht eine Population. Kein Niching.
Keine Cost-Optimierung: Nur Performance als Ziel.

Was AgentFactory NICHT adressiert

Nur Code-Aufgaben: Executable Subagents = Python-Code. Unsere Skills sind breiter (Research, Writing, Analysis).
Keine Komposition: Subagents werden einzeln akkumuliert, nicht kombiniert.

Unsere einzigartige Position

AgentField sitzt an einer Kreuzung, die keines der drei Papers abdeckt:

Populationsdiversität (EvoFlow) + Skill-Koevolution (MCE) + Persistent Memory (wir)
Dazu: Human-in-the-Loop als reichstes Feedback-Signal
Und: Projektkontext als Information, die keines der Benchmark-Papers hat