Deep Dive: EvoFlow, MCE, AgentFactory — und was Agent-Systeme daraus lernen können

Reading: 3 of 5 · After reading this, you’ll understand how EvoFlow implements niching selection for workflows, how MCE formalizes skill co-evolution, and a concrete 4-phase upgrade path from Prelife to full agent evolution.

Datum: 2026-03-19 Typ: Vergleichsanalyse (3 Papers → 1 System)


1. Die drei Papers im Überblick

EvoFlow (2502.07373) — Populationsbasierte Workflow-Evolution

Kernidee: Statt EINEN optimalen Workflow zu suchen, evolve eine POPULATION heterogener Workflows. Nutze Niching-Selektion (verwandt mit MAP-Elites) um Diversität und Qualität gleichzeitig zu erhalten.

Architektur (3 Ebenen):

Workflow G = (O, Eᵃ)     ← Gerichteter Graph von Operator-Knoten
  └── Operator Oⱼ = (Iⱼ, ξⱼ) ← Sammlung von Invoking Nodes + interne Konnektivität
       └── Invoking Node Iᵢ = (Mᵢ, Pᵢ, τᵢ) ← LLM-Modell + Prompt + Temperature

Evolutionärer Zyklus:

  1. Tag-based Retrieval: Wähle Eltern-Workflows aus der Population basierend auf Aufgaben-Tags
  2. Crossover: Kombiniere Elemente zweier Eltern-Workflows
  3. Mutation (3 Typen):
    • LLM-Mutation: Anderes Modell einsetzen
    • Prompt-Mutation: Template verfeinern
    • Operator-Mutation: Workflow-Struktur ändern
  4. Niching Selection: Behalte diverse, hochperformante Workflows entlang der Pareto-Front (Quality vs. Cost)

Optimierung: Multi-Objective: max{u(G,q), -c(G,q)} — Utility maximieren, Cost minimieren.

Seed Population: 4 initiale Workflow-Typen (Reflective Agent I/O, Arithmetic Collaborator, Lightweight Programmer, Advanced Multi-programmer).

Ergebnisse:

  • o1-preview übertroffen bei 12.4% der Kosten (mit Open-Source-Modellen: LLaMa-3.1-70b, Qwen-2.5-72b)
  • 1.23%–29.86% Verbesserung über handcrafted Workflows
  • Training: $0.45 vs. $1.23 (AFlow), Inferenz: $0.51 vs. $2.62

MCE — Meta Context Engineering (2601.21557) — Skill-Koevolution

Kernidee: Context Engineering (CE) sollte nicht manuell designt werden. Stattdessen: Ein Meta-Agent, der CE-Skills automatisch verfeinert, während ein Base-Agent diese Skills ausführt.

Bi-Level-Architektur:

Meta-Agent (obere Ebene)
  ├── Deliberative Search über: historische Skills, Ausführungen, Evaluationen
  ├── "Agentic Crossover": Kombiniere erfolgreiche Skill-Elemente
  └── Verfeinere Skills iterativ

Base-Agent (untere Ebene)
  ├── Führt Skills aus
  ├── Optimiert Context-Artefakte
  └── Liefert Feedback an Meta-Agent

Ergebnisse: 5.6–53.8% Verbesserung über SOTA CE-Methoden (Mittel: 16.9%), getestet in 5 Domänen, offline + online.


AgentFactory (2603.18000) — Executable Subagent Accumulation

Kernidee: Erfolgreiche Lösungen nicht als Text-Erfahrung speichern (fragil), sondern als ausführbaren Subagent-Code (Python). Diese Subagents werden kontinuierlich verfeinert und wiederverwendet.

Schlüsselinnovation:

  • Textuelle Reflexion (z.B. “nächstes Mal anders machen”) ≠ zuverlässige Re-Execution
  • Ausführbarer Code = deterministisch wiederholbar
  • Standardisierte Python-Dokumentation → Portabilität über Systeme hinweg
  • Bibliothek wächst über Zeit → progressive Aufwandsreduktion

2. Die Isomorphie-Tabelle: EvoFlow → MCE → AgentFactory → Dein System

Konzept EvoFlow MCE AgentFactory Dein System Typischer Status
Basiseinheit Invoking Node (M, P, τ) CE Skill Executable Subagent (Python) Skill (SKILL.md) ✅ Vorhanden
Komposition Operator Node (Knoten-Cluster) Skill-Kette Subagent-Bibliothek Skill-Chain (max 4) ✅ Vorhanden
Gesamtsystem Workflow (DAG) Meta+Base-Agent Wachsende Bibliothek Orchestrator + Skills ✅ Vorhanden
Selektion Niching (Pareto: Quality/Cost) Evaluation + Deliberative Search Execution Feedback Quality-Gate ⚠️ Nur Quality, kein Cost
Mutation LLM/Prompt/Operator-Mutation Skill-Verfeinerung Code-Refinement via Feedback Manuelles Skill-Editing ❌ Nicht automatisiert
Crossover Workflow-Rekombination “Agentic Crossover” ❌ Fehlt komplett
Retrieval Tag-based (κ Tags/Individual) History-basiert Code-Suche in Bibliothek Skill Router ⚠️ Intent-basiert, nicht tag-basiert
Population N Workflows parallel Skill-Varianten Subagent-Bibliothek ~30 Skills ⚠️ Statisch, keine Evolution
Diversität Niching Selection erzwingt Diversität Domänen-Diversität Natürliches Wachstum Manuell kuratiert ❌ Kein Diversitäts-Mechanismus
Feedback-Loop Benchmark-Evaluation → Selection Meta-Agent-Evaluation Execution Feedback → Refinement Usage-Metriken + Quality-Gate ⚠️ Feedback existiert, Loop fehlt
Cost-Awareness Multi-Objective (Quality + Cost) Effizienz als Nebenziel Aufwandsreduktion als Ziel ❌ Kein Token-Cost-Tracking

Legende: ✅ = typischerweise vorhanden, ⚠️ = teilweise, ❌ = fehlt meist


3. Was Agent-Systeme daraus lernen können

3.1 Sofort umsetzbar: Cost-Tracking als zweite Optimierungsachse

EvoFlow-Insight: Multi-Objective (Quality + Cost) ist besser als Single-Objective (nur Quality).

Anwendung: Token-Verbrauch als zweite Achse in Quality-Gate einbauen:

  • Quality-Score ≥ Schwelle UND Token-Cost ≤ Budget → Keep
  • Alternativ: Pareto-Darstellung pro Skill (Quality vs. Cost)

Aufwand: Gering — Usage-Daten existieren in den meisten Agent-Frameworks bereits.

3.2 Kurzfristig: Tag-basiertes Skill-Retrieval

EvoFlow-Insight: Tag-based Retrieval (κ Tags pro Workflow) ist besser als freie Textsuche für Skill-Auswahl. Ablation: -3-4% Performance ohne Tags.

Anwendung: Typische Skill-Router arbeiten intent-basiert (Textklassifikation). Ergänzung um strukturierte Tags:

  • Jeder Skill bekommt Tags: domain, complexity, input-type, output-type
  • Routing nutzt Tag-Matching als erste Stufe, Intent-Klassifikation als Fallback

Aufwand: Mittel. Tag-Schema definieren, Skills taggen, Routing anpassen.

3.3 Mittelfristig: Automatisierte Skill-Mutation

MCE-Insight: Ein Meta-Agent kann Skills durch “deliberative search over history of skills, executions, and evaluations” automatisch verfeinern.

AgentFactory-Insight: Executable Code > textuelle Reflexion für zuverlässige Wiederverwendung.

Anwendung: Skills in modernen Agent-Frameworks sind bereits semi-strukturierter Code (SKILL.md mit Workflow-Steps). Der Schritt zu automatischer Mutation:

  1. Prompt-Mutation: Kleine Variationen in Skill-Anweisungen, A/B-Test über Usage-Metriken
  2. Workflow-Mutation: Schritte hinzufügen/entfernen, Reihenfolge ändern
  3. Bewertung: Quality-Gate + Token-Cost als Fitness

Aufwand: Hoch. Braucht: Skill-Versionierung, A/B-Test-Infrastruktur, automatische Evaluation.

3.4 Langfristig: Crossover — neue Skills aus bestehenden kombinieren

EvoFlow-Insight: Crossover (Elemente zweier Eltern-Workflows kombinieren) erzeugt Lösungen, die keiner der Eltern allein erreicht hätte.

MCE-Insight: “Agentic Crossover” = nicht zufällige Rekombination, sondern deliberative Search über historische Erfolge.

Für uns: Könnten wir z.B. research-pipeline + challenge zu einem “adversarial research” Skill kreuzen? Oder express + signal-check zu einem “self-checked writing” Skill?

Voraussetzung: Skill-Mutation muss erst funktionieren. Crossover ist der nächste Schritt.


4. Die Nowak-Brücke — formale Entsprechungen

Nowak EvoFlow Typisches System (Ist) Ziel (Soll)
Sequenz/Replikator Invoking Node (M,P,τ) Skill (SKILL.md) Skill mit Version + Tags
Fitness fᵢ Utility u(G,q) Quality-Score Quality + Cost (Pareto)
Mutation 3 Mutations-Typen Manuelles Editing Automatisierte Skill-Mutation
Selektion (φ) Niching (Pareto) Quality-Gate (binary) Multi-Objective Niching
Replikation Seed-Population → Vererbung SKILL.md bleibt statisch Skill-Versionierung + Vererbung
Populationsgröße N Workflows ~30 Skills 30+ Skills, aktiv gemanagt
Error Threshold Max. Mutationen/Iteration Deviation Rules (max 3 Fixes) Formalisiert: 1 Änderung/Iteration
Prelife → Life Seed → evolvierte Population Manuell → ? Manuell → automatisch
Kooperation (Γ) Workflow-Komposition Skill-Chains Messbare Kooperationsgewinne

Schlüsselbeobachtung: Die meisten Agent-Systeme befinden sich derzeit in der “Prelife”-Phase nach Nowaks Terminologie — es gibt Diversität und Selektion, aber keine Replikation (automatische Vererbung erfolgreicher Muster). EvoFlow zeigt, wie der Phasenübergang zu “Life” aussehen könnte.


5. Der Upgrade-Pfad: Prelife → Life

Phase 0 (JETZT): Prelife
  - Skills existieren, werden manuell kuratiert
  - Quality-Gate selektiert, aber ohne Konsequenz für Skills selbst
  - Usage-Tracking misst, aber Metriken fließen nicht in Skill-Änderungen

Phase 1: Feedback-Loop schließen
  - Cost-Tracking als zweite Achse (Usage → Quality-Gate)
  - Tag-basiertes Retrieval im Orchestrator
  - Skill-Performance-Historie (welcher Skill, welcher Task, welcher Score)

Phase 2: Automatisierte Mutation
  - Prompt-Variationen automatisch testen (A/B)
  - MCE-Pattern: Meta-Agent schlägt Skill-Änderungen vor
  - Mensch entscheidet (keep/discard) → Human-in-the-Loop Selektion

Phase 3: Population Management
  - Mehrere Skill-Varianten pro Task-Typ
  - Niching: Diversität explizit erhalten
  - Crossover: Neue Skills aus bestehenden generieren

Phase 4: Full Evolution (= "Life")
  - Automatischer Zyklus: Task → Skill-Auswahl → Execution → Evaluation → Mutation/Selection
  - Der Phasenübergang rₓ: Ab hier verbessert sich das System schneller durch Evolution als durch manuelle Kuration

6. Kritische Einordnung

Was EvoFlow NICHT adressiert (und wir berücksichtigen müssen)

  1. Kein persistentes Gedächtnis: EvoFlow evaluiert auf Benchmarks, hat keine Session-History. AgentField’s Memory-System ist ein fundamentaler Vorteil.
  2. Keine Human-in-the-Loop: EvoFlow ist voll automatisch. Unser Human-Feedback ist reicheres Signal als automatische Evaluation.
  3. Kein Kontext: EvoFlow arbeitet auf isolierten Tasks. Unsere Projekte haben reichen Kontext (Projekt-State, Vault, Episodic Memory).
  4. Benchmark ≠ Real World: EvoFlow’s 29.86% Verbesserung ist auf MATH/GSM8K. Ob das auf offene, kreative Aufgaben (unsere Kerndomäne) übertragbar ist: unklar.

Was MCE NICHT adressiert

  1. Keine Populationsdiversität: MCE ko-evolviert EIN Skill-Set, nicht eine Population. Kein Niching.
  2. Keine Cost-Optimierung: Nur Performance als Ziel.

Was AgentFactory NICHT adressiert

  1. Nur Code-Aufgaben: Executable Subagents = Python-Code. Unsere Skills sind breiter (Research, Writing, Analysis).
  2. Keine Komposition: Subagents werden einzeln akkumuliert, nicht kombiniert.

Unsere einzigartige Position

AgentField sitzt an einer Kreuzung, die keines der drei Papers abdeckt:

  • Populationsdiversität (EvoFlow) + Skill-Koevolution (MCE) + Persistent Memory (wir)
  • Dazu: Human-in-the-Loop als reichstes Feedback-Signal
  • Und: Projektkontext als Information, die keines der Benchmark-Papers hat

Quellen


Back to top

CC BY-SA 4.0 — Evolving Agents — A living research collection.