Research Toolkit Audit

What we have, what we’re missing, and what we need to build for serious cross-disciplinary research on evolving agent systems.

Last updated: 2026-03-19

Was wir haben, was uns fehlt und was wir für seriöse interdisziplinäre Forschung zu Evolving Agent Systems aufbauen müssen.

Zuletzt aktualisiert: 2026-03-19


What We HaveWas wir haben

Section Summary

Our current toolkit covers general web search, structured research pipelines, multi-layer analysis & synthesis skills, and a 5-vault knowledge storage system. Approved external sources include PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, and Open Targets.

Abschnitt-Zusammenfassung

Unser aktuelles Toolkit umfasst allgemeine Websuche, strukturierte Research-Pipelines, mehrstufige Analyse- & Synthese-Skills und ein 5-Vault-Wissensspeichersystem. Genehmigte externe Quellen: PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov und Open Targets.

Search & Discovery

✅ Available

WebSearch (real-time web), WebFetch (direct URL access), research-pipeline (multi-source routing), learn-from-the-best (Mondon method), knowledge-check (cross-vault search, 5 layers)

Tool Capability Strength Limitation
WebSearch General web search Broad, real-time No deep academic search, English-biased
WebFetch Fetch web pages Direct access to URLs No batch processing, no PDF extraction
research-pipeline Structured multi-source research Routes by topic, saves to Knowledge DB Limited to approved sources, no arXiv API
learn-from-the-best Find top sources, people, learning paths Mondon method — “someone has done this” English-only, no citation graph
knowledge-check Cross-vault search (5 layers) Fast, comprehensive for stored knowledge Only searches what we’ve already captured

✅ Verfügbar

WebSearch (Echtzeit-Web), WebFetch (direkter URL-Zugriff), research-pipeline (Multi-Source-Routing), learn-from-the-best (Mondon-Methode), knowledge-check (Cross-Vault-Suche, 5 Layer)

Tool Fähigkeit Stärke Einschränkung
WebSearch Allgemeine Websuche Breit, Echtzeit Keine tiefe akademische Suche, English-biased
WebFetch Webseiten abrufen Direkter Zugriff auf URLs Kein Batch-Processing, keine PDF-Extraktion
research-pipeline Strukturierte Multi-Source-Recherche Routet nach Thema, speichert in Knowledge DB Nur genehmigte Quellen, kein arXiv API
learn-from-the-best Top-Quellen, Personen, Lernpfade finden Mondon-Methode — „jemand hat das schon gemacht” Nur Englisch, kein Citation Graph
knowledge-check Cross-Vault-Suche (5 Layer) Schnell, umfassend für gespeichertes Wissen Durchsucht nur bereits Erfasstes

Analysis & Synthesis

✅ Available

analyze (ReAct cycle), synthesize (cross-source patterns), distill (progressive summarization), signal-check (quality filter), challenge (adversarial testing), briefing (vault overview)

Tool Capability When to Use
analyze ReAct cycle investigation Multi-step structured analysis
synthesize Cross-source pattern finding Connecting insights from different domains
distill Progressive summarization (4 layers) Condensing long papers/documents
signal-check Quality/substance check Evaluating claims, separating signal from noise
challenge Adversarial stress-testing Pressure-testing our own conclusions
briefing Topic overview from vault “What do we know about X?”

✅ Verfügbar

analyze (ReAct-Zyklus), synthesize (quellübergreifende Muster), distill (Progressive Summarization), signal-check (Qualitätsfilter), challenge (Adversarial Testing), briefing (Vault-Überblick)

Tool Fähigkeit Einsatzzweck
analyze ReAct-Zyklus-Untersuchung Mehrstufige strukturierte Analyse
synthesize Quellübergreifende Mustererkennung Erkenntnisse aus verschiedenen Domänen verbinden
distill Progressive Summarization (4 Layer) Lange Papers/Dokumente verdichten
signal-check Qualitäts-/Substanzprüfung Claims bewerten, Signal vom Rauschen trennen
challenge Adversarial Stress-Testing Eigene Schlussfolgerungen unter Druck testen
briefing Themenüberblick aus dem Vault „Was wissen wir über X?”

Knowledge Storage

✅ Available

5 Obsidian Vaults (MCP), Knowledge DB (SQLite), Episodic Memory (semantic search), Memory System (file-based, cross-session)

Tool What It Stores Access
Obsidian Vaults (5x) Structured notes, concepts, links MCP servers per vault
Knowledge DB (SQLite) Structured data, CSV imports SQL queries
Episodic Memory Conversation history, decisions Semantic search
Memory System Cross-session user/project/feedback context File-based, indexed

✅ Verfügbar

5 Obsidian Vaults (MCP), Knowledge DB (SQLite), Episodic Memory (semantische Suche), Memory System (dateibasiert, session-übergreifend)

Tool Was es speichert Zugriff
Obsidian Vaults (5x) Strukturierte Notizen, Konzepte, Links MCP-Server pro Vault
Knowledge DB (SQLite) Strukturierte Daten, CSV-Importe SQL Queries
Episodic Memory Gesprächsverläufe, Entscheidungen Semantische Suche
Memory System Session-übergreifender User-/Projekt-/Feedback-Kontext Dateibasiert, indiziert

Approved External Sources

PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, Open Targets (ToS-Audit 2026-03-13)

PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, Open Targets (ToS-Audit vom 13.03.2026)


Blind Spots — What’s MissingBlinde Flecken — Was fehlt

Section Summary

Five critical gaps identified: (1) Multi-lingual research coverage — we're missing ~30–50% of relevant work from CJK sources, (2) No native academic paper infrastructure (citation graphs, arXiv API), (3) No automated research monitoring/alerting, (4) Missing code reproducibility pipeline, (5) No community discourse tracking. Priorities: Semantic Scholar + arXiv via WebFetch this week, MCP integrations this month, full CJK pipeline Q2 2026.

Abschnitt-Zusammenfassung

Fünf kritische Lücken identifiziert: (1) Multilinguale Forschungsabdeckung — ~30–50 % relevanter Arbeiten aus CJK-Quellen fehlen, (2) Keine native akademische Paper-Infrastruktur (Citation Graphs, arXiv API), (3) Kein automatisiertes Research-Monitoring/Alerting, (4) Fehlende Code-Reproduzierbarkeitspipeline, (5) Kein Community-Discourse-Tracking. Prioritäten: Semantic Scholar + arXiv via WebFetch diese Woche, MCP-Integrationen diesen Monat, volle CJK-Pipeline Q2 2026.

1. Multi-Lingual Research (CRITICAL)

✅ Partially Addressed (2026-03-22)

CJK scan completed via Semantic Scholar citation graph + targeted Chinese keyword search. Found 5 new CJK-authored papers (CoMAS, EvoScientist, etc.). ~25 papers now have CN tag. Systematic CNKI/Wanfang pipeline still missing, but coverage improved significantly.

Problem: Our entire research pipeline is English/German. This topic spans communities that publish heavily in Chinese, Japanese, and Korean.

What we’re missing:

  • Chinese AI research — CNKI (中国知网), Wanfang Data, Baidu Scholar, WeChat/Zhihu technical articles. China has massive output on multi-agent systems and evolutionary computation.
  • Japanese research — CiNii, J-STAGE. Japan has strong evolutionary computation and robotics communities.
  • Korean research — RISS, KCI. Korean labs are active in LLM agent research.
  • Translation pipeline — No systematic way to search in one language and synthesize in another.
  • Non-Latin script handling — Our search tools don’t handle CJK characters well.

Impact: We’re likely missing 30-50% of relevant work, especially from Chinese labs (Tsinghua, PKU, BAAI, Alibaba DAMO, etc.) that publish in Chinese first.

Possible solutions:

  • Add Semantic Scholar API (multilingual, covers Chinese conferences like AAAI-CN)
  • Add Google Scholar integration (broader language coverage)
  • Build a translation-aware search wrapper (search in EN → translate query to ZH/JA/KO → search again → translate results back)
  • Evaluate DeepL API or similar for batch paper abstract translation
  • Monitor Chinese preprint servers (ChinaXiv) and conference proceedings

✅ Teilweise adressiert (22.03.2026)

CJK-Scan durchgeführt via Semantic Scholar Citation Graph + gezielte chinesische Keyword-Suche. 5 neue CJK-Papers gefunden (CoMAS, EvoScientist etc.). ~25 Papers haben jetzt CN-Tag. Systematische CNKI/Wanfang-Pipeline fehlt noch, aber Abdeckung deutlich verbessert.

Problem: Unsere gesamte Research-Pipeline ist Englisch/Deutsch. Das Thema umfasst Communities, die stark auf Chinesisch, Japanisch und Koreanisch publizieren.

Was uns fehlt:

  • Chinesische KI-Forschung — CNKI (中国知网), Wanfang Data, Baidu Scholar, WeChat/Zhihu-Fachartikel. China hat massiven Output zu Multi-Agent Systems und Evolutionary Computation.
  • Japanische Forschung — CiNii, J-STAGE. Japan hat starke Communities in Evolutionary Computation und Robotik.
  • Koreanische Forschung — RISS, KCI. Koreanische Labs sind aktiv in der LLM-Agent-Forschung.
  • Translation Pipeline — Kein systematischer Weg, in einer Sprache zu suchen und in einer anderen zu synthetisieren.
  • Non-Latin-Script-Handling — Unsere Suchtools können CJK-Zeichen schlecht verarbeiten.

Auswirkung: Wir verpassen wahrscheinlich 30–50 % der relevanten Arbeiten, besonders von chinesischen Labs (Tsinghua, PKU, BAAI, Alibaba DAMO etc.), die zuerst auf Chinesisch publizieren.

Mögliche Lösungen:

  • Semantic Scholar API hinzufügen (multilingual, deckt chinesische Konferenzen wie AAAI-CN ab)
  • Google Scholar Integration (breitere Sprachabdeckung)
  • Translation-aware Search Wrapper bauen (Suche auf EN → Query nach ZH/JA/KO übersetzen → erneut suchen → Ergebnisse zurückübersetzen)
  • DeepL API o. ä. für Batch-Übersetzung von Paper-Abstracts evaluieren
  • Chinesische Preprint-Server (ChinaXiv) und Konferenz-Proceedings monitoren

2. Academic Paper Infrastructure (HIGH)

✅ Partially Addressed (2026-03-22)

Semantic Scholar API successfully used for citation graph traversal (Nowak 2008: 110 citations, EvoFlow: 31 citations). Found 13 new papers through forward citations alone. No persistent integration yet — manual API calls via web_fetch.

Problem: No native integration with academic search systems. We rely on WebSearch to find papers, which is imprecise and misses citation context.

What we’re missing:

  • Semantic Scholar API — Citation graph traversal, related papers, author tracking, paper embeddings for similarity search
  • arXiv API — Direct search, category filtering, new paper monitoring, bulk metadata access
  • Google Scholar — Broader coverage including books, theses, patents
  • Citation graph traversal — “Find all papers that cite Nowak 2008” or “Find papers cited by both Gao 2025 and Wang 2025”
  • PDF processing pipeline — Bulk download, text extraction, summarization
  • BibTeX/reference management — No structured bibliography, just markdown lists

Impact: We can find papers but can’t systematically follow citation chains, track research fronts, or discover related work through structural (non-keyword) similarity.

Possible solutions:

  • Semantic Scholar MCP server or API integration
  • arXiv API wrapper (simple REST calls via WebFetch)
  • Automated citation graph builder (start from our 20 known papers, expand outward)
  • Zotero or similar for reference management

✅ Teilweise adressiert (22.03.2026)

Semantic Scholar API erfolgreich für Citation Graph Traversal genutzt (Nowak 2008: 110 Zitationen, EvoFlow: 31 Zitationen). 13 neue Papers allein durch Vorwärts-Zitationen gefunden. Noch keine persistente Integration — manuelle API-Calls via web_fetch.

Problem: Keine native Integration mit akademischen Suchsystemen. Wir nutzen WebSearch zum Finden von Papers, was ungenau ist und Citation-Kontext verpasst.

Was uns fehlt:

  • Semantic Scholar API — Citation Graph Traversal, verwandte Papers, Author Tracking, Paper Embeddings für Ähnlichkeitssuche
  • arXiv API — Direkte Suche, Category Filtering, New-Paper-Monitoring, Bulk-Metadaten-Zugriff
  • Google Scholar — Breitere Abdeckung inkl. Bücher, Dissertationen, Patente
  • Citation Graph Traversal — „Finde alle Papers, die Nowak 2008 zitieren” oder „Finde Papers, die sowohl von Gao 2025 als auch Wang 2025 zitiert werden”
  • PDF Processing Pipeline — Bulk-Download, Textextraktion, Zusammenfassung
  • BibTeX/Reference Management — Keine strukturierte Bibliografie, nur Markdown-Listen

Auswirkung: Wir können Papers finden, aber nicht systematisch Citation Chains verfolgen, Research Fronts tracken oder verwandte Arbeiten über strukturelle (nicht keyword-basierte) Ähnlichkeit entdecken.

Mögliche Lösungen:

  • Semantic Scholar MCP-Server oder API-Integration
  • arXiv API Wrapper (einfache REST Calls via WebFetch)
  • Automatisierter Citation Graph Builder (Start bei unseren 20 bekannten Papers, nach außen expandieren)
  • Zotero o. ä. für Reference Management

3. Research Monitoring & Alerting (MEDIUM)

⚠️ Gap

No automated arXiv digests, author tracking, or conference monitoring. We react instead of proactively tracking new work.

Problem: research-monitor skill exists but is manual. No automated tracking of new papers on our specific topics.

What we’re missing:

  • Automated arXiv digests for keywords: “self-evolving agents”, “quality-diversity”, “evolvable AI”, “multi-agent collaboration”
  • Author tracking — New papers from Nowak, Clune, Stanley, Lehman, Mouret
  • Conference tracking — NeurIPS, ICML, GECCO, EMNLP, ACL accepted paper lists
  • RSS/Atom feeds from key journals and preprint servers

Impact: We react instead of proactively tracking. New relevant work may sit for weeks before we notice it.

Possible solutions:

  • arXiv RSS feeds + daily digest via Trigger.dev automation
  • Semantic Scholar alerts API
  • Manual weekly check schedule (low-tech but effective)

⚠️ Lücke

Keine automatisierten arXiv-Digests, kein Author-Tracking, kein Conference-Monitoring. Wir reagieren statt proaktiv zu tracken.

Problem: Der research-monitor Skill existiert, ist aber manuell. Kein automatisiertes Tracking neuer Papers zu unseren spezifischen Themen.

Was uns fehlt:

  • Automatisierte arXiv-Digests für Keywords: “self-evolving agents”, “quality-diversity”, “evolvable AI”, “multi-agent collaboration”
  • Author Tracking — Neue Papers von Nowak, Clune, Stanley, Lehman, Mouret
  • Conference Tracking — NeurIPS, ICML, GECCO, EMNLP, ACL Accepted-Paper-Listen
  • RSS/Atom Feeds von wichtigen Journals und Preprint-Servern

Auswirkung: Wir reagieren statt proaktiv zu tracken. Neue relevante Arbeiten können wochenlang unbemerkt bleiben.

Mögliche Lösungen:

  • arXiv RSS Feeds + Daily Digest via Trigger.dev-Automation
  • Semantic Scholar Alerts API
  • Manueller wöchentlicher Check-Plan (Low-Tech, aber effektiv)

4. Code & Reproducibility (MEDIUM)

✅ Partially Addressed (2026-03-22)

Scanned open-source repos: CoMAS (ICLR 2026, Python, requires 2×A100), Darwin Gödel Machine (Sakana AI, Python+Docker, SWE-bench eval), EvoAgentX (public). EvoFlow has no public repo. No local reproduction yet — hardware requirements exceed our Mac mini.

Problem: Many papers we reference have open-source implementations we’ve never looked at.

What we’re missing:

  • GitHub search for paper implementations (PapersWithCode integration)
  • Ability to clone, read, and understand reference codebases systematically
  • Experiment reproduction — running MAP-Elites, EvoAgentX, or similar locally
  • Benchmarking infrastructure — testing our own agent configs against published benchmarks

Known open-source repos:

  • EvoAgentX (Wang et al.) — GitHub, Python
  • MAP-Elites reference implementations — pyribs, QDax
  • MultiAgentBench (Zhu et al.) — likely on GitHub

✅ Teilweise adressiert (22.03.2026)

Open-Source-Repos gescannt: CoMAS (ICLR 2026, Python, braucht 2×A100), Darwin Gödel Machine (Sakana AI, Python+Docker, SWE-bench Eval), EvoAgentX (öffentlich). EvoFlow hat kein öffentliches Repo. Noch keine lokale Reproduktion — Hardware-Anforderungen übersteigen unseren Mac mini.

Problem: Viele Papers, die wir referenzieren, haben Open-Source-Implementierungen, die wir nie angeschaut haben.

Was uns fehlt:

  • GitHub-Suche nach Paper-Implementierungen (PapersWithCode Integration)
  • Fähigkeit, Referenz-Codebases systematisch zu clonen, lesen und verstehen
  • Experiment-Reproduktion — MAP-Elites, EvoAgentX o. ä. lokal ausführen
  • Benchmarking-Infrastruktur — eigene Agent-Konfigurationen gegen publizierte Benchmarks testen

Bekannte Open-Source-Repos:

  • EvoAgentX (Wang et al.) — GitHub, Python
  • MAP-Elites Referenz-Implementierungen — pyribs, QDax
  • MultiAgentBench (Zhu et al.) — vermutlich auf GitHub

5. Community & Discourse (LOW)

⚠️ Gap

No Twitter/X academic discourse tracking, no Reddit monitoring, no conference workshop coverage, no lab blog aggregation.

Problem: We research papers but don’t track the communities around them.

What we’re missing:

  • Twitter/X academic discourse — Many breakthroughs are discussed informally before formal publication
  • Reddit communities — r/MachineLearning, r/reinforcementlearning
  • Conference workshops — Often more cutting-edge than main proceedings
  • Lab websites & blogs — Uber AI (now OpenAI), DeepMind, Anthropic research blogs

⚠️ Lücke

Kein Twitter/X-Diskurs-Tracking, kein Reddit-Monitoring, keine Conference-Workshop-Abdeckung, keine Lab-Blog-Aggregation.

Problem: Wir recherchieren Papers, aber tracken nicht die Communities dahinter.

Was uns fehlt:

  • Twitter/X akademischer Diskurs — Viele Durchbrüche werden informell diskutiert, bevor sie formal publiziert werden
  • Reddit Communities — r/MachineLearning, r/reinforcementlearning
  • Conference Workshops — Oft innovativer als die Hauptkonferenz-Proceedings
  • Lab-Websites & Blogs — Uber AI (jetzt OpenAI), DeepMind, Anthropic Research Blogs

Toolkit PrioritiesWerkzeugkasten-Prioritäten

Section Summary

Three time horizons: This week — Semantic Scholar + arXiv via WebFetch, translation-aware search. This month — MCP server, arXiv monitoring, PapersWithCode. Q2 2026 — Full CJK pipeline, reference management, local benchmarking.

Abschnitt-Zusammenfassung

Drei Zeithorizonte: Diese Woche — Semantic Scholar + arXiv via WebFetch, translation-aware Search. Diesen Monat — MCP-Server, arXiv-Monitoring, PapersWithCode. Q2 2026 — Volle CJK-Pipeline, Reference Management, lokales Benchmarking.

Immediately Feasible (This Week)Sofort machbar (diese Woche)

  1. Semantic Scholar via WebFetch — REST API, no auth needed for basic queries, gives us citation graphs immediately
  2. arXiv via WebFetch — Simple API, gives us search + metadata + PDF links
  3. Translation-aware search — Use WebSearch with explicit Chinese/Japanese query terms for key topics
  1. Semantic Scholar via WebFetch — REST API, keine Auth für Basis-Queries nötig, liefert sofort Citation Graphs
  2. arXiv via WebFetch — Einfache API, liefert Suche + Metadaten + PDF-Links
  3. Translation-aware Search — WebSearch mit expliziten chinesischen/japanischen Query-Begriffen für Kernthemen nutzen

Short-Term (This Month)Kurzfristig (diesen Monat)

  1. Semantic Scholar MCP server — Structured tool for citation traversal
  2. arXiv monitoring — Weekly automated search for new papers on our topics
  3. PapersWithCode — Cross-reference our papers with available implementations
  1. Semantic Scholar MCP-Server — Strukturiertes Tool für Citation Traversal
  2. arXiv-Monitoring — Wöchentliche automatisierte Suche nach neuen Papers zu unseren Themen
  3. PapersWithCode — Unsere Papers mit verfügbaren Implementierungen abgleichen

Mid-Term (Q2 2026)Mittelfristig (Q2 2026)

  1. Multi-lingual search wrapper — Systematic CJK research pipeline
  2. Reference management — BibTeX/Zotero integration
  3. Benchmark runner — Local experiments with QD algorithms, agent evolution
  1. Multi-lingual Search Wrapper — Systematische CJK-Research-Pipeline
  2. Reference Management — BibTeX/Zotero-Integration
  3. Benchmark Runner — Lokale Experimente mit QD-Algorithmen, Agent Evolution

Next ActionNächste Aktion

Section Summary

Immediate next step: Use Semantic Scholar + arXiv to build citation graphs from our core papers (Nowak 2008, Gao 2025, Wang 2025), discover missing work, and identify CJK labs at the intersection.

Start with Semantic Scholar + arXiv queries for our core papers to:

  1. Build citation graph outward from Nowak 2008, Gao 2025, Wang 2025
  2. Find papers we’re missing (especially post-2024 work on self-evolving agents)
  3. Identify Chinese/Japanese labs working on this intersection

Abschnitt-Zusammenfassung

Nächster Schritt: Semantic Scholar + arXiv nutzen, um Citation Graphs aus unseren Kern-Papers aufzubauen (Nowak 2008, Gao 2025, Wang 2025), fehlende Arbeiten entdecken und CJK-Labs an der Schnittstelle identifizieren.

Mit Semantic Scholar + arXiv Queries für unsere Kern-Papers starten, um:

  1. Citation Graph ausgehend von Nowak 2008, Gao 2025, Wang 2025 aufzubauen
  2. Papers zu finden, die wir verpassen (besonders Post-2024-Arbeiten zu Self-Evolving Agents)
  3. Chinesische/japanische Labs identifizieren, die an dieser Schnittstelle arbeiten

Back to top

CC BY-SA 4.0 — Evolving Agents — A living research collection.