Research Toolkit Audit

What we have, what we’re missing, and what we need to build for serious cross-disciplinary research on evolving agent systems.

Last updated: 2026-03-19

Was wir haben, was uns fehlt und was wir für seriöse interdisziplinäre Forschung zu Evolving Agent Systems aufbauen müssen.

Zuletzt aktualisiert: 2026-03-19

What We HaveWas wir haben

Section Summary

Our current toolkit covers general web search, structured research pipelines, multi-layer analysis & synthesis skills, and a 5-vault knowledge storage system. Approved external sources include PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, and Open Targets.

Abschnitt-Zusammenfassung

Unser aktuelles Toolkit umfasst allgemeine Websuche, strukturierte Research-Pipelines, mehrstufige Analyse- & Synthese-Skills und ein 5-Vault-Wissensspeichersystem. Genehmigte externe Quellen: PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov und Open Targets.

Search & Discovery

✅ Available

WebSearch (real-time web), WebFetch (direct URL access), research-pipeline (multi-source routing), learn-from-the-best (Mondon method), knowledge-check (cross-vault search, 5 layers)

Tool	Capability	Strength	Limitation
WebSearch	General web search	Broad, real-time	No deep academic search, English-biased
WebFetch	Fetch web pages	Direct access to URLs	No batch processing, no PDF extraction
research-pipeline	Structured multi-source research	Routes by topic, saves to Knowledge DB	Limited to approved sources, no arXiv API
learn-from-the-best	Find top sources, people, learning paths	Mondon method — “someone has done this”	English-only, no citation graph
knowledge-check	Cross-vault search (5 layers)	Fast, comprehensive for stored knowledge	Only searches what we’ve already captured

✅ Verfügbar

WebSearch (Echtzeit-Web), WebFetch (direkter URL-Zugriff), research-pipeline (Multi-Source-Routing), learn-from-the-best (Mondon-Methode), knowledge-check (Cross-Vault-Suche, 5 Layer)

Tool	Fähigkeit	Stärke	Einschränkung
WebSearch	Allgemeine Websuche	Breit, Echtzeit	Keine tiefe akademische Suche, English-biased
WebFetch	Webseiten abrufen	Direkter Zugriff auf URLs	Kein Batch-Processing, keine PDF-Extraktion
research-pipeline	Strukturierte Multi-Source-Recherche	Routet nach Thema, speichert in Knowledge DB	Nur genehmigte Quellen, kein arXiv API
learn-from-the-best	Top-Quellen, Personen, Lernpfade finden	Mondon-Methode — „jemand hat das schon gemacht”	Nur Englisch, kein Citation Graph
knowledge-check	Cross-Vault-Suche (5 Layer)	Schnell, umfassend für gespeichertes Wissen	Durchsucht nur bereits Erfasstes

Analysis & Synthesis

✅ Available

analyze (ReAct cycle), synthesize (cross-source patterns), distill (progressive summarization), signal-check (quality filter), challenge (adversarial testing), briefing (vault overview)

Tool	Capability	When to Use
analyze	ReAct cycle investigation	Multi-step structured analysis
synthesize	Cross-source pattern finding	Connecting insights from different domains
distill	Progressive summarization (4 layers)	Condensing long papers/documents
signal-check	Quality/substance check	Evaluating claims, separating signal from noise
challenge	Adversarial stress-testing	Pressure-testing our own conclusions
briefing	Topic overview from vault	“What do we know about X?”

✅ Verfügbar

analyze (ReAct-Zyklus), synthesize (quellübergreifende Muster), distill (Progressive Summarization), signal-check (Qualitätsfilter), challenge (Adversarial Testing), briefing (Vault-Überblick)

Tool	Fähigkeit	Einsatzzweck
analyze	ReAct-Zyklus-Untersuchung	Mehrstufige strukturierte Analyse
synthesize	Quellübergreifende Mustererkennung	Erkenntnisse aus verschiedenen Domänen verbinden
distill	Progressive Summarization (4 Layer)	Lange Papers/Dokumente verdichten
signal-check	Qualitäts-/Substanzprüfung	Claims bewerten, Signal vom Rauschen trennen
challenge	Adversarial Stress-Testing	Eigene Schlussfolgerungen unter Druck testen
briefing	Themenüberblick aus dem Vault	„Was wissen wir über X?”

Knowledge Storage

✅ Available

5 Obsidian Vaults (MCP), Knowledge DB (SQLite), Episodic Memory (semantic search), Memory System (file-based, cross-session)

Tool	What It Stores	Access
Obsidian Vaults (5x)	Structured notes, concepts, links	MCP servers per vault
Knowledge DB (SQLite)	Structured data, CSV imports	SQL queries
Episodic Memory	Conversation history, decisions	Semantic search
Memory System	Cross-session user/project/feedback context	File-based, indexed

✅ Verfügbar

5 Obsidian Vaults (MCP), Knowledge DB (SQLite), Episodic Memory (semantische Suche), Memory System (dateibasiert, session-übergreifend)

Tool	Was es speichert	Zugriff
Obsidian Vaults (5x)	Strukturierte Notizen, Konzepte, Links	MCP-Server pro Vault
Knowledge DB (SQLite)	Strukturierte Daten, CSV-Importe	SQL Queries
Episodic Memory	Gesprächsverläufe, Entscheidungen	Semantische Suche
Memory System	Session-übergreifender User-/Projekt-/Feedback-Kontext	Dateibasiert, indiziert

Approved External Sources

PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, Open Targets (ToS-Audit 2026-03-13)

PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, Open Targets (ToS-Audit vom 13.03.2026)

Section Summary

Five critical gaps identified: (1) Multi-lingual research coverage — we're missing ~30–50% of relevant work from CJK sources, (2) No native academic paper infrastructure (citation graphs, arXiv API), (3) No automated research monitoring/alerting, (4) Missing code reproducibility pipeline, (5) No community discourse tracking. Priorities: Semantic Scholar + arXiv via WebFetch this week, MCP integrations this month, full CJK pipeline Q2 2026.

Abschnitt-Zusammenfassung

Fünf kritische Lücken identifiziert: (1) Multilinguale Forschungsabdeckung — ~30–50 % relevanter Arbeiten aus CJK-Quellen fehlen, (2) Keine native akademische Paper-Infrastruktur (Citation Graphs, arXiv API), (3) Kein automatisiertes Research-Monitoring/Alerting, (4) Fehlende Code-Reproduzierbarkeitspipeline, (5) Kein Community-Discourse-Tracking. Prioritäten: Semantic Scholar + arXiv via WebFetch diese Woche, MCP-Integrationen diesen Monat, volle CJK-Pipeline Q2 2026.

1. Multi-Lingual Research (CRITICAL)

✅ Partially Addressed (2026-03-22)

CJK scan completed via Semantic Scholar citation graph + targeted Chinese keyword search. Found 5 new CJK-authored papers (CoMAS, EvoScientist, etc.). ~25 papers now have CN tag. Systematic CNKI/Wanfang pipeline still missing, but coverage improved significantly.

Problem: Our entire research pipeline is English/German. This topic spans communities that publish heavily in Chinese, Japanese, and Korean.

What we’re missing:

Chinese AI research — CNKI (中国知网), Wanfang Data, Baidu Scholar, WeChat/Zhihu technical articles. China has massive output on multi-agent systems and evolutionary computation.
Japanese research — CiNii, J-STAGE. Japan has strong evolutionary computation and robotics communities.
Korean research — RISS, KCI. Korean labs are active in LLM agent research.
Translation pipeline — No systematic way to search in one language and synthesize in another.
Non-Latin script handling — Our search tools don’t handle CJK characters well.

Impact: We’re likely missing 30-50% of relevant work, especially from Chinese labs (Tsinghua, PKU, BAAI, Alibaba DAMO, etc.) that publish in Chinese first.

Possible solutions:

Add Semantic Scholar API (multilingual, covers Chinese conferences like AAAI-CN)
Add Google Scholar integration (broader language coverage)
Build a translation-aware search wrapper (search in EN → translate query to ZH/JA/KO → search again → translate results back)
Evaluate DeepL API or similar for batch paper abstract translation
Monitor Chinese preprint servers (ChinaXiv) and conference proceedings

✅ Teilweise adressiert (22.03.2026)

CJK-Scan durchgeführt via Semantic Scholar Citation Graph + gezielte chinesische Keyword-Suche. 5 neue CJK-Papers gefunden (CoMAS, EvoScientist etc.). ~25 Papers haben jetzt CN-Tag. Systematische CNKI/Wanfang-Pipeline fehlt noch, aber Abdeckung deutlich verbessert.

Problem: Unsere gesamte Research-Pipeline ist Englisch/Deutsch. Das Thema umfasst Communities, die stark auf Chinesisch, Japanisch und Koreanisch publizieren.

Was uns fehlt:

Chinesische KI-Forschung — CNKI (中国知网), Wanfang Data, Baidu Scholar, WeChat/Zhihu-Fachartikel. China hat massiven Output zu Multi-Agent Systems und Evolutionary Computation.
Japanische Forschung — CiNii, J-STAGE. Japan hat starke Communities in Evolutionary Computation und Robotik.
Koreanische Forschung — RISS, KCI. Koreanische Labs sind aktiv in der LLM-Agent-Forschung.
Translation Pipeline — Kein systematischer Weg, in einer Sprache zu suchen und in einer anderen zu synthetisieren.
Non-Latin-Script-Handling — Unsere Suchtools können CJK-Zeichen schlecht verarbeiten.

Auswirkung: Wir verpassen wahrscheinlich 30–50 % der relevanten Arbeiten, besonders von chinesischen Labs (Tsinghua, PKU, BAAI, Alibaba DAMO etc.), die zuerst auf Chinesisch publizieren.

Mögliche Lösungen:

Semantic Scholar API hinzufügen (multilingual, deckt chinesische Konferenzen wie AAAI-CN ab)
Google Scholar Integration (breitere Sprachabdeckung)
Translation-aware Search Wrapper bauen (Suche auf EN → Query nach ZH/JA/KO übersetzen → erneut suchen → Ergebnisse zurückübersetzen)
DeepL API o. ä. für Batch-Übersetzung von Paper-Abstracts evaluieren
Chinesische Preprint-Server (ChinaXiv) und Konferenz-Proceedings monitoren

2. Academic Paper Infrastructure (HIGH)

✅ Partially Addressed (2026-03-22)

Semantic Scholar API successfully used for citation graph traversal (Nowak 2008: 110 citations, EvoFlow: 31 citations). Found 13 new papers through forward citations alone. No persistent integration yet — manual API calls via web_fetch.

Problem: No native integration with academic search systems. We rely on WebSearch to find papers, which is imprecise and misses citation context.

What we’re missing:

Semantic Scholar API — Citation graph traversal, related papers, author tracking, paper embeddings for similarity search
arXiv API — Direct search, category filtering, new paper monitoring, bulk metadata access
Google Scholar — Broader coverage including books, theses, patents
Citation graph traversal — “Find all papers that cite Nowak 2008” or “Find papers cited by both Gao 2025 and Wang 2025”
PDF processing pipeline — Bulk download, text extraction, summarization
BibTeX/reference management — No structured bibliography, just markdown lists

Impact: We can find papers but can’t systematically follow citation chains, track research fronts, or discover related work through structural (non-keyword) similarity.

Possible solutions:

Semantic Scholar MCP server or API integration
arXiv API wrapper (simple REST calls via WebFetch)
Automated citation graph builder (start from our 20 known papers, expand outward)
Zotero or similar for reference management

✅ Teilweise adressiert (22.03.2026)

Semantic Scholar API erfolgreich für Citation Graph Traversal genutzt (Nowak 2008: 110 Zitationen, EvoFlow: 31 Zitationen). 13 neue Papers allein durch Vorwärts-Zitationen gefunden. Noch keine persistente Integration — manuelle API-Calls via web_fetch.

Problem: Keine native Integration mit akademischen Suchsystemen. Wir nutzen WebSearch zum Finden von Papers, was ungenau ist und Citation-Kontext verpasst.

Was uns fehlt:

Semantic Scholar API — Citation Graph Traversal, verwandte Papers, Author Tracking, Paper Embeddings für Ähnlichkeitssuche
arXiv API — Direkte Suche, Category Filtering, New-Paper-Monitoring, Bulk-Metadaten-Zugriff
Google Scholar — Breitere Abdeckung inkl. Bücher, Dissertationen, Patente
Citation Graph Traversal — „Finde alle Papers, die Nowak 2008 zitieren” oder „Finde Papers, die sowohl von Gao 2025 als auch Wang 2025 zitiert werden”
PDF Processing Pipeline — Bulk-Download, Textextraktion, Zusammenfassung
BibTeX/Reference Management — Keine strukturierte Bibliografie, nur Markdown-Listen

Auswirkung: Wir können Papers finden, aber nicht systematisch Citation Chains verfolgen, Research Fronts tracken oder verwandte Arbeiten über strukturelle (nicht keyword-basierte) Ähnlichkeit entdecken.

Mögliche Lösungen:

Semantic Scholar MCP-Server oder API-Integration
arXiv API Wrapper (einfache REST Calls via WebFetch)
Automatisierter Citation Graph Builder (Start bei unseren 20 bekannten Papers, nach außen expandieren)
Zotero o. ä. für Reference Management

3. Research Monitoring & Alerting (MEDIUM)

⚠️ Gap

No automated arXiv digests, author tracking, or conference monitoring. We react instead of proactively tracking new work.

Problem: research-monitor skill exists but is manual. No automated tracking of new papers on our specific topics.

What we’re missing:

Automated arXiv digests for keywords: “self-evolving agents”, “quality-diversity”, “evolvable AI”, “multi-agent collaboration”
Author tracking — New papers from Nowak, Clune, Stanley, Lehman, Mouret
Conference tracking — NeurIPS, ICML, GECCO, EMNLP, ACL accepted paper lists
RSS/Atom feeds from key journals and preprint servers

Impact: We react instead of proactively tracking. New relevant work may sit for weeks before we notice it.

Possible solutions:

arXiv RSS feeds + daily digest via Trigger.dev automation
Semantic Scholar alerts API
Manual weekly check schedule (low-tech but effective)

⚠️ Lücke

Keine automatisierten arXiv-Digests, kein Author-Tracking, kein Conference-Monitoring. Wir reagieren statt proaktiv zu tracken.

Problem: Der research-monitor Skill existiert, ist aber manuell. Kein automatisiertes Tracking neuer Papers zu unseren spezifischen Themen.

Was uns fehlt:

Automatisierte arXiv-Digests für Keywords: “self-evolving agents”, “quality-diversity”, “evolvable AI”, “multi-agent collaboration”
Author Tracking — Neue Papers von Nowak, Clune, Stanley, Lehman, Mouret
Conference Tracking — NeurIPS, ICML, GECCO, EMNLP, ACL Accepted-Paper-Listen
RSS/Atom Feeds von wichtigen Journals und Preprint-Servern

Auswirkung: Wir reagieren statt proaktiv zu tracken. Neue relevante Arbeiten können wochenlang unbemerkt bleiben.

Mögliche Lösungen:

arXiv RSS Feeds + Daily Digest via Trigger.dev-Automation
Semantic Scholar Alerts API
Manueller wöchentlicher Check-Plan (Low-Tech, aber effektiv)

4. Code & Reproducibility (MEDIUM)

✅ Partially Addressed (2026-03-22)

Scanned open-source repos: CoMAS (ICLR 2026, Python, requires 2×A100), Darwin Gödel Machine (Sakana AI, Python+Docker, SWE-bench eval), EvoAgentX (public). EvoFlow has no public repo. No local reproduction yet — hardware requirements exceed our Mac mini.

Problem: Many papers we reference have open-source implementations we’ve never looked at.

What we’re missing:

GitHub search for paper implementations (PapersWithCode integration)
Ability to clone, read, and understand reference codebases systematically
Experiment reproduction — running MAP-Elites, EvoAgentX, or similar locally
Benchmarking infrastructure — testing our own agent configs against published benchmarks

Known open-source repos:

EvoAgentX (Wang et al.) — GitHub, Python
MAP-Elites reference implementations — pyribs, QDax
MultiAgentBench (Zhu et al.) — likely on GitHub

✅ Teilweise adressiert (22.03.2026)

Open-Source-Repos gescannt: CoMAS (ICLR 2026, Python, braucht 2×A100), Darwin Gödel Machine (Sakana AI, Python+Docker, SWE-bench Eval), EvoAgentX (öffentlich). EvoFlow hat kein öffentliches Repo. Noch keine lokale Reproduktion — Hardware-Anforderungen übersteigen unseren Mac mini.

Problem: Viele Papers, die wir referenzieren, haben Open-Source-Implementierungen, die wir nie angeschaut haben.

Was uns fehlt:

GitHub-Suche nach Paper-Implementierungen (PapersWithCode Integration)
Fähigkeit, Referenz-Codebases systematisch zu clonen, lesen und verstehen
Experiment-Reproduktion — MAP-Elites, EvoAgentX o. ä. lokal ausführen
Benchmarking-Infrastruktur — eigene Agent-Konfigurationen gegen publizierte Benchmarks testen

Bekannte Open-Source-Repos:

EvoAgentX (Wang et al.) — GitHub, Python
MAP-Elites Referenz-Implementierungen — pyribs, QDax
MultiAgentBench (Zhu et al.) — vermutlich auf GitHub

5. Community & Discourse (LOW)

⚠️ Gap

No Twitter/X academic discourse tracking, no Reddit monitoring, no conference workshop coverage, no lab blog aggregation.

Problem: We research papers but don’t track the communities around them.

What we’re missing:

Twitter/X academic discourse — Many breakthroughs are discussed informally before formal publication
Reddit communities — r/MachineLearning, r/reinforcementlearning
Conference workshops — Often more cutting-edge than main proceedings
Lab websites & blogs — Uber AI (now OpenAI), DeepMind, Anthropic research blogs

⚠️ Lücke

Kein Twitter/X-Diskurs-Tracking, kein Reddit-Monitoring, keine Conference-Workshop-Abdeckung, keine Lab-Blog-Aggregation.

Problem: Wir recherchieren Papers, aber tracken nicht die Communities dahinter.

Was uns fehlt:

Twitter/X akademischer Diskurs — Viele Durchbrüche werden informell diskutiert, bevor sie formal publiziert werden
Reddit Communities — r/MachineLearning, r/reinforcementlearning
Conference Workshops — Oft innovativer als die Hauptkonferenz-Proceedings
Lab-Websites & Blogs — Uber AI (jetzt OpenAI), DeepMind, Anthropic Research Blogs

Toolkit PrioritiesWerkzeugkasten-Prioritäten

Section Summary

Three time horizons: This week — Semantic Scholar + arXiv via WebFetch, translation-aware search. This month — MCP server, arXiv monitoring, PapersWithCode. Q2 2026 — Full CJK pipeline, reference management, local benchmarking.

Abschnitt-Zusammenfassung

Drei Zeithorizonte: Diese Woche — Semantic Scholar + arXiv via WebFetch, translation-aware Search. Diesen Monat — MCP-Server, arXiv-Monitoring, PapersWithCode. Q2 2026 — Volle CJK-Pipeline, Reference Management, lokales Benchmarking.

Immediately Feasible (This Week)Sofort machbar (diese Woche)

Semantic Scholar via WebFetch — REST API, no auth needed for basic queries, gives us citation graphs immediately
arXiv via WebFetch — Simple API, gives us search + metadata + PDF links
Translation-aware search — Use WebSearch with explicit Chinese/Japanese query terms for key topics

Semantic Scholar via WebFetch — REST API, keine Auth für Basis-Queries nötig, liefert sofort Citation Graphs
arXiv via WebFetch — Einfache API, liefert Suche + Metadaten + PDF-Links
Translation-aware Search — WebSearch mit expliziten chinesischen/japanischen Query-Begriffen für Kernthemen nutzen

Short-Term (This Month)Kurzfristig (diesen Monat)

Semantic Scholar MCP server — Structured tool for citation traversal
arXiv monitoring — Weekly automated search for new papers on our topics
PapersWithCode — Cross-reference our papers with available implementations

Semantic Scholar MCP-Server — Strukturiertes Tool für Citation Traversal
arXiv-Monitoring — Wöchentliche automatisierte Suche nach neuen Papers zu unseren Themen
PapersWithCode — Unsere Papers mit verfügbaren Implementierungen abgleichen

Mid-Term (Q2 2026)Mittelfristig (Q2 2026)

Multi-lingual search wrapper — Systematic CJK research pipeline
Reference management — BibTeX/Zotero integration
Benchmark runner — Local experiments with QD algorithms, agent evolution

Multi-lingual Search Wrapper — Systematische CJK-Research-Pipeline
Reference Management — BibTeX/Zotero-Integration
Benchmark Runner — Lokale Experimente mit QD-Algorithmen, Agent Evolution

Next ActionNächste Aktion

Section Summary

Immediate next step: Use Semantic Scholar + arXiv to build citation graphs from our core papers (Nowak 2008, Gao 2025, Wang 2025), discover missing work, and identify CJK labs at the intersection.

Start with Semantic Scholar + arXiv queries for our core papers to:

Build citation graph outward from Nowak 2008, Gao 2025, Wang 2025
Find papers we’re missing (especially post-2024 work on self-evolving agents)
Identify Chinese/Japanese labs working on this intersection

Abschnitt-Zusammenfassung

Nächster Schritt: Semantic Scholar + arXiv nutzen, um Citation Graphs aus unseren Kern-Papers aufzubauen (Nowak 2008, Gao 2025, Wang 2025), fehlende Arbeiten entdecken und CJK-Labs an der Schnittstelle identifizieren.

Mit Semantic Scholar + arXiv Queries für unsere Kern-Papers starten, um:

Citation Graph ausgehend von Nowak 2008, Gao 2025, Wang 2025 aufzubauen
Papers zu finden, die wir verpassen (besonders Post-2024-Arbeiten zu Self-Evolving Agents)
Chinesische/japanische Labs identifizieren, die an dieser Schnittstelle arbeiten

Research Toolkit Audit

What We HaveWas wir haben

Section Summary

Abschnitt-Zusammenfassung

Search & Discovery

✅ Available

✅ Verfügbar

Analysis & Synthesis

✅ Available

✅ Verfügbar

Knowledge Storage

✅ Available

✅ Verfügbar

Approved External Sources

Blind Spots — What’s MissingBlinde Flecken — Was fehlt

Section Summary

Abschnitt-Zusammenfassung

1. Multi-Lingual Research (CRITICAL)

✅ Partially Addressed (2026-03-22)

✅ Teilweise adressiert (22.03.2026)

2. Academic Paper Infrastructure (HIGH)

✅ Partially Addressed (2026-03-22)

✅ Teilweise adressiert (22.03.2026)

3. Research Monitoring & Alerting (MEDIUM)

⚠️ Gap

⚠️ Lücke

4. Code & Reproducibility (MEDIUM)

✅ Partially Addressed (2026-03-22)

✅ Teilweise adressiert (22.03.2026)

5. Community & Discourse (LOW)

⚠️ Gap

⚠️ Lücke

Toolkit PrioritiesWerkzeugkasten-Prioritäten

Section Summary

Abschnitt-Zusammenfassung

Immediately Feasible (This Week)Sofort machbar (diese Woche)

Short-Term (This Month)Kurzfristig (diesen Monat)

Mid-Term (Q2 2026)Mittelfristig (Q2 2026)

Next ActionNächste Aktion

Section Summary

Abschnitt-Zusammenfassung