Research Toolkit Audit
What we have, what we’re missing, and what we need to build for serious cross-disciplinary research on evolving agent systems.
Last updated: 2026-03-19
Was wir haben, was uns fehlt und was wir für seriöse interdisziplinäre Forschung zu Evolving Agent Systems aufbauen müssen.
Zuletzt aktualisiert: 2026-03-19
What We HaveWas wir haben
Search & Discovery
✅ Available
WebSearch (real-time web), WebFetch (direct URL access), research-pipeline (multi-source routing), learn-from-the-best (Mondon method), knowledge-check (cross-vault search, 5 layers)
| Tool | Capability | Strength | Limitation |
|---|---|---|---|
| WebSearch | General web search | Broad, real-time | No deep academic search, English-biased |
| WebFetch | Fetch web pages | Direct access to URLs | No batch processing, no PDF extraction |
| research-pipeline | Structured multi-source research | Routes by topic, saves to Knowledge DB | Limited to approved sources, no arXiv API |
| learn-from-the-best | Find top sources, people, learning paths | Mondon method — “someone has done this” | English-only, no citation graph |
| knowledge-check | Cross-vault search (5 layers) | Fast, comprehensive for stored knowledge | Only searches what we’ve already captured |
✅ Verfügbar
WebSearch (Echtzeit-Web), WebFetch (direkter URL-Zugriff), research-pipeline (Multi-Source-Routing), learn-from-the-best (Mondon-Methode), knowledge-check (Cross-Vault-Suche, 5 Layer)
| Tool | Fähigkeit | Stärke | Einschränkung |
|---|---|---|---|
| WebSearch | Allgemeine Websuche | Breit, Echtzeit | Keine tiefe akademische Suche, English-biased |
| WebFetch | Webseiten abrufen | Direkter Zugriff auf URLs | Kein Batch-Processing, keine PDF-Extraktion |
| research-pipeline | Strukturierte Multi-Source-Recherche | Routet nach Thema, speichert in Knowledge DB | Nur genehmigte Quellen, kein arXiv API |
| learn-from-the-best | Top-Quellen, Personen, Lernpfade finden | Mondon-Methode — „jemand hat das schon gemacht” | Nur Englisch, kein Citation Graph |
| knowledge-check | Cross-Vault-Suche (5 Layer) | Schnell, umfassend für gespeichertes Wissen | Durchsucht nur bereits Erfasstes |
Analysis & Synthesis
✅ Available
analyze (ReAct cycle), synthesize (cross-source patterns), distill (progressive summarization), signal-check (quality filter), challenge (adversarial testing), briefing (vault overview)
| Tool | Capability | When to Use |
|---|---|---|
| analyze | ReAct cycle investigation | Multi-step structured analysis |
| synthesize | Cross-source pattern finding | Connecting insights from different domains |
| distill | Progressive summarization (4 layers) | Condensing long papers/documents |
| signal-check | Quality/substance check | Evaluating claims, separating signal from noise |
| challenge | Adversarial stress-testing | Pressure-testing our own conclusions |
| briefing | Topic overview from vault | “What do we know about X?” |
✅ Verfügbar
analyze (ReAct-Zyklus), synthesize (quellübergreifende Muster), distill (Progressive Summarization), signal-check (Qualitätsfilter), challenge (Adversarial Testing), briefing (Vault-Überblick)
| Tool | Fähigkeit | Einsatzzweck |
|---|---|---|
| analyze | ReAct-Zyklus-Untersuchung | Mehrstufige strukturierte Analyse |
| synthesize | Quellübergreifende Mustererkennung | Erkenntnisse aus verschiedenen Domänen verbinden |
| distill | Progressive Summarization (4 Layer) | Lange Papers/Dokumente verdichten |
| signal-check | Qualitäts-/Substanzprüfung | Claims bewerten, Signal vom Rauschen trennen |
| challenge | Adversarial Stress-Testing | Eigene Schlussfolgerungen unter Druck testen |
| briefing | Themenüberblick aus dem Vault | „Was wissen wir über X?” |
Knowledge Storage
✅ Available
5 Obsidian Vaults (MCP), Knowledge DB (SQLite), Episodic Memory (semantic search), Memory System (file-based, cross-session)
| Tool | What It Stores | Access |
|---|---|---|
| Obsidian Vaults (5x) | Structured notes, concepts, links | MCP servers per vault |
| Knowledge DB (SQLite) | Structured data, CSV imports | SQL queries |
| Episodic Memory | Conversation history, decisions | Semantic search |
| Memory System | Cross-session user/project/feedback context | File-based, indexed |
✅ Verfügbar
5 Obsidian Vaults (MCP), Knowledge DB (SQLite), Episodic Memory (semantische Suche), Memory System (dateibasiert, session-übergreifend)
| Tool | Was es speichert | Zugriff |
|---|---|---|
| Obsidian Vaults (5x) | Strukturierte Notizen, Konzepte, Links | MCP-Server pro Vault |
| Knowledge DB (SQLite) | Strukturierte Daten, CSV-Importe | SQL Queries |
| Episodic Memory | Gesprächsverläufe, Entscheidungen | Semantische Suche |
| Memory System | Session-übergreifender User-/Projekt-/Feedback-Kontext | Dateibasiert, indiziert |
Approved External Sources
PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, Open Targets (ToS-Audit 2026-03-13)
PubMed, bioRxiv, ChEMBL, ClinicalTrials.gov, Open Targets (ToS-Audit vom 13.03.2026)
Blind Spots — What’s MissingBlinde Flecken — Was fehlt
Section Summary
Five critical gaps identified: (1) Multi-lingual research coverage — we're missing ~30–50% of relevant work from CJK sources, (2) No native academic paper infrastructure (citation graphs, arXiv API), (3) No automated research monitoring/alerting, (4) Missing code reproducibility pipeline, (5) No community discourse tracking. Priorities: Semantic Scholar + arXiv via WebFetch this week, MCP integrations this month, full CJK pipeline Q2 2026.
Abschnitt-Zusammenfassung
Fünf kritische Lücken identifiziert: (1) Multilinguale Forschungsabdeckung — ~30–50 % relevanter Arbeiten aus CJK-Quellen fehlen, (2) Keine native akademische Paper-Infrastruktur (Citation Graphs, arXiv API), (3) Kein automatisiertes Research-Monitoring/Alerting, (4) Fehlende Code-Reproduzierbarkeitspipeline, (5) Kein Community-Discourse-Tracking. Prioritäten: Semantic Scholar + arXiv via WebFetch diese Woche, MCP-Integrationen diesen Monat, volle CJK-Pipeline Q2 2026.
1. Multi-Lingual Research (CRITICAL)
✅ Partially Addressed (2026-03-22)
CJK scan completed via Semantic Scholar citation graph + targeted Chinese keyword search. Found 5 new CJK-authored papers (CoMAS, EvoScientist, etc.). ~25 papers now have CN tag. Systematic CNKI/Wanfang pipeline still missing, but coverage improved significantly.
Problem: Our entire research pipeline is English/German. This topic spans communities that publish heavily in Chinese, Japanese, and Korean.
What we’re missing:
- Chinese AI research — CNKI (中国知网), Wanfang Data, Baidu Scholar, WeChat/Zhihu technical articles. China has massive output on multi-agent systems and evolutionary computation.
- Japanese research — CiNii, J-STAGE. Japan has strong evolutionary computation and robotics communities.
- Korean research — RISS, KCI. Korean labs are active in LLM agent research.
- Translation pipeline — No systematic way to search in one language and synthesize in another.
- Non-Latin script handling — Our search tools don’t handle CJK characters well.
Impact: We’re likely missing 30-50% of relevant work, especially from Chinese labs (Tsinghua, PKU, BAAI, Alibaba DAMO, etc.) that publish in Chinese first.
Possible solutions:
- Add Semantic Scholar API (multilingual, covers Chinese conferences like AAAI-CN)
- Add Google Scholar integration (broader language coverage)
- Build a translation-aware search wrapper (search in EN → translate query to ZH/JA/KO → search again → translate results back)
- Evaluate DeepL API or similar for batch paper abstract translation
- Monitor Chinese preprint servers (ChinaXiv) and conference proceedings
✅ Teilweise adressiert (22.03.2026)
CJK-Scan durchgeführt via Semantic Scholar Citation Graph + gezielte chinesische Keyword-Suche. 5 neue CJK-Papers gefunden (CoMAS, EvoScientist etc.). ~25 Papers haben jetzt CN-Tag. Systematische CNKI/Wanfang-Pipeline fehlt noch, aber Abdeckung deutlich verbessert.
Problem: Unsere gesamte Research-Pipeline ist Englisch/Deutsch. Das Thema umfasst Communities, die stark auf Chinesisch, Japanisch und Koreanisch publizieren.
Was uns fehlt:
- Chinesische KI-Forschung — CNKI (中国知网), Wanfang Data, Baidu Scholar, WeChat/Zhihu-Fachartikel. China hat massiven Output zu Multi-Agent Systems und Evolutionary Computation.
- Japanische Forschung — CiNii, J-STAGE. Japan hat starke Communities in Evolutionary Computation und Robotik.
- Koreanische Forschung — RISS, KCI. Koreanische Labs sind aktiv in der LLM-Agent-Forschung.
- Translation Pipeline — Kein systematischer Weg, in einer Sprache zu suchen und in einer anderen zu synthetisieren.
- Non-Latin-Script-Handling — Unsere Suchtools können CJK-Zeichen schlecht verarbeiten.
Auswirkung: Wir verpassen wahrscheinlich 30–50 % der relevanten Arbeiten, besonders von chinesischen Labs (Tsinghua, PKU, BAAI, Alibaba DAMO etc.), die zuerst auf Chinesisch publizieren.
Mögliche Lösungen:
- Semantic Scholar API hinzufügen (multilingual, deckt chinesische Konferenzen wie AAAI-CN ab)
- Google Scholar Integration (breitere Sprachabdeckung)
- Translation-aware Search Wrapper bauen (Suche auf EN → Query nach ZH/JA/KO übersetzen → erneut suchen → Ergebnisse zurückübersetzen)
- DeepL API o. ä. für Batch-Übersetzung von Paper-Abstracts evaluieren
- Chinesische Preprint-Server (ChinaXiv) und Konferenz-Proceedings monitoren
2. Academic Paper Infrastructure (HIGH)
✅ Partially Addressed (2026-03-22)
Semantic Scholar API successfully used for citation graph traversal (Nowak 2008: 110 citations, EvoFlow: 31 citations). Found 13 new papers through forward citations alone. No persistent integration yet — manual API calls via web_fetch.
Problem: No native integration with academic search systems. We rely on WebSearch to find papers, which is imprecise and misses citation context.
What we’re missing:
- Semantic Scholar API — Citation graph traversal, related papers, author tracking, paper embeddings for similarity search
- arXiv API — Direct search, category filtering, new paper monitoring, bulk metadata access
- Google Scholar — Broader coverage including books, theses, patents
- Citation graph traversal — “Find all papers that cite Nowak 2008” or “Find papers cited by both Gao 2025 and Wang 2025”
- PDF processing pipeline — Bulk download, text extraction, summarization
- BibTeX/reference management — No structured bibliography, just markdown lists
Impact: We can find papers but can’t systematically follow citation chains, track research fronts, or discover related work through structural (non-keyword) similarity.
Possible solutions:
- Semantic Scholar MCP server or API integration
- arXiv API wrapper (simple REST calls via WebFetch)
- Automated citation graph builder (start from our 20 known papers, expand outward)
- Zotero or similar for reference management
✅ Teilweise adressiert (22.03.2026)
Semantic Scholar API erfolgreich für Citation Graph Traversal genutzt (Nowak 2008: 110 Zitationen, EvoFlow: 31 Zitationen). 13 neue Papers allein durch Vorwärts-Zitationen gefunden. Noch keine persistente Integration — manuelle API-Calls via web_fetch.
Problem: Keine native Integration mit akademischen Suchsystemen. Wir nutzen WebSearch zum Finden von Papers, was ungenau ist und Citation-Kontext verpasst.
Was uns fehlt:
- Semantic Scholar API — Citation Graph Traversal, verwandte Papers, Author Tracking, Paper Embeddings für Ähnlichkeitssuche
- arXiv API — Direkte Suche, Category Filtering, New-Paper-Monitoring, Bulk-Metadaten-Zugriff
- Google Scholar — Breitere Abdeckung inkl. Bücher, Dissertationen, Patente
- Citation Graph Traversal — „Finde alle Papers, die Nowak 2008 zitieren” oder „Finde Papers, die sowohl von Gao 2025 als auch Wang 2025 zitiert werden”
- PDF Processing Pipeline — Bulk-Download, Textextraktion, Zusammenfassung
- BibTeX/Reference Management — Keine strukturierte Bibliografie, nur Markdown-Listen
Auswirkung: Wir können Papers finden, aber nicht systematisch Citation Chains verfolgen, Research Fronts tracken oder verwandte Arbeiten über strukturelle (nicht keyword-basierte) Ähnlichkeit entdecken.
Mögliche Lösungen:
- Semantic Scholar MCP-Server oder API-Integration
- arXiv API Wrapper (einfache REST Calls via WebFetch)
- Automatisierter Citation Graph Builder (Start bei unseren 20 bekannten Papers, nach außen expandieren)
- Zotero o. ä. für Reference Management
3. Research Monitoring & Alerting (MEDIUM)
⚠️ Gap
No automated arXiv digests, author tracking, or conference monitoring. We react instead of proactively tracking new work.
Problem: research-monitor skill exists but is manual. No automated tracking of new papers on our specific topics.
What we’re missing:
- Automated arXiv digests for keywords: “self-evolving agents”, “quality-diversity”, “evolvable AI”, “multi-agent collaboration”
- Author tracking — New papers from Nowak, Clune, Stanley, Lehman, Mouret
- Conference tracking — NeurIPS, ICML, GECCO, EMNLP, ACL accepted paper lists
- RSS/Atom feeds from key journals and preprint servers
Impact: We react instead of proactively tracking. New relevant work may sit for weeks before we notice it.
Possible solutions:
- arXiv RSS feeds + daily digest via Trigger.dev automation
- Semantic Scholar alerts API
- Manual weekly check schedule (low-tech but effective)
⚠️ Lücke
Keine automatisierten arXiv-Digests, kein Author-Tracking, kein Conference-Monitoring. Wir reagieren statt proaktiv zu tracken.
Problem: Der research-monitor Skill existiert, ist aber manuell. Kein automatisiertes Tracking neuer Papers zu unseren spezifischen Themen.
Was uns fehlt:
- Automatisierte arXiv-Digests für Keywords: “self-evolving agents”, “quality-diversity”, “evolvable AI”, “multi-agent collaboration”
- Author Tracking — Neue Papers von Nowak, Clune, Stanley, Lehman, Mouret
- Conference Tracking — NeurIPS, ICML, GECCO, EMNLP, ACL Accepted-Paper-Listen
- RSS/Atom Feeds von wichtigen Journals und Preprint-Servern
Auswirkung: Wir reagieren statt proaktiv zu tracken. Neue relevante Arbeiten können wochenlang unbemerkt bleiben.
Mögliche Lösungen:
- arXiv RSS Feeds + Daily Digest via Trigger.dev-Automation
- Semantic Scholar Alerts API
- Manueller wöchentlicher Check-Plan (Low-Tech, aber effektiv)
4. Code & Reproducibility (MEDIUM)
✅ Partially Addressed (2026-03-22)
Scanned open-source repos: CoMAS (ICLR 2026, Python, requires 2×A100), Darwin Gödel Machine (Sakana AI, Python+Docker, SWE-bench eval), EvoAgentX (public). EvoFlow has no public repo. No local reproduction yet — hardware requirements exceed our Mac mini.
Problem: Many papers we reference have open-source implementations we’ve never looked at.
What we’re missing:
- GitHub search for paper implementations (PapersWithCode integration)
- Ability to clone, read, and understand reference codebases systematically
- Experiment reproduction — running MAP-Elites, EvoAgentX, or similar locally
- Benchmarking infrastructure — testing our own agent configs against published benchmarks
Known open-source repos:
- EvoAgentX (Wang et al.) — GitHub, Python
- MAP-Elites reference implementations — pyribs, QDax
- MultiAgentBench (Zhu et al.) — likely on GitHub
✅ Teilweise adressiert (22.03.2026)
Open-Source-Repos gescannt: CoMAS (ICLR 2026, Python, braucht 2×A100), Darwin Gödel Machine (Sakana AI, Python+Docker, SWE-bench Eval), EvoAgentX (öffentlich). EvoFlow hat kein öffentliches Repo. Noch keine lokale Reproduktion — Hardware-Anforderungen übersteigen unseren Mac mini.
Problem: Viele Papers, die wir referenzieren, haben Open-Source-Implementierungen, die wir nie angeschaut haben.
Was uns fehlt:
- GitHub-Suche nach Paper-Implementierungen (PapersWithCode Integration)
- Fähigkeit, Referenz-Codebases systematisch zu clonen, lesen und verstehen
- Experiment-Reproduktion — MAP-Elites, EvoAgentX o. ä. lokal ausführen
- Benchmarking-Infrastruktur — eigene Agent-Konfigurationen gegen publizierte Benchmarks testen
Bekannte Open-Source-Repos:
- EvoAgentX (Wang et al.) — GitHub, Python
- MAP-Elites Referenz-Implementierungen — pyribs, QDax
- MultiAgentBench (Zhu et al.) — vermutlich auf GitHub
5. Community & Discourse (LOW)
⚠️ Gap
No Twitter/X academic discourse tracking, no Reddit monitoring, no conference workshop coverage, no lab blog aggregation.
Problem: We research papers but don’t track the communities around them.
What we’re missing:
- Twitter/X academic discourse — Many breakthroughs are discussed informally before formal publication
- Reddit communities — r/MachineLearning, r/reinforcementlearning
- Conference workshops — Often more cutting-edge than main proceedings
- Lab websites & blogs — Uber AI (now OpenAI), DeepMind, Anthropic research blogs
⚠️ Lücke
Kein Twitter/X-Diskurs-Tracking, kein Reddit-Monitoring, keine Conference-Workshop-Abdeckung, keine Lab-Blog-Aggregation.
Problem: Wir recherchieren Papers, aber tracken nicht die Communities dahinter.
Was uns fehlt:
- Twitter/X akademischer Diskurs — Viele Durchbrüche werden informell diskutiert, bevor sie formal publiziert werden
- Reddit Communities — r/MachineLearning, r/reinforcementlearning
- Conference Workshops — Oft innovativer als die Hauptkonferenz-Proceedings
- Lab-Websites & Blogs — Uber AI (jetzt OpenAI), DeepMind, Anthropic Research Blogs
Toolkit PrioritiesWerkzeugkasten-Prioritäten
Immediately Feasible (This Week)Sofort machbar (diese Woche)
- Semantic Scholar via WebFetch — REST API, no auth needed for basic queries, gives us citation graphs immediately
- arXiv via WebFetch — Simple API, gives us search + metadata + PDF links
- Translation-aware search — Use WebSearch with explicit Chinese/Japanese query terms for key topics
- Semantic Scholar via WebFetch — REST API, keine Auth für Basis-Queries nötig, liefert sofort Citation Graphs
- arXiv via WebFetch — Einfache API, liefert Suche + Metadaten + PDF-Links
- Translation-aware Search — WebSearch mit expliziten chinesischen/japanischen Query-Begriffen für Kernthemen nutzen
Short-Term (This Month)Kurzfristig (diesen Monat)
- Semantic Scholar MCP server — Structured tool for citation traversal
- arXiv monitoring — Weekly automated search for new papers on our topics
- PapersWithCode — Cross-reference our papers with available implementations
- Semantic Scholar MCP-Server — Strukturiertes Tool für Citation Traversal
- arXiv-Monitoring — Wöchentliche automatisierte Suche nach neuen Papers zu unseren Themen
- PapersWithCode — Unsere Papers mit verfügbaren Implementierungen abgleichen
Mid-Term (Q2 2026)Mittelfristig (Q2 2026)
- Multi-lingual search wrapper — Systematic CJK research pipeline
- Reference management — BibTeX/Zotero integration
- Benchmark runner — Local experiments with QD algorithms, agent evolution
- Multi-lingual Search Wrapper — Systematische CJK-Research-Pipeline
- Reference Management — BibTeX/Zotero-Integration
- Benchmark Runner — Lokale Experimente mit QD-Algorithmen, Agent Evolution
Next ActionNächste Aktion
Section Summary
Immediate next step: Use Semantic Scholar + arXiv to build citation graphs from our core papers (Nowak 2008, Gao 2025, Wang 2025), discover missing work, and identify CJK labs at the intersection.
Start with Semantic Scholar + arXiv queries for our core papers to:
- Build citation graph outward from Nowak 2008, Gao 2025, Wang 2025
- Find papers we’re missing (especially post-2024 work on self-evolving agents)
- Identify Chinese/Japanese labs working on this intersection
Abschnitt-Zusammenfassung
Nächster Schritt: Semantic Scholar + arXiv nutzen, um Citation Graphs aus unseren Kern-Papers aufzubauen (Nowak 2008, Gao 2025, Wang 2025), fehlende Arbeiten entdecken und CJK-Labs an der Schnittstelle identifizieren.
Mit Semantic Scholar + arXiv Queries für unsere Kern-Papers starten, um:
- Citation Graph ausgehend von Nowak 2008, Gao 2025, Wang 2025 aufzubauen
- Papers zu finden, die wir verpassen (besonders Post-2024-Arbeiten zu Self-Evolving Agents)
- Chinesische/japanische Labs identifizieren, die an dieser Schnittstelle arbeiten