01 Zakres zadań
Zakres obowiązków:
- Projektowanie promptów odpornych na halucynacje; separacja trusted/untrusted danych
- Modularne prompty: role, instrukcje, constraints, output schema; reużywalność, parametryzacja, wersjonowanie
- System promptów dla agentów z dostępem do narzędzi; precyzyjne opisy narzędzi (tool descriptions)
- Projektowanie outputów zgodnych z downstream: JSON, schematy decyzyjne, tabele, walidowalne struktury
- Orkiestracja multi-agent: wzorce supervisor/worker, specjalizacja agentów
- Zarządzanie kontekstem w długich trajektoriach: kompresja, podsumowania, strategie pamięci
- Prompty dla RAG: wzorce cytowania, grounding na źródłach, obsługa "brak danych"
- Projekt strategii retrievalu i kompresji kontekstu pod use case
- Budowa golden datasets i eval setów dla promptów i trajektorii agentowych
- Definicja i mierzenie metryk: jakość odpowiedzi, task success rate, tool-call accuracy, jakość trajektorii, stabilność, koszt, czas
- LLM-as-a-judge: stosowanie z uwzględnieniem ograniczeń i bias
- Regression testing przy zmianach promptów/modeli/API; udział w UAT
- Praca z Braintrust, LangSmith, Langfuse, Promptfoo lub własnymi harnessami ewaluacyjnymi
- Identyfikacja i mitigacja ryzyk: prompt injection, data exfiltration przez tool use, jailbreaks, ujawnienie danych
