comet-ml
diff --git a/‎apps/opik-backend/config.yml‎
Lines changed: 0 additions & 3 deletions b/‎apps/opik-backend/config.yml‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎apps/opik-backend/src/main/java/com/comet/opik/api/resources/v1/events/EvalSuiteAssertionSampler.java‎
Lines changed: 42 additions & 6 deletions b/‎apps/opik-backend/src/main/java/com/comet/opik/api/resources/v1/events/EvalSuiteAssertionSampler.java‎
Lines changed: 42 additions & 6 deletions
diff --git a/‎apps/opik-backend/src/main/java/com/comet/opik/api/resources/v1/events/EvalSuiteEvaluatorMapper.java‎
Lines changed: 14 additions & 22 deletions b/‎apps/opik-backend/src/main/java/com/comet/opik/api/resources/v1/events/EvalSuiteEvaluatorMapper.java‎
Lines changed: 14 additions & 22 deletions
diff --git a/‎apps/opik-backend/src/main/java/com/comet/opik/api/resources/v1/events/SupportedJudgeProvider.java‎
Lines changed: 41 additions & 0 deletions b/‎apps/opik-backend/src/main/java/com/comet/opik/api/resources/v1/events/SupportedJudgeProvider.java‎
Lines changed: 41 additions & 0 deletions
diff --git a/‎apps/opik-backend/src/main/java/com/comet/opik/domain/ExperimentTracePersistence.java‎
Lines changed: 1 addition & 0 deletions b/‎apps/opik-backend/src/main/java/com/comet/opik/domain/ExperimentTracePersistence.java‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎apps/opik-backend/src/main/java/com/comet/opik/infrastructure/EvalSuiteConfig.java‎
Lines changed: 0 additions & 4 deletions b/‎apps/opik-backend/src/main/java/com/comet/opik/infrastructure/EvalSuiteConfig.java‎
Lines changed: 0 additions & 4 deletions
@@ -595,9 +595,6 @@ onlineScoring:
 
 # Configuration for Evaluation Suite assertions
 evalSuite:
-  # Default: gpt-5-nano
-  # Description: Default LLM model used for eval suite assertions when the evaluator config has no model specified
-  defaultModelName: ${EVAL_SUITE_DEFAULT_MODEL_NAME:-gpt-5-nano}
   # Default: 1
   # Description: Number of LLM runs per dataset item during eval suite execution
   defaultRunsPerItem: ${EVAL_SUITE_DEFAULT_RUNS_PER_ITEM:-1}
 
@@ -2,7 +2,9 @@
 
 import com.comet.opik.api.DatasetVersion;
 import com.comet.opik.api.EvaluatorItem;
+import com.comet.opik.api.LlmProvider;
 import com.comet.opik.api.PromptType;
+import com.comet.opik.api.ProviderApiKey;
 import com.comet.opik.api.Trace;
 import com.comet.opik.api.evaluators.AutomationRuleEvaluatorType;
 import com.comet.opik.api.events.TraceToScoreLlmAsJudge;
@@ -11,6 +13,7 @@
 import com.comet.opik.domain.DatasetItemService;
 import com.comet.opik.domain.DatasetVersionService;
 import com.comet.opik.domain.IdGenerator;
+import com.comet.opik.domain.LlmProviderApiKeyService;
 import com.comet.opik.domain.evaluators.OnlineScorePublisher;
 import com.comet.opik.infrastructure.EvalSuiteConfig;
 import com.comet.opik.infrastructure.auth.RequestContext;
@@ -21,6 +24,7 @@
 import lombok.extern.slf4j.Slf4j;
 import reactor.core.publisher.Mono;
 import reactor.core.scheduler.Schedulers;
+import reactor.util.context.Context;
 import ru.vyarus.dropwizard.guice.module.installer.feature.eager.EagerSingleton;
 import ru.vyarus.dropwizard.guice.module.yaml.bind.Config;
 
@@ -30,7 +34,9 @@
 import java.util.List;
 import java.util.Map;
 import java.util.Optional;
+import java.util.Set;
 import java.util.UUID;
+import java.util.stream.Collectors;
 import java.util.stream.Stream;
 
 /**
@@ -56,6 +62,7 @@ public class EvalSuiteAssertionSampler {
     private final IdGenerator idGenerator;
     private final EvalSuiteConfig evalSuiteConfig;
     private final EvalSuiteEvaluatorMapper evaluatorMapper;
+    private final LlmProviderApiKeyService llmProviderApiKeyService;
 
     @Inject
     public EvalSuiteAssertionSampler(
@@ -64,13 +71,15 @@ public EvalSuiteAssertionSampler(
             @NonNull OnlineScorePublisher onlineScorePublisher,
             @NonNull IdGenerator idGenerator,
             @NonNull @Config("evalSuite") EvalSuiteConfig evalSuiteConfig,
-            @NonNull EvalSuiteEvaluatorMapper evaluatorMapper) {
+            @NonNull EvalSuiteEvaluatorMapper evaluatorMapper,
+            @NonNull LlmProviderApiKeyService llmProviderApiKeyService) {
         this.datasetItemService = datasetItemService;
         this.datasetVersionService = datasetVersionService;
         this.onlineScorePublisher = onlineScorePublisher;
         this.idGenerator = idGenerator;
         this.evalSuiteConfig = evalSuiteConfig;
         this.evaluatorMapper = evaluatorMapper;
+        this.llmProviderApiKeyService = llmProviderApiKeyService;
     }
 
     @Subscribe
@@ -83,13 +92,26 @@ public void onTracesCreated(TracesCreated tracesBatch) {
             return;
         }
 
-        var reactiveContext = reactor.util.context.Context.of(
+        var reactiveContext = Context.of(
                 RequestContext.WORKSPACE_ID, tracesBatch.workspaceId(),
                 RequestContext.USER_NAME, tracesBatch.userName(),
                 RequestContext.VISIBILITY, com.comet.opik.api.Visibility.PRIVATE);
 
         Duration fetchTimeout = Duration.ofSeconds(evalSuiteConfig.getFetchTimeoutSeconds());
 
+        // Resolve model once per batch: prefer connected provider, fall back to first trace's model
+        var connectedProviders = getConnectedProviders(tracesBatch.workspaceId());
+        String modelName = SupportedJudgeProvider.resolveModel(connectedProviders)
+                .or(() -> getMetadataString(completeTraces.getFirst(), "eval_suite_model"))
+                .orElse(null);
+
+        if (modelName == null) {
+            log.warn("No LLM model resolved for eval suite batch in workspace '{}' — "
+                    + "no supported provider connected and no eval_suite_model in trace metadata",
+                    tracesBatch.workspaceId());
+            return;
+        }
+
         // Cache dataset evaluators by (datasetId:versionHash) to avoid redundant fetches
         Map<String, List<PreparedEvaluator>> datasetEvaluatorsCache = new HashMap<>();
 
@@ -120,7 +142,7 @@ public void onTracesCreated(TracesCreated tracesBatch) {
                                 .contextWrite(reactiveContext)
                                 .timeout(fetchTimeout)
                                 .block();
-                        return evaluatorMapper.prepareEvaluators(result.evaluators());
+                        return evaluatorMapper.prepareEvaluators(result.evaluators(), modelName);
                     });
 
                     var datasetItemId = getMetadataString(trace, "eval_suite_dataset_item_id");
@@ -134,7 +156,8 @@ public void onTracesCreated(TracesCreated tracesBatch) {
                             .flatMap(itemId -> {
                                 List<PreparedEvaluator> allEvaluators = new ArrayList<>(
                                         preparedDatasetEvaluators);
-                                allEvaluators.addAll(fetchItemEvaluators(itemId, reactiveContext));
+                                allEvaluators.addAll(fetchItemEvaluators(itemId, reactiveContext,
+                                        modelName));
 
                                 if (allEvaluators.isEmpty()) {
                                     log.debug("No evaluators found for trace '{}', dataset item '{}'",
@@ -191,7 +214,8 @@ private Mono<DatasetEvaluatorsResult> fetchDatasetEvaluators(UUID datasetId, Str
     }
 
     private List<PreparedEvaluator> fetchItemEvaluators(
-            UUID itemId, reactor.util.context.Context reactiveContext) {
+            UUID itemId, Context reactiveContext,
+            String modelName) {
         try {
             var item = datasetItemService.get(itemId)
                     .contextWrite(reactiveContext)
@@ -202,7 +226,7 @@ private List<PreparedEvaluator> fetchItemEvaluators(
                 return List.of();
             }
 
-            return evaluatorMapper.prepareEvaluators(item.evaluators());
+            return evaluatorMapper.prepareEvaluators(item.evaluators(), modelName);
         } catch (Exception e) {
             log.error("Failed to fetch evaluators for item '{}'", itemId, e);
             return List.of();
@@ -230,4 +254,16 @@ private Optional<UUID> parseUUID(String id, UUID traceId) {
         }
     }
 
+    private Set<LlmProvider> getConnectedProviders(String workspaceId) {
+        try {
+            return llmProviderApiKeyService.find(workspaceId)
+                    .content().stream()
+                    .map(ProviderApiKey::provider)
+                    .collect(Collectors.toSet());
+        } catch (Exception e) {
+            log.error("Failed to fetch connected providers for workspace '{}'", workspaceId, e);
+            return Set.of();
+        }
+    }
+
 }
@@ -15,13 +15,11 @@
 import jakarta.inject.Singleton;
 import lombok.NonNull;
 import lombok.extern.slf4j.Slf4j;
-import org.apache.commons.lang3.StringUtils;
 
 import java.util.ArrayList;
 import java.util.HashMap;
 import java.util.List;
 import java.util.Map;
-import java.util.Optional;
 import java.util.stream.Collectors;
 import java.util.stream.Stream;
 
@@ -54,7 +52,8 @@ public int getEffectiveRunsPerItem(ExecutionPolicy itemPolicy, ExecutionPolicy v
         return evalSuiteConfig.getDefaultRunsPerItem();
     }
 
-    public List<PreparedEvaluator> prepareEvaluators(List<EvaluatorItem> evaluators) {
+    public List<PreparedEvaluator> prepareEvaluators(List<EvaluatorItem> evaluators,
+            String modelName) {
         return evaluators.stream()
                 .filter(evaluator -> {
                     if (evaluator.type() != EvaluatorType.LLM_JUDGE) {
@@ -66,7 +65,7 @@ public List<PreparedEvaluator> prepareEvaluators(List<EvaluatorItem> evaluators)
                 })
                 .flatMap(evaluator -> {
                     try {
-                        LlmAsJudgeCode code = toScoringCode(evaluator.config());
+                        LlmAsJudgeCode code = toScoringCode(evaluator.config(), modelName);
 
                         Map<String, String> scoreNameMapping = code.schema() != null
                                 ? code.schema().stream()
@@ -84,16 +83,22 @@ public List<PreparedEvaluator> prepareEvaluators(List<EvaluatorItem> evaluators)
                 .toList();
     }
 
-    LlmAsJudgeCode toScoringCode(JsonNode config) {
-        LlmAsJudgeCode code = deserializeEvaluatorConfig(config);
-        code = resolveModelName(code);
+    LlmAsJudgeCode toScoringCode(JsonNode config, String modelName) {
+        LlmAsJudgeCode code = deserializeScoringCode(config, modelName);
         code = renameSchemaToAssertionKeys(code);
         code = applyEvalSuitePrompt(code);
         return code;
     }
 
-    private LlmAsJudgeCode deserializeEvaluatorConfig(JsonNode config) {
-        return JsonUtils.treeToValue(config, LlmAsJudgeCode.class);
+    private LlmAsJudgeCode deserializeScoringCode(JsonNode config, String modelName) {
+        var code = JsonUtils.treeToValue(config, LlmAsJudgeCode.class);
+        var existingModel = code.model();
+        var model = (existingModel != null ? existingModel.toBuilder() : LlmAsJudgeModelParameters.builder())
+                .name(modelName)
+                .build();
+        return code.toBuilder()
+                .model(model)
+                .build();
     }
 
     /**
@@ -160,17 +165,4 @@ private String formatAssertions(List<LlmAsJudgeOutputSchema> schema) {
                 .collect(Collectors.joining("\n"));
     }
 
-    private LlmAsJudgeCode resolveModelName(LlmAsJudgeCode code) {
-        var existingModel = Optional.ofNullable(code.model());
-        if (existingModel.map(LlmAsJudgeModelParameters::name).filter(StringUtils::isNotBlank).isEmpty()) {
-            var resolvedModel = LlmAsJudgeModelParameters.builder()
-                    .name(evalSuiteConfig.getDefaultModelName())
-                    .temperature(existingModel.map(LlmAsJudgeModelParameters::temperature).orElse(null))
-                    .seed(existingModel.map(LlmAsJudgeModelParameters::seed).orElse(null))
-                    .customParameters(existingModel.map(LlmAsJudgeModelParameters::customParameters).orElse(null))
-                    .build();
-            return new LlmAsJudgeCode(resolvedModel, code.messages(), code.variables(), code.schema());
-        }
-        return code;
-    }
 }
@@ -0,0 +1,41 @@
+package com.comet.opik.api.resources.v1.events;
+
+import com.comet.opik.api.LlmProvider;
+import com.comet.opik.infrastructure.llm.antropic.AnthropicModelName;
+import com.comet.opik.infrastructure.llm.gemini.GeminiModelName;
+import com.comet.opik.infrastructure.llm.openai.OpenaiModelName;
+import com.comet.opik.infrastructure.llm.vertexai.VertexAIModelName;
+
+import java.util.Arrays;
+import java.util.Optional;
+import java.util.Set;
+
+/**
+ * Supported providers for eval suite LLM-as-judge assertions, ordered by priority.
+ * First connected provider wins.
+ */
+enum SupportedJudgeProvider {
+    OPEN_AI(LlmProvider.OPEN_AI, OpenaiModelName.GPT_5_NANO.toString()),
+    ANTHROPIC(LlmProvider.ANTHROPIC, AnthropicModelName.CLAUDE_HAIKU_4_5.toString()),
+    GEMINI(LlmProvider.GEMINI, GeminiModelName.GEMINI_2_0_FLASH.toString()),
+    VERTEX_AI(LlmProvider.VERTEX_AI, VertexAIModelName.GEMINI_2_5_FLASH.qualifiedName());
+
+    private final LlmProvider provider;
+    private final String model;
+
+    SupportedJudgeProvider(LlmProvider provider, String model) {
+        this.provider = provider;
+        this.model = model;
+    }
+
+    /**
+     * Resolves the LLM model for eval suite assertions based on connected providers.
+     * Returns the model for the highest-priority connected provider, or empty if none match.
+     */
+    static Optional<String> resolveModel(Set<LlmProvider> connectedProviders) {
+        return Arrays.stream(values())
+                .filter(judge -> connectedProviders.contains(judge.provider))
+                .findFirst()
+                .map(judge -> judge.model);
+    }
+}
@@ -71,6 +71,7 @@ private Mono<Void> createTrace(PersistenceContext ctx, ObjectNode input, ObjectN
             metadata.put("eval_suite_dataset_version_hash", ctx.versionHash());
         }
         metadata.put("eval_suite_dataset_item_id", ctx.datasetItemId().toString());
+        metadata.put("eval_suite_model", ctx.prompt().model());
 
         var traceBuilder = Trace.builder()
                 .id(ctx.traceId())
 
@@ -3,15 +3,11 @@
 import com.fasterxml.jackson.annotation.JsonProperty;
 import jakarta.validation.Valid;
 import jakarta.validation.constraints.Min;
-import jakarta.validation.constraints.NotBlank;
 import lombok.Data;
 
 @Data
 public class EvalSuiteConfig {
 
-    @Valid @NotBlank @JsonProperty
-    private String defaultModelName = "gpt-5-nano";
-
     @Valid @Min(1) @JsonProperty
     private int defaultRunsPerItem = 1;
Original file line number	Diff line number	Diff line change
`@@ -71,6 +71,7 @@ private Mono<Void> createTrace(PersistenceContext ctx, ObjectNode input, ObjectN`
`71`	`71`	`metadata.put("eval_suite_dataset_version_hash", ctx.versionHash());`
`72`	`72`	`}`
`73`	`73`	`metadata.put("eval_suite_dataset_item_id", ctx.datasetItemId().toString());`
	`74`	`+ metadata.put("eval_suite_model", ctx.prompt().model());`
`74`	`75`
`75`	`76`	`var traceBuilder = Trace.builder()`
`76`	`77`	`.id(ctx.traceId())`