[OPIK-5845] [BE] fix: fix dataset expansion for test suites and all LLM providers (#6277)

itamargolan · claude · web-flow · commit 2e7423a727d4 · 2026-04-15T12:02:12.000-03:00
* [OPIK-5845] [BE] fix: fix dataset expansion for test suites and all LLM providers - Add maxCompletionTokens (4000) to expansion requests, fixing Anthropic models that require this field - Re-throw ClientErrorException/ServerErrorException with original messages instead of wrapping in generic BadRequestException - Skip _generated/_generation_model metadata for test suite expansions so synthetic fields don't pollute data passed to agents in local runner scenarios Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> * refactor(expansion): use proper HTTP status codes for error handling - Catch BadRequestException separately to preserve validation errors - Rethrow ClientErrorException/ServerErrorException from LLM providers - Use InternalServerErrorException for unexpected failures instead of mapping everything to 400 BadRequest - Use generic message for 500s, log full details server-side Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> * fix(expansion): address PR review comments - Use lighter getById() instead of findById() to avoid unnecessary dataset enrichment when only the type is needed - Extract buildDatasetItem() to DRY the duplicated item construction - Make maxCompletionTokens provider-aware: only set for Anthropic by default (4000), skip for other providers to avoid impacting results - Allow users to override maxCompletionTokens via the API request - Inject LlmProviderFactory to resolve provider from model name Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> * test(expansion): add unit tests and @min validation for maxCompletionTokens Add DatasetExpansionServiceTest covering maxCompletionTokens resolution, dataset item building (metadata for regular vs test suite), and error handling. Add @min(100) validation on maxCompletionTokens field. Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com> --------- Co-authored-by: Claude Opus 4.6 <noreply@anthropic.com>
diff --git a/apps/opik-backend/src/main/java/com/comet/opik/api/DatasetExpansion.java b/apps/opik-backend/src/main/java/com/comet/opik/api/DatasetExpansion.java
@@ -25,7 +25,9 @@ public record DatasetExpansion(
         @JsonView({
                 DatasetExpansion.View.Write.class}) @Schema(description = "Additional instructions for data variation", example = "Create variations that test edge cases") String variationInstructions,
         @JsonView({
-                DatasetExpansion.View.Write.class}) @Schema(description = "Custom prompt to use for generation instead of auto-generated one") String customPrompt){
+                DatasetExpansion.View.Write.class}) @Schema(description = "Custom prompt to use for generation instead of auto-generated one") String customPrompt,
+        @JsonView({
+                DatasetExpansion.View.Write.class}) @Min(100) @Schema(description = "Maximum number of tokens for the LLM response. Required by Anthropic, used as maxOutputTokens for Gemini. If not provided, defaults to 4000 for Anthropic models only.") Integer maxCompletionTokens){
 
     public static class View {
         public static class Write {
diff --git a/apps/opik-backend/src/main/java/com/comet/opik/domain/DatasetExpansionService.java b/apps/opik-backend/src/main/java/com/comet/opik/domain/DatasetExpansionService.java
@@ -3,7 +3,10 @@
 import com.comet.opik.api.DatasetExpansion;
 import com.comet.opik.api.DatasetExpansionResponse;
 import com.comet.opik.api.DatasetItem;
+import com.comet.opik.api.DatasetType;
+import com.comet.opik.api.LlmProvider;
 import com.comet.opik.domain.llm.ChatCompletionService;
+import com.comet.opik.domain.llm.LlmProviderFactory;
 import com.comet.opik.infrastructure.auth.RequestContext;
 import com.comet.opik.utils.AsyncUtils;
 import com.comet.opik.utils.JsonUtils;
@@ -15,6 +18,9 @@
 import jakarta.inject.Provider;
 import jakarta.inject.Singleton;
 import jakarta.ws.rs.BadRequestException;
+import jakarta.ws.rs.ClientErrorException;
+import jakarta.ws.rs.InternalServerErrorException;
+import jakarta.ws.rs.ServerErrorException;
 import lombok.NonNull;
 import lombok.RequiredArgsConstructor;
 import lombok.extern.slf4j.Slf4j;
@@ -33,8 +39,12 @@
 @RequiredArgsConstructor(onConstructor_ = @Inject)
 public class DatasetExpansionService {
 
+    private static final int DEFAULT_MAX_COMPLETION_TOKENS = 4000;
+
     private final @NonNull ChatCompletionService chatCompletionService;
+    private final @NonNull LlmProviderFactory llmProviderFactory;
     private final @NonNull DatasetItemService datasetItemService;
+    private final @NonNull DatasetService datasetService;
     private final @NonNull Provider<RequestContext> requestContext;
     private final @NonNull ObjectMapper objectMapper;
     private final @NonNull IdGenerator idGenerator;
@@ -60,12 +70,17 @@ public DatasetExpansionResponse expandDataset(@NonNull UUID datasetId, @NonNull
             throw new BadRequestException("Cannot expand empty dataset. Add at least one sample first");
         }
 
+        var datasetType = datasetService.getById(datasetId, workspaceId)
+                .orElseThrow(() -> new BadRequestException("Dataset not found"))
+                .type();
+
         // Use custom prompt if provided, otherwise build default prompt
         var generationPrompt = StringUtils.isNotBlank(request.customPrompt())
                 ? request.customPrompt().trim()
                 : buildGenerationPrompt(existingItems.content(), request);
         // Generate samples using LLM with batch processing for large requests
-        var generatedSamples = generateSamplesInBatches(generationPrompt, request, datasetId, workspaceId);
+        var generatedSamples = generateSamplesInBatches(generationPrompt, request, datasetId, workspaceId,
+                datasetType);
         log.info("Finished dataset expansion for datasetId '{}', workspaceId '{}', total samples '{}'",
                 datasetId, workspaceId, generatedSamples.size());
         return DatasetExpansionResponse.builder()
@@ -122,8 +137,10 @@ private String buildGenerationPrompt(List<DatasetItem> existingItems, DatasetExp
     }
 
     private List<DatasetItem> generateSamplesInBatches(
-            String basePrompt, DatasetExpansion request, UUID datasetId, String workspaceId) {
+            String basePrompt, DatasetExpansion request, UUID datasetId, String workspaceId,
+            DatasetType datasetType) {
         var allSamples = new ArrayList<DatasetItem>();
+        var maxCompletionTokens = resolveMaxCompletionTokens(request);
         var totalSamples = request.sampleCount();
         var batchSize = Math.min(20, totalSamples); // Process in batches of up to 20
         var remainingSamples = totalSamples;
@@ -162,7 +179,7 @@ private List<DatasetItem> generateSamplesInBatches(
                             .preserveFields(request.preserveFields())
                             .variationInstructions(request.variationInstructions())
                             .build(),
-                    datasetId, workspaceId);
+                    datasetId, workspaceId, datasetType, maxCompletionTokens);
 
             allSamples.addAll(batchSamples);
             remainingSamples -= currentBatchSize;
@@ -173,15 +190,20 @@ private List<DatasetItem> generateSamplesInBatches(
     }
 
     private List<DatasetItem> generateSamples(
-            String prompt, DatasetExpansion request, UUID datasetId, String workspaceId) {
+            String prompt, DatasetExpansion request, UUID datasetId, String workspaceId,
+            DatasetType datasetType, Integer maxCompletionTokens) {
         try {
-            // Create chat completion request, request should handle most models including reasoning models like GPT-5, Sonnet, etc.
-            var chatRequest = ChatCompletionRequest.builder()
+            var builder = ChatCompletionRequest.builder()
                     .model(request.model())
                     .addUserMessage(prompt)
-                    .temperature(1.0) // Set temperature to 1.0 for consistent output
-                    .stream(false) // Non-streaming request for dataset expansion
-                    .build();
+                    .temperature(1.0)
+                    .stream(false);
+
+            if (maxCompletionTokens != null) {
+                builder.maxCompletionTokens(maxCompletionTokens);
+            }
+
+            var chatRequest = builder.build();
 
             // Call LLM
             var response = chatCompletionService.create(chatRequest, workspaceId);
@@ -191,22 +213,38 @@ private List<DatasetItem> generateSamples(
 
             // Parse the JSON response
             var parsedSamples = parseGeneratedSamples(
-                    generatedContent, datasetId, request.model(), request.sampleCount());
+                    generatedContent, datasetId, request.model(), request.sampleCount(), datasetType);
             log.debug("Parsed '{}' samples from LLM response", parsedSamples.size());
             return parsedSamples;
 
+        } catch (BadRequestException exception) {
+            log.error("Validation error during sample generation", exception);
+            throw exception;
+        } catch (ClientErrorException | ServerErrorException exception) {
+            log.error("LLM service error during sample generation", exception);
+            throw exception;
         } catch (Exception exception) {
             log.error("Failed to generate samples using LLM", exception);
-            // If it's already a RuntimeException with a detailed message, preserve it
-            if (exception instanceof BadRequestException && exception.getMessage().contains("AI model")) {
-                throw exception;
-            }
-            throw new BadRequestException("Failed to generate synthetic samples", exception);
+            throw new InternalServerErrorException("Failed to generate synthetic samples", exception);
         }
     }
 
+    private Integer resolveMaxCompletionTokens(DatasetExpansion request) {
+        if (request.maxCompletionTokens() != null) {
+            return request.maxCompletionTokens();
+        }
+
+        var provider = llmProviderFactory.getLlmProvider(request.model());
+        if (provider == LlmProvider.ANTHROPIC) {
+            return DEFAULT_MAX_COMPLETION_TOKENS;
+        }
+
+        return null;
+    }
+
     private List<DatasetItem> parseGeneratedSamples(
-            String generatedContent, UUID datasetId, String model, int requestedSampleCount) {
+            String generatedContent, UUID datasetId, String model, int requestedSampleCount,
+            DatasetType datasetType) {
         try {
             // Clean the response - sometimes LLMs add markdown formatting
             String cleanedContent = generatedContent.trim();
@@ -241,46 +279,12 @@ private List<DatasetItem> parseGeneratedSamples(
             if (rootNode.isArray()) {
                 for (var sampleNode : rootNode) {
                     if (sampleNode.isObject()) {
-                        var dataNode = (ObjectNode) sampleNode;
-
-                        // Add metadata to indicate this is synthetic
-                        dataNode.put("_generated", true);
-                        dataNode.put("_generation_model", model);
-
-                        // Convert to Map for DatasetItem
-                        Map<String, JsonNode> dataMap = objectMapper.convertValue(dataNode,
-                                objectMapper.getTypeFactory().constructMapType(Map.class, String.class,
-                                        JsonNode.class));
-
-                        var sample = DatasetItem.builder()
-                                .id(idGenerator.generateId())
-                                .datasetId(datasetId)
-                                .data(dataMap)
-                                .source(com.comet.opik.api.DatasetItemSource.MANUAL)
-                                .build();
-
-                        samples.add(sample);
+                        samples.add(buildDatasetItem((ObjectNode) sampleNode, datasetId, model, datasetType));
                     }
                 }
             } else if (rootNode.isObject()) {
-                // Handle case where LLM returns a single object instead of array
                 log.warn("LLM returned single object instead of array, wrapping in array");
-                var dataNode = (ObjectNode) rootNode;
-                dataNode.put("_generated", true);
-                dataNode.put("_generation_model", model);
-
-                Map<String, JsonNode> dataMap = objectMapper.convertValue(dataNode,
-                        objectMapper.getTypeFactory().constructMapType(Map.class, String.class,
-                                JsonNode.class));
-
-                var sample = DatasetItem.builder()
-                        .id(idGenerator.generateId())
-                        .datasetId(datasetId)
-                        .data(dataMap)
-                        .source(com.comet.opik.api.DatasetItemSource.MANUAL)
-                        .build();
-
-                samples.add(sample);
+                samples.add(buildDatasetItem((ObjectNode) rootNode, datasetId, model, datasetType));
             } else {
                 throw new BadRequestException(
                         "Expected JSON array or object, but got: '%s'".formatted(rootNode.getNodeType()));
@@ -314,6 +318,24 @@ private List<DatasetItem> parseGeneratedSamples(
         }
     }
 
+    private DatasetItem buildDatasetItem(ObjectNode dataNode, UUID datasetId, String model,
+            DatasetType datasetType) {
+        if (datasetType != DatasetType.TEST_SUITE) {
+            dataNode.put("_generated", true);
+            dataNode.put("_generation_model", model);
+        }
+
+        Map<String, JsonNode> dataMap = objectMapper.convertValue(dataNode,
+                objectMapper.getTypeFactory().constructMapType(Map.class, String.class, JsonNode.class));
+
+        return DatasetItem.builder()
+                .id(idGenerator.generateId())
+                .datasetId(datasetId)
+                .data(dataMap)
+                .source(com.comet.opik.api.DatasetItemSource.MANUAL)
+                .build();
+    }
+
     private String buildUserFriendlyErrorMessage(Exception e, String generatedContent) {
         // Check the type of error and provide specific guidance
         if (e instanceof com.fasterxml.jackson.core.JsonParseException) {
diff --git a/apps/opik-backend/src/test/java/com/comet/opik/domain/DatasetExpansionServiceTest.java b/apps/opik-backend/src/test/java/com/comet/opik/domain/DatasetExpansionServiceTest.java