일괄적으로 여러 프롬프트 실행

참고

일괄 실행은 이전에 AI Toolkit에서 독립적인 웹뷰 기능이었습니다. 이제 Agent Builder의 Evaluation 탭 아래로 완전히 통합되었습니다. TOOLS > Bulk Run을 선택하여 AI Toolkit 보기에서도 계속 액세스할 수 있습니다.

AI Toolkit의 일괄 실행 기능을 사용하면 여러 테스트 케이스에 대해 에이전트와 프롬프트를 배치 모드로 테스트할 수 있습니다. 한 번에 하나의 프롬프트를 실행하는 플레이그라운드와 달리, 일괄 실행은 데이터셋을 입력으로 사용하고 모든 프롬프트를 순차적으로 실행하여 프로세스를 자동화합니다.

실행 후 AI 응답은 원래 프롬프트 옆의 데이터셋 보기에서 나타납니다. 응답이 포함된 전체 데이터셋을 검토, 비교 및 내보내 추가 분석할 수 있습니다.

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

일괄 실행 시작

AI Toolkit에서 일괄 실행을 시작하려면 다음 단계를 따르세요.

AI Toolkit 보기에서 Activity Bar에서 Agent Builder를 선택합니다.
형식을 사용하여 프롬프트와 변수를 입력합니다. 프롬프트를 실행할 모델을 선택합니다.
Agent Builder에서 Evaluation 탭으로 전환합니다.

참고

AI Toolkit은 에이전트에 사용하는 것과 동일한 LLM 모델을 사용하여 데이터셋을 생성하며, 이로 인해 비용이 발생할 수 있습니다. 데이터셋 생성에 사용된 메타 프롬프트는 AI Toolkit GitHub 리포지토리에서 확인할 수 있습니다.

Generate Data를 선택하여 합성 데이터셋을 생성합니다.
생성할 행 수를 선택하고 데이터 생성 로직을 보거나 수정합니다.
Generate를 선택하여 데이터셋을 생성합니다.

팁

아직 실행되지 않은 나머지 쿼만 실행하도록 선택할 수 있습니다.

데이터셋이 로드되면 Run을 선택하여 단일 행을 실행하거나 Run All을 선택하여 데이터셋의 모든 행을 실행합니다.

데이터셋 작업

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI Toolkit은 일괄 실행 중에 데이터셋을 관리하고 분석하기 위한 여러 작업을 제공합니다.

Generate Data: 프롬프트와 변수를 기반으로 합성 데이터셋을 생성합니다. 행 수를 지정하고 데이터 생성 로직을 수정합니다.
Add Row: 데이터셋에 새 행을 추가합니다.
Delete Row: 선택한 행을 데이터셋에서 삭제합니다.
Export Dataset: 추가 분석 또는 보고를 위해 데이터셋을 CSV 파일로 내보냅니다.
Import Dataset: CSV 파일에서 데이터셋을 가져와 일괄 실행의 입력으로 사용합니다.
Run: 선택한 모델에 대해 데이터셋의 단일 행을 실행합니다.
Run All: 선택한 모델에 대해 데이터셋의 모든 행을 실행합니다.
Run Remaining: 선택한 모델에 대해 아직 실행되지 않은 행만 실행합니다.
Manual Evaluation: 응답을 엄지 위 또는 엄지 아래로 표시하여 수동 평가 기록을 유지합니다.

일괄 실행 결과 평가

AI Toolkit을 사용하면 데이터셋 보기에서 일괄 실행 결과를 직접 평가할 수 있습니다.

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

Evaluation 탭을 전체 화면 모드로 확장하여 결과를 더 자세히 볼 수 있습니다. 전체 화면 모드는 표준 보기와 동일한 기능을 제공하지만, 더 나은 가시성과 분석을 위해 더 큰 표시 영역을 제공합니다.

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

각 쿼에 대한 전체 응답을 보려면 View Details를 선택합니다.

세부 정보 보기에서는 다음을 수행할 수 있습니다.

사용자와 어시스턴트 간의 전체 대화를 검토합니다.
AI의 응답을 분석합니다.
응답을 좋음 또는 나쁨으로 표시하여 수동 평가 기록을 유지합니다.
데이터셋에서 이전 또는 다음 쿼로 이동합니다.
Exit를 선택하여 데이터셋 개요로 돌아갑니다.
데이터셋의 전체 쿼 수와 현재 쿼 인덱스를 확인합니다.

데이터 열 관리

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

데이터 열 관리를 통해 일괄 실행 분석에 가장 관련성이 높은 정보에 집중하도록 데이터셋 보기를 사용자 지정할 수 있습니다.

다음과 같은 작업을 수행할 수 있습니다.

Add Columns: 현재 열의 왼쪽 또는 오른쪽에 열을 추가합니다.
Edit Column Name: 데이터셋의 모든 열 이름을 변경합니다.
Add Ground Truth Column: AI 응답과 비교하기 위한 정답 값을 위한 열을 추가합니다.

학습 내용

이 문서에서는 다음 방법을 배웠습니다.

일괄 실행을 위한 합성 데이터셋 생성
CSV 형식으로 데이터셋 가져오기 및 내보내기
일괄 실행 결과에 대한 평가 실행
응답을 좋음 또는 나쁨으로 표시하여 수동 평가 기록을 유지합니다.
응답 세부 정보 보기 및 데이터셋 내 쿼 간 이동
더 나은 분석을 위한 데이터 열 관리

다음 단계

평가 실행을 인기 있는 평가자와 함께 수행

07/14/2025