일괄적으로 여러 프롬프트 실행
일괄 실행은 이전에 AI Toolkit에서 독립적인 웹뷰 기능이었습니다. 이제 Agent Builder의 Evaluation 탭 아래로 완전히 통합되었습니다. TOOLS > Bulk Run을 선택하여 AI Toolkit 보기에서도 계속 액세스할 수 있습니다.
AI Toolkit의 일괄 실행 기능을 사용하면 여러 테스트 케이스에 대해 에이전트와 프롬프트를 배치 모드로 테스트할 수 있습니다. 한 번에 하나의 프롬프트를 실행하는 플레이그라운드와 달리, 일괄 실행은 데이터셋을 입력으로 사용하고 모든 프롬프트를 순차적으로 실행하여 프로세스를 자동화합니다.
실행 후 AI 응답은 원래 프롬프트 옆의 데이터셋 보기에서 나타납니다. 응답이 포함된 전체 데이터셋을 검토, 비교 및 내보내 추가 분석할 수 있습니다.

일괄 실행 시작
AI Toolkit에서 일괄 실행을 시작하려면 다음 단계를 따르세요.
- AI Toolkit 보기에서 Activity Bar에서 Agent Builder를 선택합니다.
형식을 사용하여 프롬프트와 변수를 입력합니다. 프롬프트를 실행할 모델을 선택합니다.- Agent Builder에서 Evaluation 탭으로 전환합니다.
AI Toolkit은 에이전트에 사용하는 것과 동일한 LLM 모델을 사용하여 데이터셋을 생성하며, 이로 인해 비용이 발생할 수 있습니다. 데이터셋 생성에 사용된 메타 프롬프트는 AI Toolkit GitHub 리포지토리에서 확인할 수 있습니다.
- Generate Data를 선택하여 합성 데이터셋을 생성합니다.
- 생성할 행 수를 선택하고 데이터 생성 로직을 보거나 수정합니다.

- Generate를 선택하여 데이터셋을 생성합니다.
아직 실행되지 않은 나머지 쿼만 실행하도록 선택할 수 있습니다.
- 데이터셋이 로드되면 Run을 선택하여 단일 행을 실행하거나 Run All을 선택하여 데이터셋의 모든 행을 실행합니다.
데이터셋 작업

AI Toolkit은 일괄 실행 중에 데이터셋을 관리하고 분석하기 위한 여러 작업을 제공합니다.
- Generate Data: 프롬프트와 변수를 기반으로 합성 데이터셋을 생성합니다. 행 수를 지정하고 데이터 생성 로직을 수정합니다.
- Add Row: 데이터셋에 새 행을 추가합니다.
- Delete Row: 선택한 행을 데이터셋에서 삭제합니다.
- Export Dataset: 추가 분석 또는 보고를 위해 데이터셋을 CSV 파일로 내보냅니다.
- Import Dataset: CSV 파일에서 데이터셋을 가져와 일괄 실행의 입력으로 사용합니다.
- Run: 선택한 모델에 대해 데이터셋의 단일 행을 실행합니다.
- Run All: 선택한 모델에 대해 데이터셋의 모든 행을 실행합니다.
- Run Remaining: 선택한 모델에 대해 아직 실행되지 않은 행만 실행합니다.
- Manual Evaluation: 응답을 엄지 위 또는 엄지 아래로 표시하여 수동 평가 기록을 유지합니다.
일괄 실행 결과 평가
AI Toolkit을 사용하면 데이터셋 보기에서 일괄 실행 결과를 직접 평가할 수 있습니다.

Evaluation 탭을 전체 화면 모드로 확장하여 결과를 더 자세히 볼 수 있습니다. 전체 화면 모드는 표준 보기와 동일한 기능을 제공하지만, 더 나은 가시성과 분석을 위해 더 큰 표시 영역을 제공합니다.

각 쿼에 대한 전체 응답을 보려면 View Details를 선택합니다.
세부 정보 보기에서는 다음을 수행할 수 있습니다.
- 사용자와 어시스턴트 간의 전체 대화를 검토합니다.
- AI의 응답을 분석합니다.
- 응답을 좋음 또는 나쁨으로 표시하여 수동 평가 기록을 유지합니다.
- 데이터셋에서 이전 또는 다음 쿼로 이동합니다.
- Exit를 선택하여 데이터셋 개요로 돌아갑니다.
- 데이터셋의 전체 쿼 수와 현재 쿼 인덱스를 확인합니다.
데이터 열 관리

데이터 열 관리를 통해 일괄 실행 분석에 가장 관련성이 높은 정보에 집중하도록 데이터셋 보기를 사용자 지정할 수 있습니다.
다음과 같은 작업을 수행할 수 있습니다.
- Add Columns: 현재 열의 왼쪽 또는 오른쪽에 열을 추가합니다.
- Edit Column Name: 데이터셋의 모든 열 이름을 변경합니다.
- Add Ground Truth Column: AI 응답과 비교하기 위한 정답 값을 위한 열을 추가합니다.
학습 내용
이 문서에서는 다음 방법을 배웠습니다.
- 일괄 실행을 위한 합성 데이터셋 생성
- CSV 형식으로 데이터셋 가져오기 및 내보내기
- 일괄 실행 결과에 대한 평가 실행
- 응답을 좋음 또는 나쁨으로 표시하여 수동 평가 기록을 유지합니다.
- 응답 세부 정보 보기 및 데이터셋 내 쿼 간 이동
- 더 나은 분석을 위한 데이터 열 관리
다음 단계
- 평가 실행을 인기 있는 평가자와 함께 수행