Q. 파인튜닝된 언어모델을 어떻게 평가하셨나요?
언어 모델을 어떻게 평가했는지를 말씀드리기 전에, 저희가 어떤 언어 모델을 만들려고 했는지 말씀드릴게요.
저희가 만들려고 했던 모델은 사용자와 일상 대화가 가능한 언어 모델이었습니다. 일상대화가 가능하다는 것을 쪼개서, ‘먼저 싱글턴에서 대화가 되는 가?’를 평가 목표로 잡았습니다.
그리고 2가지 평가를 진행했습니다.
일단 첫 번째로는 저희가 직접 손수 프롬프트를 넣어서 테스트했어요. 예를 들어 사용자가 오늘 날씨 어때라고 물어봤을 때 오늘 날씨 추워요 이렇게 대답할 수 있는 지 본거예요. 한번씩 이상하게 기호가 섞여서 나오도라고요. 그런 경우는 전처리를 다시 해서, 오류를 잡았습니다.
그리고 이제 두 번째 평가는 자동화된 툴을 사용했어요. 언제까지 수작업으로 테스트 할순 없으니까요. 하네스라고 하는 평가 프레임워크를 사용했는데요. 이제 이 하네스는 블루나 f1score같은 특정 지표를 가지고 정량적인 평가를 하는거예요. 저희는 한국어로 일상대화를 목표로 했기때문에 몇가지 한국어 벤치마크 데이터 셋을 사용해서 점수화를 했습니다.
'ai' 카테고리의 다른 글
[기술면접] 배치크기가 작을때와 클때를 비교해서 설명해보세요. (0) | 2025.01.23 |
---|---|
[기술면접] 본인 프로젝트에서 어떤 파인튜닝 기법을 사용하셨나요? (0) | 2025.01.23 |
[기술면접] 맡은 파트와 한 일이 뭐죠? (0) | 2025.01.08 |
[멀티턴 대화학습] 최적화된 학습데이터의 형태는? (0) | 2025.01.08 |
[기술면접] 인공신경망이란 무엇이고, 어떻게 작동되나요? (0) | 2025.01.08 |