[Q&A] GPT-3.5와 GPT-4은 뭐가 다를까?

GPT

[Q&A] GPT-3.5와 GPT-4은 뭐가 다를까?

mallard.oh 2023. 4. 13. 20:18

Q) GPT-4? 그게 뭔가요?

A) GPT-4는 OpenAI사에서 개발한 GPT 시리즈의 4번째 모델이다.

Q) GPT-3.5랑 GPT-4의 주요한 차이점이 뭔가요?

A) 멀티모달 모델(두 종류 이상의 소스를 사용하여 의미를 전달하는 모델, GPT-4는 이미지와 텍스트를 입력으로, 텍스트를 출력으로 낼 수 있는 모델이다)이라는 점과 더욱 고차원적인 추론이 가능하다는 점이 있다. 예시를 통해 쉽게 확인해 보자..

아래는 GPT-4에 재밌는 사진을 입력으로 넣고, 어떤 점이 유머 포인트인지 질문한 결과이다.

[사용자]

아래 사진에서 재밌는 점이 뭐야? 패널(아래 사진에서 작은 사진을 의미)별로 설명해 줘..

[GPT-4]

이 이미지는 세 개의 패널이 있는 "라이트닝 케이블" 어댑터 패키지를 보여줍니다.

패널 1: 스마트폰의 충전 포트에 VGA 커넥터(일반적으로 컴퓨터 모니터에 사용되는 커다란 파란색 15핀 커넥터)가 꽂혀 있습니다.

패널 2: VGA 커넥터 그림이 그려진 '라이트닝 케이블' 어댑터 패키지.

패널 3: 끝에 작은 라이트닝 커넥터(iPhone 및 기타 Apple 장치를 충전하는 데 사용됨)가 있는 VGA 커넥터를 클로즈업한 모습입니다.

이 이미지의 유머는 작고 현대적인 스마트폰 충전 포트에 크고 오래된 VGA 커넥터를 꽂는다는 부조리함에서 비롯됩니다.

정확하게 웃음 포인트를 찾아낸다. 각 패널(작은 사진)이 의미하는 모습들을 하나하나 분석하고, 이를 종합해서 어떤 점이 재미있는지를 판단하는 것은 사람에게도 고차원적인 추론을 요구하는 작업이다. 이를 거대 언어 모델이 방대한 데이터 셋을 통해 학습해서 추론에 활용한다는 것은 가히 혁신적이다.

방대한 데이터 셋에 모델 파라미터 수를 상당수 키운 덕분에(자세한 파라미터 수는 공개되지 않았으나, 170조 개 이상일 것으로 추정하기도 한다) 더욱 고차원적인 추론에 강하고, 예상치 못한 답변을 내놓는 비율도 상당 수 감소했다. 아래는 기존 모델들과 GPT-4의 민감 콘텐츠에 대해 예상치 못한 결과를 나타낸 비율이다.

민감 컨텐츠에 대해 기존 모델들과  GPT-4 의 비정상 결과 출력 비율 [ 출처 : GPT-4 Technical Report( https://arxiv.org/abs/2303.08774 )]

확실히 GPT-4에서는 비정상 결과 출력 비율이 감소한 것을 볼 수 있다.

이 외에도 기존 GPT-3.5 GPT-3.5에서는 한 번에 기억할 수 있는 단어의 수가 약 4천개 가량이었으나, GPT-4에서는 33만 개 이상으로 늘었다. 이렇게 될수록 더 대화가 많이 오고 가도, 대화 내역을 기억하려 문맥에 맞는 정답을 내기 쉬워진다. 기존에는 대화가 많이 오고 가서 페이지가 일정 길이 이상을 넘어가면, 새로운 대화를 생성해야 했다. 이 과정에서 기존 대화 내역은 ChatGPT가 기억하지 못하는 문제가 있었다. 그러나, 기억할 수 있는 단어가 많아지면, 새로운 대화를 생성해야 하는 빈도가 매우 적어지는 효과다.

Q) GPT-4 모델이 할 수 있으나, GPT-3.5는 하기 힘든 작업의 예시는 뭔가요?

A) 간단한 예시로 직관적으로 느껴보자. 아래는 미팅 시간을 잡고자 팀원들의 미팅 가능 시간들을 조사해서, 가능한 미팅을 잡는 문제를 GPT-3.5와 GPT-4가 어떻게 해결하는지를 보여준다.

표 GPT-3.5와 GPT-4의 추론 능력 비교 예제

GPT-3.5	GPT-4
[입력 문장] 앤드류는 오전 11시부터 오후 3시까지, 조앤은 정오부터 오후 2시까지, 오후 3시 30분부터 오후 5시까지 참석 가능하니다. Hannah는 정오부터 30분간, 그리고 오후 4시부터 오후 6시까지 참석 가능합니다. 앤드류, 한나, 조앤의 30분 미팅 시작 시간에는 어떤 옵션이 있나요?	[입력 문장] 앤드류는 오전 11시부터 오후 3시까지, 조앤은 정오부터 오후 2시까지, 오후 3시 30분부터 오후 5시까지 참석 가능입니다. Hannah는 정오부터 30분간, 그리고 오후 4시부터 오후 6시까지 참석 가능합니다. 앤드류, 한나, 조앤의 30분 미팅 시작 시간에는 어떤 옵션이 있나요?
[출력 문장] 다음은 이용 가능 시간 목록입니다: - Andrew: 오전 11시부터 오후 3시까지 - 조앤: 정오부터 오후 2시까지, 오후 3시 30분부터 오후 5시까지 - 한나: 정오~오후 12시 30분, 오후 4시~오후 6시 이용 가능 여부에 따라 세 사람 모두 참석 가능한 시간은 오후 4시부터 오후 4시 30분까지 30분간입니다. 따라서 오후 4시에 미팅을 예약할 수 있습니다.	[출력 문장] 앤드류: 오전 11시 - 오후 3시 조앤: 오후 12시 - 오후 2시, 오후 3시 30분 - 오후 5시 Hannah: 오후 12시 - 오후 12시 30분, 오후 4시 - 오후 6시 30분 회의에 공통적으로 참석 가능합니다: 오후 12시 - 오후 12시 30분

GPT-3.5는 그럴싸하지만 완전히 틀린 답을 내놓았고, GPT-4는 정확히 모두가 공통적으로 자유로운 시간을 회의 시간으로 잡았다. 이뿐만 아니라 아래와 같이 변호사 시험부터 미국의 수능 역할을 하는 SAT, 개발자들의 코딩 알고리즘 시험인 LeetCode 등 다양한 분야에서 기존 GPT보다 더 우수한 성적을 거뒀다. 이미 미국 변호사 시험인 BAR EXAM도 통과했다고 한다(참고 논문: Katz, Daniel Martin, et al. "GPT-4 Passes the Bar Exam." Available at SSRN 4389233 (2023)).

GPT-4 의 다양한 시험 성적들 (1/2)[ 출처 : GPT-4 Technical Report(https://arxiv.org/abs/2303.08774)]

GPT-4 의 다양한 시험 성적들 (2/2)[ 출처 : GPT-4 Technical Report( https://arxiv.org/abs/2303.08774 )]

Q) 그럼 GPT-4의 한계점은?

A) 여전히 환각(Hallucination) 효과(거짓 답변을 자신 있게 내놓는 현상)가 존재한다(성능은 일부 개선되었다고 한다). 또한 GPT-4 역시 대부분 2021년 9월까지의 데이터 셋을 사용했으므로, 최신 정보를 응답에 반영하는 것이 쉽지 않을 것으로 보인다. 또한, 다국어 지원에도 여전히 한국어에 대해서는 응답이 느리다. 만약 번역이 필요하다면 크롬 확장 프로그램 중 한국어 번역을 해주는 ‘프롬프트 지니’를 사용하는 것도 방법이고, 번역 퀄리티가 중요하다면 현재는 딥러닝 기반 기계 번역을 전문적으로 하는 DeepL(웹사이트: deepl.com)에서 제공하는 번역이 상당히 수준급이므로, 여기서 번역을 하는 것을 추천한다.

지금까지 새로 출시된 GPT-4 모델이 기존 GPT-3.5 모델과 다른 점에 대해서 면밀하게 분석했다. 앞으로도 수많은 모델들이 출시될 것이다. 그러나, 본 책에서 소개하는 트랜스포머 아키텍처와 GPT-3.5 기준의 다양한 설명들은 이후에 출시될 다른 GPT 버전 들에서도 많은 부분 동일하게 적용될 수 있을 것이다. 이렇게 빠르게 기술이 발전하는 시기에 가장 중요한 것은 탄탄한 기초라고 생각한다. 다양한 모델 버전들을 공통적으로 어우르는 지식을 익히고, 이를 새로운 버전의 모델에서도 동일한 관점으로 바라볼 줄 알면, 기술이 발전해도 이를 따라가는 데에 더 유용할 것이다.