IT

나만 몰랐어? 챗GPT 모든 것 개발 과정 한계

누알 2023. 2. 8. 11:43
반응형

오늘 아침 TV뉴스, 출근길 인터넷기사, 회사동료, 지인들의 뜨거운 이야깃거리는 챗GPT 입니다. 이 기술이 무엇인지, 앞으로 어떤 변화를 가져올 것인지 많이 궁금한데요. 한번 알아보도록 하겠습니다.

● 챗GPT

챗GPT

22년 12월 공개된 챗GPT를 사용해본 유저는 이미 전세계 1억명을 넘어섰고, 수많은 사람들이 본인들의 업무에 챗GPT를 사용하고 또 테스트하고 있습니다. 챗GPT에게 의학학술지에 실린 논물은 주며 요약하게 했더니 표절 검사는 100%로 통과했습니다. 다른 과학자나 학술자들이 봐도 전혀 구분하지 못했다고 합니다. 또 미국 대학 로스쿨 입학시험, 경영대학원 기말고사, 심지어 미국 의사 면허 시험도 합격했습니다. 

 

저를 포함한 많은 사람들은 '도대체 챗GPT가 어떤 원리인지?' '그러다 인간에게 위협적으로 되는게 아닐지?' '감정을 가지는건지?' 등 많은 궁금증을 가지고 있을 것 입니다. 이 물음표의 해답에서는 7년전 알파고(AlphaGO)의 등장과 오버랩된다고 생각됩니다. 당시 언론과 전문가들은 도대체 어떻게 AI가 인간을 뛰어넘는 바둑실력을 가지게 되었는지 궁금했고 또한 이해하기 어려워했습니다. 

 

챗GPT 뜻 정의

챗GPT는 오픈 AI에서 만든 대규모 언어 예측 모델인 대화형 인공지능입니다. 챗GPT검색창에 검색어를 입력하면 실제 사람과 대화하듯 채팅할 수 있는 기능입니다.

 

만들어진 과정

오픈AI는 지도학습(supervised learning)과 강화학습(reinforcement learning)을 사용해 챗GPT를 만들었습니다. 이 두가지 학습원리는 알파고의 기본원리와 동일하다고 생각하시면 됩니다. 알파고는 사람의 기보를 보고 바둑을 두는 법을 배운 지도학습, 기보에 없는 수를 스스로 둬가면서 이길 확률을 높이는 방법을 찾는 강화학습 2가지를 학습하며 바둑을 배우게 되었습니다.챗GPT는 인터넷에서 얻은 문장과 각정 질문, 답변을 익히는 지도학습과 이전에 없던 새로운 문장을 만들어보는 강화학습을 통해 만들어졌는데요. 이 기술에 RLHF(Reinforcement Learning from Human Feedback)라고 불리는 기술을 강화하였습니다. 이 기술은 AI학습 과정에서 사람의 피드백을 사용해 거짓되고 편향된 답변을 최소화하는 기술입니다.

 

사람이 교육시킨 챗GPT

챗GPT는 GPT-3라는 언어 데이터베이스를 기반으로 만들어졌습니다. 이전에도 심심이와 같은 AI식 채팅 로봇은 많이 있었으나, AI의 답변의 기대를 미치지 못하거나, 이해를 하지 못하는 경우가 많았었습니다.

 

챗GPT 이전 채팅AI의 문제

- 질문자의 의도와 관련 없는 답변- 존재하지 않거나 잘못된 사실을 만들어냄- 해석 부족- 학습 데이터를 편향된 답변으로 만들어냄

 

이런 문제 때문에 위에서 설명한 RLHF(Reinforcement Learning from Human Feedback)를 도입하여 크게 3단계로 챗 GPT를 교육하였습니다.

 

1단계 SFT(Supervised fine-tuning step) 

GPT-3라는 언어 데이터베이스에서 소수 고품질 언어 데이터를 모아 챗GPT를 교육했습니다. 신뢰할 수 있는 질문과 답변을 많이 배웠지만, 데이터의 양을 제한했기 때문에 1단계만 거친 모델은 사용자의 의도를 파악하지 못한 답변이 많았습니다. 데이터의 양을 늘리면 가능하지만 비용이 어마어마하게 많이 들어가기 때문에 제한이 있다고 합니다.

 

2단계 보상모델(reward model) 

1단계를 거친 모델이 질문자의 의도에 답변하도록 가르치는 기술입니다. 라벨러로 불리는 실제 사람이 직접 교육을 하게 되는데요. 과정은 우선 1단계 모델에 질문을 하고 4~9개의 답변을 얻어내 가장 베스트 답변을 골라 순위를 매깁니다. 이 순위를 별도로 데이터베이스화하여 통계적, 수학적으로 파악하게 되는 자동 시스템을 갖추게 됩니다.

 

3단계 PPO(Proximal Policy Optimization)

3단계는 과거 학습을 경험하는 것이 아닌 실제 언어 모델을 작동하며 생기는 문제점을 미세하게 조정하는 과정입니다. 정확성을 높이기 위해 가치함수를 포함하여 기대 수익률과 현재의 수익률의 차이를 함수로 계산하는 방법을 사용해 정확하게 답변할 수 있도록 활용합니다.

 

마지막으로 성능 평가도 역시 사람이 평가하게 되는데 평가 기준 역시 3가지로 나누게 됩니다.1. 유용성 : 사용자의 질문을 파악하고, 적절한 대답을 했는지2. 진실성 : 데이터를 활용하여 거짓 없는 진실된 답변을 했는지3. 무해성 : 인종차별, 성차별 등 편향적인 답변을 하지 않는지

 

위의 평가 기준을 가지고 충족하지 못하면 다시 학습하는 과정을 걸친다고 합니다.

 

챗GPT의 한계, 단점

챗GPT의 강점이자 취약점은 사람입니다. 샘플 데이터도 사람이 결정하고, 연구와 평가 등 모든 것을 사람이 결정하게 되어 개인적인 취향, 선호 등을 입력하며 챗GPT를 오염시킬 수 있다는 것이 가장 큰 한계입니다. AI의 편향성 문제 해결은 모든 연구자들의 미션입니다. '과연 AI에게 윤리를 가르칠 수 있는가'의 주제를 가지고 개발하는 연구자들이 많아지면서 이 부분도 빠르게 해결 가능한 시대가 오길 바랍니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형