ChatGPT가 쏘아올린 초거대(Super-Giant) AI에 대한 관심이 뜨겁습니다.
GPT는 Generative Pre-trained Transfomer의 약자로
생성적(Generative)이라는 의미는 모델이 새로운 텍스트를 생성할 수 있다는 것을 의미하며,
사전학습(Pre-trained)이라는 의미는 모델이 대량의 텍스트 데이터를 사용하여 사전에 학습이 되었다는 것을 의미합니다.
그리고 Transformer는 모델의 기본 구조를 의미합니다.
생성형 모델의 성능 향상을 위해서는 매우 복잡한 신경망이 요구되고, 복잡한 신경망에는 엄청난 수의 파라미터가 존재합니다. 이렇게 파라미터 수가 엄청나게 많은 AI 모델을 초거대 AI라고 부르고 있으며 주요기업의 초거대 AI 현황은 아래와 같습니다.
가장 뛰어난 성능을 나타내고 있는 OpenAI의 GPT-3.5의 파라미터 수는 1,750억개로 알려져 있습니다.
그러면 여기서 파라미터 수가 무엇을 의미하는지 설명드리겠습니다.
ChatGPT 모델의 가장 기본이 되는 것은 딥 러닝(Deep Learning)이고, 결국 모든 것은 신경망(Neural Network)에서 비롯됩니다.
딥 러닝에서 파라미터(parameter) 수는 아래와 같이 계산됩니다.
위 그림은 입ㆍ출력값이 각각 3개이고, 16개의 노드(node)를 가지고 있는 2개의 은닉층(Hidden Layer)으로 구성된 DNN(Deep Neural Network)입니다.
위 신경망에서 총 파라미터 수는 387개로 각 레이어 사이에는 아래와 같이 파라미터가 존재합니다.
1. 입력층과 첫 번째 은닉층 사이 : 3(입력층 노드 수) * 16(1st 은닉층 노드 수) + 16(2nd 은닉층 노드 수) = 64
2. 첫 번째와 두 번째 은닉층 사이 : 16(1st 은닉층 노드 수) * 16(2nd 은닉층 노드 수) + 16(2nd 은닉층 노드 수) = 272
3. 두 번째 은닉층과 출력층 사이 : 16(2nd 은닉층 노드 수) * 3(출력층 노드 수) + 3(출력층 노드 수 ) = 51
∴ 64 + 272 + 51 = 387
이는 y = wx + b(w : weight, b = bias)라는 신경망 알고리즘의 가장 기본 계산식에서 출발하며 아래와 같은 형태를 퍼셉트론(Perceptron)이라고 부릅니다.
결국, 딥 러닝에서 파라미터는 이 가중치(w)와 편향(b)의 개수를 의미합니다.
이것이 맞는지 ChatGPT-4에 아래와 같이 질문을 던져보았습니다.
다행히도 제가 알고있는 개념이 맞다는 답변을 GPT-4가 내놓았습니다. 물론 ChatGPT 모델에는 가중치(weight)와 편향(bias) 외에도 다양한 하이퍼 파라미터(Hyper Parameter)가 사용된 것으로 알고 있습니다. 하지만 쉬운 이해를 위해서는 위에서 설명드린 가중치와 편향의 정도로만 이해해도 큰 무리가 없을 것으로 생각됩니다.
'이슈' 카테고리의 다른 글
OpenAI의 ChatGPT-4 공개 (0) | 2023.03.21 |
---|