IT/HyperClovaX

LLM(Large Language Model)

송시 2024. 6. 8. 23:26
728x90

LLM의 첫 단계는 LM(언어모델)이다.

 

언어모델의 크기가 크면 Large 를 붙여셔 LLM 이고, 언어모델이 크기가 작으면 SLM 이다.

 

인공신경망을 공부하면 문자와 관련해서 문제를 해결하려고 할 때 (물론 CNN 도 사용가능하지만..)

 

RNN 을 사용하게 된다.

 

RNN 의 R 이 Recursive 순환(재귀) 한다는 의미이고 앞에서 처리한 데이터를 다시 순환해서 사용(기억)할 수 있는 장점을 갖고 있다.

 

우리가 사용하는 언어는 여러 단어의 조합으로 이루어 진다.

 

"배고프다" 라는 단어에 "나는 배고프다", "너는 배고프다", "우리는 배고프다", "배고프다고 말했다" 등등 바로 앞 또는 뒤의 단어에 따라 내용이 달라진다.

 

앞에 나는 이라는 단어를 기억하고 있어야 또는 배고프다고 를 기억하고 있어야만 앞 뒤에 사용하게 될 단어가 예측이 가능해진다.

 

이렇게 기억을 하는 네트워크 설계 모델을 LM 이라고 하고 그 중에 하나가 RNN 이다.

 

이렇게 기억하는 부분의 장점을 발전시켜 언어 모델을 발전 시킨 것이 LSTM, GRU, Transformer 등의 LM 이 있다.

 

수치를 정확하게 나누기는 어렵지만 어떤 이는 7B(7 Billion,70억) 이상을 LLM, 이하를 SLM 이라고 말하긴하는데 이 부분은 아직까지는 갑론을박이 있는 듯 하다.

 

어쨌든 LLM 에는 창발능력(Emergent abilities)이라는 부분이 SLM 과는 매우 대조적인 부분이 될 것 이라는 생각이 든다.

 

창발능력은 파라미터의  양이 커질 수록 문제를 해결하는 새로운 능력을 갖게 된다는 것인데

 

7B에서는 해결하지 못한 문제를 70B에서는 해결하게 되는 등의 LLM 이 진화해가는 능력이다.

 

단순히 LLM 이 학습 데이터가 많아져서 좋아지는 것 뿐만 아니라 이러한 창발능력 때문에라도 계속 거대해지는 것일 수도 있지 않을까?

 

그러면 SLM 은 부족한 기술일까?

 

무어의 법칙 이라고 그냥 쉽게 말해 반도체 기술이 2년 마다 2배씩 발전해 나갈 것이고 이로 인해 물리장치의 비약적인 발전을 가져올 것이다. 라는 의미다.

 

실제로 무어의 법칙에서보다 더 더 빠르게 발전하고 있었고 실제로 사용자들은 빠르고 저렴한 장치를 구매하기 위해 노력했다.

 

그러던 중 IoT 가 발전하면서 비약적으로 빨라진 장치를 사용하는게 아닌 저성능이라도 저렴하고 작고 확장성이 높은 장치들에 대한 필요도도 매우 높아졌다.

 

SLM 도 마찬가지다. 

 

데스크탑이나 노트북을 사용하던 시기가 지나고 스마트폰의 시대를 살고 있는 현재에 LLM 보다 가볍고 분야에 맞춤화 하기 좋은 SLM 이 최근에는 더 각광을 받고 있다.

 

어쨌든 LM을 통해서 내 인생에 어떤 가능성이 있는지 더 공부해봐야 겠다.

728x90