본문 바로가기

세상에서 한국어를 제일 잘 하는 AI made by SK텔레콤

세상에서 한국어를 제일 잘 하는 AI made by SK텔레콤 생활

최근 SK텔레콤이 정부 주도로 추진되는 ‘독자 AI 파운데이션 모델’ 프로젝트에 선발되었다고 발표했습니다. 이는 SK텔레콤이 2018년부터 꾸준히 이어온 한국어 특화 AI 기술 자립 노력이 결실을 맺는 신호탄으로 평가됩니다. 쉽게 말해, 한국인이 일상에서 쓰는 자연스러운 한국어를 가장 잘 이해하고 만들어내는 초거대 언어 모델(LLM)을 우리 기술로 개발하겠다는 의미입니다. 글로벌 빅테크의 모델에 의존하지 않고도 우리말을 가장 잘 아는 ‘한국형 AI’를 만들겠다는 이러한 노력은 소버린 AI (Sovereign AI), 즉 주권을 가진 AI를 향한 도전이기도 합니다.

SK Careers Editor 22기 김민지

SK텔레콤은 한국어에 최적화된 AI 모델을 만들기 위해 지난 7년간 다양한 연구 성과를 내놓았습니다. 아래는 2019년부터 현재까지 SK텔레콤이 개발한 주요 한국어 AI 모델들의 연혁입니다:

1.     2019년 – KoBERT: 국내 최초의 한국어 딥러닝 언어 모델 KoBERT를 자체 개발하여 공개했습니다. BERT 모델은 원래 영어로 개발된 언어 이해 모델인데, SK텔레콤은 이를 한국어에 맞게 변형했습니다. 그 결과 KoBERT는 조사와 어미 변화가 복잡한 한국어 문장을 훨씬 정확하게 이해할 수 있었고, 고객센터 챗봇 등에 도입되어 뛰어난 문맥 이해 능력을 입증했습니다.

2.     2020년 – KoGPT2 및 KoBART: 대화형 생성 모델 분야에서도 진전을 이루었습니다. 2020년 4월, SK텔레콤은 GPT-2를 한국어로 구현한 KoGPT2를 공개했고 같은 해 10월에는 문서와 뉴스 요약에 특화된 KoBART 모델을 선보였습니다. GPT-2와 BART는 모두 영어 기반 생성형 AI 모델인데요, 이를 한국어로 학습시켜 공개한 것입니다. 이 모델들은 질의 응답이나 요약 등 다양한 자연어 생성 과제를 훌륭히 수행하며, 한국어 생성 AI 기술의 초석이 되었습니다. 특히 SK텔레콤은 이러한 주요 모델들을 오픈소스로 공개하여 국내 개발자들과 공유함으로써 전체 생태계 발전에도 기여했습니다.

3.     2022년 – 에이닷(A.) 서비스: SK텔레콤은 축적된 기술을 소비자 서비스에 적용하기 시작했습니다. 2022년에는 한국어 특화 기술을 적용하여 에이닷은 사람과 자연스럽게 대화하고 유용한 답변을 해줄 수 있는 기반을 갖추게 되었습니다. 그리고 같은 해 말에는 감성 대화에 특화된 ‘A.X 1.0’ 모델을 추가로 적용하여, 에이닷이 사용자 감정에 공감하고 정서적으로 반응할 수 있는 능력도 강화했습니다.

4.     2023년 – A.X 2.0: 2023년에는 에이닷에 ‘A.X 2.0’ 모델이 새롭게 도입되었습니다. A.X 2.0는 전년도에 이어 지식 기반 응답 능력을 크게 향상시킨 모델입니다. 복잡한 질문을 하면 문맥을 깊이 있게 이해하고 관련 지식을 활용해 정확한 답변을 내놓을 수 있었죠. 예를 들어 이전보다 더 긴 대화 맥락을 기억하면서도, 백과사전적인 지식을 동원해 질문에 답하거나 정보를 제공하는 데 뛰어났습니다. A.X 2.0도 표준형 모델과 경량형 모델 두 가지 버전으로, 사용 용도에 따라 선택할 수 있었습니다.

5.     2024년 – A.X 3.0: 2024년에는 SK텔레콤의 한국어 AI 기술이 또 한 번 도약합니다. 새로운 모델인 ‘A.X 3.0’은 신규 아키텍처를 도입해 추론 속도와 전반적인 성능을 크게 향상시킨 LLM입니다. 규모 면에서도 크게 성장하여, 약 340억 개 파라미터(34B)를 갖춘 표준 모델과 70억 개(7B) 파라미터의 경량 모델 두 가지로 출시되었는데요, 이로써 복잡한 작업일수록 큰 모델을, 경량 운영에는 작은 모델을 쓰는 유연성이 생겼습니다. A.X 3.0은 같은 해 4월 에이닷의 전화 통화 내용 요약 기능에 이어 8월에는 에이닷의 AI 에이전트 기능에 적용되었습니다.

6.     2025년 – A.X 4.0 및 A.X 3.1: 2025년에 들어 SK텔레콤은 두 가지 노선을 모두 강화하는 모델들을 선보입니다. 먼저 7월 초에는 한국어 특화 거대언어모델 ‘A.X 4.0’을 공개했습니다. 뒤에서 자세히 설명하겠지만, A.X 4.0은 외부 지식을 활용한 추론 능력이 대폭 향상되었고, 대규모 추가 학습(CPT) 방식을 통해 방대한 데이터를 학습함으로써 성능을 끌어올렸습니다. 같은 달에 SKT는 자체 개발 노선을 이어가는 ‘A.X 3.1’ 모델 2종도 공개했습니다. A.X 3.1은 파라미터 규모가 70억과 340억으로 A.X 3.0과 동일하지만, 코드 작성이나 수학 문제 해결처럼 논리 추론이 필요한 작업에서의 성능을 크게 개선한 것이 특징입니다. 이를 통해 향후 더 복잡한 추론형 LLM으로 확장하는 기반을 마련했다고 볼 수 있습니다. 또한 7월 말에는 SK텔레콤이 시각-언어 처리 특화 모델 ‘A.X 4.0 VL Light’도 추가로 공개했습니다. 이 모델은 70억 개 매개변수의 A.X 4.0 경량 모델을 기반으로 대규모 한국어 멀티모달 데이터셋을 학습한 VLM(Vision Language Model)으로, 한국어 텍스트와 이미지를 동시에 이해하는 뛰어난 능력을 갖췄습니다

위와 같이, SK텔레콤은 KoBERT부터 최신 A.X 4.0까지 해마다 꾸준히 한국어 AI 모델을 발전시켜 왔습니다. 특히 A.X 1.0부터 A.X 3.1까지의 모든 모델은 프롬 스크래치(From Scratch), 즉 처음부터 끝까지 SKT의 자체 기술로 개발된 점을 강조할 만합니다. 모델 구조 설계, 학습 데이터 수집, 모델 훈련에 이르기까지 외부 도움 없이 진행했기 때문에, 진정한 의미의 국산 AI 엔진”을 구축해온 셈이죠. 이는 우리말에 대한 깊은 이해와 노하우가 축적되었기에 가능한 일이었습니다.

이제 2025년 공개된 A.X 4.0 모델을 들여다보겠습니다. A.X 4.0은 SK텔레콤이 지금까지 축적한 노하우에 최신 오픈소스 기술을 접목해 탄생시킨 한국어 특화 초거대 모델입니다. 가장 큰 특징은 외부 지식 기반 추론 능력이 크게 강화되었다는 점인데요, 이는 곧 복잡한 질문이나 문제를 풀 때 모델이 외부의 방대한 지식을 활용해 더 정확하고 논리적인 답을 도출할 수 있게 되었다는 뜻입니다. 예를 들어 이전 모델이 상식 이상의 지식이 필요한 질문에 제대로 답하기 어려웠다면, A.X 4.0은 사전에 학습한 백과사전 지식이나 문서 정보를 바탕으로 한층 똑똑한 응답을 생성합니다. 이는 곧 전문 지식 Q&A나 비즈니스 보고서 요약 같은 작업에서 뛰어난 성능을 낼 수 있다는 의미이기도 합니다.

A.X 4.0의 또 다른 강점은 한국어 처리 능력 최적화입니다. SKT는 이번 모델을 개발하면서 글로벌 오픈소스 LLM 중 하나인 Qwen 2.5 모델을 기반으로 선택했고, 여기에 방대한 한국어 데이터를 추가 학습시켰습니다. Qwen 2.5는 중국 알리바바가 공개한 강력한 언어 모델인데, SKT는 이를 자체 슈퍼컴퓨터 인프라에서 한국어에 맞게 Continual Pre-Training(CPT) 방식으로 재학습했습니다. 그 결과 기존 모델이 갖고 있던 영어·중국어 등에 대한 능력은 유지하면서, 한국어에 대한 이해도와 표현력은 획기적으로 높아졌습니다. 실제 평가에서도 A.X 4.0의 한국어 실력이 두드러지는데, 대표적인 한국어 능력 벤치마크 시험인 KMMLU에서 A.X 4.0은 78.3점을 기록해 동일 시험에서 GPT-4 모델이 받은 점수(72.5점)를 크게 앞질렀습니다. 또한 한국어와 한국 문화 상식을 측정하는 HCLOM(CLIk) 테스트에서도 A.X 4.0이 83.5점을 받아 GPT-4의 성능(80.2점)을 넘어섰습니다. 이처럼 한국어 이해도 면에서 세계 최고 수준임을 객관적으로 입증한 것이죠.

SK텔레콤은 A.X 4.0을 개발하며 한국어에 특화된 토크나이저도 새로 설계했습니다. 토크나이저란 문장을 기계가 이해하기 쉬운 단위(토큰)로 쪼개는 알고리즘인데, 기존 영어권 토크나이저를 그대로 쓰면 한국어는 비효율이 컸습니다. A.X 4.0의 새 토크나이저는 한국어 특유의 어미 변화와 단어 조합을 효율적으로 처리하도록 최적화되었습니다. 그 덕분에 동일한 한국어 문장을 처리할 때 GPT-4가 1.5배 정도 더 많은 토큰을 사용해야 하는 반면, A.X 4.0은 훨씬 적은 토큰으로도 내용을 이해합니다. 정리하면, A.X 4.0의 주요 특장점은 다음과 같습니다:

이처럼 A.X 4.0은 성능과 활용 면에서 “한국어를 가장 잘 아는 AI”라고 부를 만한 혁신적인 특징들을 갖추고 있습니다. 실제로 SK텔레콤은 A.X 3.0을 2023년 5월부터 에이닷의 통화 내용 요약 서비스에 우선 적용해 시험했고, 높은 정확도와 안정성을 확인했습니다. 향후에는 이 모델을 SK텔레콤 자체 서비스들은 물론 SK그룹 내 다양한 서비스에 두루 적용할 계획이라고 밝혔습니다. 나아가 A.X 4.0을 오픈소스로 공개함으로써, 국내 기업들과 개발자들이 이 모델을 기반으로 각자 파생형 모델을 만들거나 연구에 활용할 수 있게 되었습니다. 예컨대 기업 내부 데이터를 추가로 학습시켜 자사 전용 AI를 만든다거나, 학계에서 한국어 모델 성능 향상을 위한 실험을 하는 등 폭넓은 응용이 기대됩니다.

SK텔레콤의 앞으로의 계획에서는 SKT는 두 갈래의 전략을 동시에 추진하고 있다는 점이 눈에 띕니다. 이는 “투 트랙 전략”인데요, 첫 번째 트랙은 지금까지 해온 것처럼 ‘프롬 스크래치’ 자력 개발 노선입니다. 최신 모델인 A.X 3.1에 이르기까지 이어지는 A.X 3.x 시리즈가 이 노선에 해당하죠. 이들은 모델의 설계부터 학습까지 온전히 SKT 연구진이 주도하여 만드는 LLM들로, 외부 기술 의존도를 최소화하고 한국어에 특화된 아이디어를 마음껏 적용할 수 있다는 장점이 있습니다.

두 번째 트랙은 CPT(Continual Pre-Training) 기반의 외부 모델 활용 노선입니다. 공개된 거대 언어모델을 가져와서 SKT의 한국어 데이터로 재학습시키는 접근법이죠. 이 방법을 택하면 처음부터 거대한 모델을 학습시키는 데 드는 시간과 비용을 아낄 수 있고, 검증된 최첨단 모델 구조를 활용하므로 개발 속도를 단축시키면서도 높은 성능을 확보할 수 있습니다. A.X 4.0의 경우가 좋은 예로, 알리바바의 Qwen 모델을 기반으로 수개월 만에 한국어 특화 모델을 만들어낼 수 있었습니다.

SK텔레콤은 이러한 두 트랙을 병행함으로써 얻는 이점이 크다고 강조합니다. 서로 다른 강점을 지닌 모델 포트폴리오를 구축하여, 다양한 서비스 수요에 최적화된 AI를 제공할 수 있기 때문입니다. 예를 들어 경량화된 자체 모델은 스마트폰 앱이나 임베디드 기기같이 로컬 환경에서도 활용하기 좋을 것입니다. 반면 초거대 CPT 모델은 클라우드 상에서 방대한 지식을 활용해야 하는 엔터프라이즈 솔루션에 투입하기 적합하죠. 궁극적으로 SKT는 이 투트랙 전략을 통해 한국어 LLM 분야에서 “성능”과 “효율” 두 마리 토끼를 모두 잡겠다는 비전을 갖고 있습니다.

이외에도 SK텔레콤은 멀티모달 AI 등 차세대 기술로의 확장 계획도 밝히고 있습니다. 2025년 하반기 로드맵을 보면, 텍스트와 이미지를 동시에 이해하고 처리할 수 있는 수준까지 모델을 발전시킬 계획이라고 합니다. 실제로 7월 말에는 시각-언어 모델인 A.X 4.0 VL (Vision-Language) 버전과, 대용량 문서를 고속으로 처리하는 A.X Encoder 기술도 공개하여 주목받았습니다. 이를 통해 향후에는 그림이나 표가 포함된 한국어 문서도 AI가 척척 요약하고 분석해주는 멀티모달 한국어 AI 서비스도 가능해질 전망입니다.

마지막으로, SK텔레콤은 개발한 기술을 실제 산업 현장과 일상 서비스에 적용함으로써 초거대 AI의 산업화와 대중화를 선도하겠다고 밝혔습니다. 이미 통화 요약, 상담 챗봇, AI 비서 등 여러 서비스에 LLM을 접목해오면서 실용성을 입증했듯이, 앞으로도 새로운 모델이 나올 때마다 적합한 서비스에 빠르게 적용하여 사용자 경험을 향상시킬 계획입니다. 또한 필요할 경우 외부 파트너들과 기술을 공유하고 협력하여, 국내 AI 생태계 전체의 수준을 끌어올리는 데도 기여하겠다고 합니다. SKT 컨소시엄이 여러 산학 전문가들과 함께 국가 차원의 AI 모델 개발에 나서는 것도 같은 맥락인데요, 이러한 움직임은 국내 기업들이 글로벌 AI 경쟁 속에서 자립적인 경쟁력을 갖추는 데 큰 힘이 될 것으로 보입니다.


SK텔레콤의 한국어 특화 AI 개발 이야기를 정리하면, 2018년부터 시작된 한 길만 파온 노력이 꽃을 피우기 시작했다고 말할 수 있습니다. KoBERT로 시작해 매년 업그레이드된 모델들을 선보이며, SKT는 한국어 AI의 진화를 선도해왔습니다. 그 결과물인 A.X 시리즈는 감성적인 대화부터 전문 지식 답변, 그리고 복잡한 작업 수행까지 가능해졌고, 이제는 A.X 4.0을 통해 한국어 능력만큼은 세계 최고 수준에 도달했음을 입증했습니다. 이는 단순히 한 기업의 기술 성취를 넘어, 한국어로 소통하는 AI 시대를 앞당겼다는 점에서 큰 의미가 있습니다. 영어권 AI에 의존하지 않고도 우리말을 이해하고 처리하는 AI를 가질 수 있다는 것은, 언어 주권 측면에서도 중요한 일입니다.

또한 SK텔레콤은 거대한 AI를 개발하는 데서 그치지 않고, 이를 실제 상품과 서비스에 접목함으로써 AI의 산업화와 일상화를 이끌고 있습니다. 통신서비스에 AI를 접목해 새로운 부가가치를 창출하고, 오픈소스로 공개해 모든 기업이 활용할 수 있게 한 행보는 AI 생태계의 선순환을 만드는 밑거름이 될 것입니다. 이처럼 SK텔레콤이 쏘아올린 ‘한국어 잘하는 AI’는 국내 AI 역량을 한 단계 끌어올리는 촉매제가 되고 있습니다.

"세상에서 한국어를 제일 잘 하는 AI", 그 주인공은 바로 SK텔레콤의 A.X 시리즈라 해도 과언이 아닙니다. 앞으로 투트랙 전략 아래에서 계속 진화해나갈 SKT의 한국어 AI가 보여줄 새로운 모습이 기대되지 않나요? 기술을 향한 꾸준한 집념과 개방적인 협력을 통해, SK텔레콤은 대한민국이 AI 강국으로 도약하는 데 핵심적인 역할을 하고 있습니다. 한국어를 가장 잘 이해하는 AI, 이제는 국내에서도 마음껏 활용하고 발전시킬 수 있게 된 것입니다. 앞으로 펼쳐질 이야기도 SK텔레콤과 함께 지켜보시길 바랍니다!

지금까지 SK텔레콤 취재기자 김민지였습니다. 감사합니다.

[표지 이미지 배경은 챗GPT를 활용하여 제작했습니다.]