본문 바로가기

문과생도 가능한 빅데이터 분석? 형님, 저 녀석 Unitex 알려줄까요😎 – 언어빈도분석편

문과생도 가능한 빅데이터 분석? 형님, 저 녀석 Unitex 알려줄까요😎 – 언어빈도분석편

두둥. ‘4차산업정보화메타버스..어쩌고저쩌고 시대의 등장! 이름만 들어도 정신이 아찔해지는 문과생들을 위해 준비했습니다.🤦
뼛속까지 문과생인 슼기자도 해냈다! 문과생도 가능한 빅데이터 분석..? , 너두 할 수 있어😉

‘Unitex Graph Editor’ 프로그램을 이용한 언어 빅데이터 분석을 해보겠습니다.(비장) 그 중에서 유니텍스로 직접 그래프를 구축해 텍스트에 적용하는 방법에 대해 설명하고자 하는데요. 그래프 처리된 언어 텍스트는 다른 분석 프로그램에서도 활용이 가능하고, 실제 AI의 머신러닝의 학습 기반이 되는 등 굉장히 활용도 높은 언어자원이 됩니다.
문과생인 나도 할 수 있을까..?’ 걱정은 잠시 접어두시고, ‘빅데이터 분석은 이렇게 하는 거구나~’하는 느낌만 가지셔도 OK!! 그렇지만, 마냥 쉬운 내용만은 아니니, 뇌에 힘 빡 주시고 차근차근 따라와 주세요. ( •̀ ω •́ )
(해당 내용은 2021년 수강한 한국외국어대학교 남지순 교수님의 <자연언어데이터>강의 내용을 바탕으로 이루어집니다.

SK Careers Editor 박경서

 

 

 

 

 

유니텍스는 언어별로 전자사전이나 그래프문법(LGG) 구축이 가능합니다. 이렇게 구축된 언어자원을 실제 코퍼스에 적용해 새로운 언어 자료를 만들 수 있는데요. 가독성이 좋아 접근성이 좋고 수정과 보완이 용이하단 장점도 있죠. 유니텍스에 대해 자세히 알아볼까요~?
*유니텍스 홈페이지(Unitex/GramLab | Open Source Corpus Processing Suite (unitexgramlab.org))에서 설치 가능해요!
 

 

코퍼스는 언어 연구에서 빠질 수 없는 요소로 연구 의도에 맞는 적절한 코퍼스를 선택하는 것이 그 무엇보다 중요합니다. 예를 들어 쇼핑몰 댓글 반응을 분석하려는 연구에서 배달앱 후기글 코퍼스를 준비하면 안되겠죠~?? (っ °Д °;)
또한, 개체명과 같은 주석이 포함된 그래프를 구축할 시 각 주석 (지명, 인명, 조직, 장소 등)에 해당하는 단어의 빈도를 파악할 수도 있어 코퍼스의 성격을 파악하기 좋아요!!
만약 경제 관련 기사 코퍼스를 연구할 땐 퍼센트(PCT)표현이 자주 등장하겠죠? 퍼센트, 날짜, 숫자 등 다양한 주석 태그를 설정해 어떤 표현이 자주 등장하는지 비교해보는 재미도 쏠쏠한 것 같아요😉
 

 

여기서, 감성분석이란? 소비자의 감성과 관련된 텍스트 정보를 자동으로 추출하는 텍스트 마이닝(Text Mining) 기술의 한 영역으로 문서의 주제보다 어떠한 감정을 가지고 있는가를 판단하여 분석하는 것을 의미해요. 예를 들어 상품에 대한 좋고 싫음을 나타내는 상품평이나 댓글 등을 분석할 때 사용되곤 합니다.*🤗 이와 같은 감성 키워드를 중심으로 하는 패턴문법은 감성분석이나 오피니언 마이닝 연구 등 다양하게 활용돼요.*
 
이 외에도 다른 프로그램과 연계해 코퍼스를 더 자세히 분석하거나, 주석 처리된 코퍼스를 AI의 학습기반으로 쓰는 등 다양한 분야에서 활용이 가능합니다.

 

*출처: [네이버 지식백과] 감성 분석 [Sentimental Analysis, 感性 分析] (IT용어사전, 한국정보통신기술협회)

 

 

 

언어 자료를 만들기 위해 먼저 그래프문법(LGG: Local Grammar Graph)부터 설정해야 합니다. 유니텍스를 실행한 후 {FSGraph}에서 {New}를 선택하면 그래프를 새로 생성할 수 있어요 😊 빈 공간에 문자열을 만든 후, 문장 구조 순서에 맞게 연결하면 끝👀, 이때 코퍼스 파일을 .txt 형식이 아닌 사전적용된 .snt 파일로 확장자를 변환시켜야 그래프를 텍스트 파일에 적용할 수 있단 점 잊지마세요

완성된 그래프를 다른 그래프에서 불러와 서브그래프로 활용할 수도 있어요👍

예를 들어 12, 5803, 9990 등 무한대의 숫자를 만들 수 있는 그림의 <TIP> 속 숫자 서브그래프를 다른 그래프에서 문자열 입력 란에 ‘:’키에 그래프 파일명을 입력해 불러올 수 있어요!
서브 그래프를 잘 활용하면 가독성도 좋아지고 여기저기 잘 쓸 수 있겠죠?(〃` 3′〃)
 
 

컴퓨터로 주관적인 감정을 파악할 수 있을까요? 있습니다!!😎 감성분석을 이용하면 말이죠.
그렇다면 유니텍스를 이용한 감성분석의 핵심은 무엇일까요? 바로 주석입니다.
긍정’/’부정등 주석 태그를 설정한 후, 긍정에 예쁘다’, 부정에 나쁘다처럼 문자열을 알맞게 연결하는 것이 !포인트!입니다. 참 쉽죠?👀
, 이때 댓글이나 상품평 등은 문법 파괴가 심하고, 신조어나 줄임말이 많이 쓰이므로 최대한 다양한 활용표현을 그래프에 삽입해야 합니다. 그렇기에 그래프 구축 전 코퍼스 분석을 꼼꼼히 해야 해요. 👌😁
 

 

주석 그래프는 감성분석 외에도 지명, 인명, 장소 등을 나타내는 개체명 분류에도 사용할 수 있어요. 주석 그래프는 머신러닝 연구에서 AI의 언어학습 기반이 되고, 유니텍스에서 사용자가 직접 주석 태그를 결정할 수 있기에 활용도가 굉장히 높단 장점이 있습니다. 🤗
복잡한 문장 구조가 포함된 그래프 구축을 할 때, 정교한 결과 도출과 편리성을 위해 품사 태그를 추가하는 것이 좋은데요. 품사 태그는 다음과 같습니다.
* <EV>: 동사 어미, <EA>: 형용사 어미 
* <JN>: 조사, <DS>: 부사
* <NS>: 명사, <VS>: 동사, <AS>: 형용사
 예를 들어 예쁘다의 활용형인 예뻤어를 인식하게 하고 싶다면, ‘예쁘다 <EA>의 문자열을 연결해주면 끝! >.* 문장 구조 자리에 맞게 품사 태그를 입력하면, 해당 품사에 맞는 단어를 자동으로 인식해줘요 ( ͡° ͜ʖ ͡°)
 

 

유니텍스만으로는 깊은 분석이 어렵다구? 걱정 마세요 (찡긋) 유니텍스로 만든 새로운 나만의 코퍼스를 다른 프로그램에 활용할 수 있답니다.😎
다음 그림은 개체명에 따른 단어 빈도를 시각화해 보여주는 프로그램인 ‘DECO-NERO’ 에 개체명 주석 그래프가 적용된 코퍼스를 적용한 모습인데요. ‘DECO-NERO’에 적용하면, 개체명에 따른 빈도를 한눈에 알아보기 쉽게 정리해준답니다. 👀
 

 

 

 


여기까지 ‘Unitex Graph Editor’를 활용한 언어분석을 마쳤습니다~!!(박수)
저 조차도 아직 많이 서툰 실력이지만, 유니텍스에 대한 기본 개념과 빅데이터 분석에 대한 원리를 간단히 설명해봤는데요. 이 기사를 통해 갑자기 유니텍스를 활용하고 빅데이터에 관심을 보인다..?? 까진 전혀 바라진 않지만, 생활 속에 깊이 자리 잡은 빅데이터 분석이 이러한 원리로 이루어지는구나~’라는 정도의 감만 잡으셨어도 만족합니다.😉
(더 참고할 사항은 한국외국어대학교 디지털언어지식콘텐츠연구센터 (http://dicora.kr/)를 참고하실 바랍니다👍)
문과생에겐 마냥 멀게만 느껴지실 수 있지만, 언어 빅데이터 분석은 언어에 대한 지식과 감이 중요하기에 혹여나 관심이 있으신 분들은 슬며시 공부를 해보는 것도 추천드려요.👌❤
혹시 저의 기사에서 궁금하신 점이나 지적해주실 점이 있다면, 언제나 연락 환영입니다🤗
다음에도 더 도움될 기사로 돌아오겠습니다. 감사합니다 💕