텍스트 수집 후 가장 먼저 해야 할 일은, 앞으로 할 분석에 방해만 될 뿐, 일절 도움이 되지 않는 즉, 필요한 정보를 담고 있지 않은 텍스트 (불용어 stopwords)들을 분석 전 미리 최대한 제거하는 것이다. 이런 불용어들을 지정한 사전 (불용어 사전)을 구축한 뒤, 이 사전을 이용하여 수집한 텍스트들을 정제하게 된다. 때문에 불용어 사전은 텍스트 빅데이터를 분석 전에 정제하는 데 있어 반드시 필요한 부분이다. 분석하고자 하는 텍스트 데이터 중 분석에 도움이 되지 않는 불필요한 텍스트불용어(Stopwords)들을 최대한 제거하는 과정은 데이터 분석의 정확성을 높이고, 분석 비용 (시간, 컴퓨팅 리소스등)을 줄이기 위해 매우 중요하다.
하지만, 하지만, 이 불용어 리스트를 만드는 일은 반드시 인간의 노력이 요구되는 일이다. 컴퓨터 프로그래밍으로 자동화 하기가 현실적으로 불가능한 부분이다. 분석 목적에 따라 또 언어에 따라 불용어가 다르기 때문에, 생성AI등이 알아서 할 수 없는 영역의 작업으로 보통 불용어를 화일(불용어 사전)에 일일이 기록한 뒤, 프로그래밍으로 일일이 제거해야 한다. 또한, 불용어를 선별은 분석을 하는 사람의 목적과 분석 방식에 따라 달라지기에 분석에 관여하지 않는 사람이 해서는 분석에 필요한 표현을 삭제하는 경우가 발생하기 마련이다.
때문에, 체계적인 기준에 따라 사전에 개발된 불용어 사전을 이용하는 것이 바람직하지만, 문제는 국내에 체계적으로 적절한 방식으로 만들어진 불용어 사전이 현재 존재하지 않는다. 개인이 만든 불용어 사전이 일부 공개되어 있지만, 불용어 선정 기준을 제시하고 있지 않으며, 불용어 사전에 포함된 표현의 수가 대부분 매우 적으며, 불용어가 아닌 표현들이 다수 포함되어 있다. 현재, 한국어의 경우 표준 불용어 사전이 존재하지 않고 있는 상황인데, 기업/경영 관점에서 사용할 불용어 사전은 더더욱 존재하지 않는다.
이런 이유로, 기업 관점에서 텍스트 분석을 하는데 필요한 비즈니스용 불용어 사전을 직접 구축하게 되었다. 아직은 많이 부족하나 비즈니스 불용어 사전을 공유하고자 한다. 불용어 사전은 한글의 경우, 제대로 참고할 사전이 부족하며 특히 경영 분석에 필요한 불용어사전은 더욱 부족하기에 부득이 아래와 같이 비즈니스 불용어 사전을 직접 개발하여, 공유하고 있다. 또한 불용어 처리 프로그램역시 제공하고 있으니 필요하다면 사용하시고 다른 분들에게도 많이 공유 바란다.
기업 관점에서 텍스트 분석을 하는 분들 입장에서 텍스트 정제시 시간과 노력을 줄이는데 도움이 되기를 바란다. 본 시스템에서 제공하는 불용어 사전은 앞으로도 지속적으로 업데이트 및 개선 관리를 하기에, 시간이 갈 수록 유용할 것으로 기대된다.
*** 관련 파일 다운로드 가능 (2022년 1월 1일 ver)**
다운로드: 유의기호 사전 url