크롤링한 텍스트 데이타를 가지고 본격적인 분석을 하기전에 분석에 도움이 되지 않는 데이타를 최대한 제거하는 과정이 필요합니다. 이 과정을 데이타 전처리 과정이라고 합니다.
이해를 쉽게 하기 위해 예를 가지고 설명을 하지요. 스타벅스라는 커피 전문점에서 카페 브랜드에 대한 소비자 인식, 이미지를 분석하는 상황을 가정해 보지요. 이를 위해 '카페' 또는 '커피'라는 키워드를 기준으로 sns상에서 10만건의 텍스트 메시지를 추출했다고 본다면,
이 크롤링한 텍스트 데이타안에는 보통 (아니 사실은 항상) 많은 양의 도움이 되지 않는 텍스트를 포함하고 있습니다. 이러한 텍스트를 부적합이 유형의 이해를 위해 4가지 유형이 데이타를 아래와 같이 정의하고자 한다.
<텍스트 데이타가 포함하고 있는 4가지 종류의 부적합 텍스트>
오류성 데이타: 추출하고자 한 텍스트 메시지가 아닌 잘못 수집된 데이타 (예: 광고, 동명이품성 메시지 등)
노이즈성 데이타: 추출하고자 한 텍스트 메시자내에 존재하는, 마케팅 분석을 통해 알고자 하는 내용과 관련이 없는 텍스트 데이타 (예: 조사(을, 는, 가 등), 의미없는 기호 (#, ; 등)
비 정보성 데이타: 적절한 메시지이나 분석하고자 하는 정보 이외의 정보를 담고 있는 데이타로, 분석, 프로젝트 목적에 따라 비 정보성 데이타는 달라집니다.
아래와 같은 텍스트 메시지 중에서, 프로젝트 목적이 브랜드 이미지 분석이라면, '오늘' '친구와' '그렇지만' 등이 비정보성 데이타에 해당한다.
예: "오늘, 스타벅스 카페에서 친구와 아메리카노를 마셨는데, 언제나 오면 그렇지만 스타벅스는 좀 친근한 느낌이다."
정보성 데이타라고 한다. 위 예시한 메시지에서 정보성 데이타는 아래와 같다.
'스타벅스 카페에서' '아메리카노 마셨는데' '좀 친근한 느낌'
데이타 전처리 과정은 위 4가지 유형의 데이타중 정보성 데이타만을 남기고, 최대한 1, 2, 3에 해당하는 데이타를 제거하고, 정보성 데이타에 대한 유형 분류(Catgorization) 과정을 의미한다. 전체 과정은 아래와 같이 5 단계로 진행된다.
1단계로, 오류성 데이타는 상당수 상업적 메시지나, 중복 메시지 제거로 걸러내며,
2단계로, 노이즈 데이타를 불용어 사전(Stopword dictionary)을 이용하여 상당 부분 제거해야 한다.