중복 메시지 제거?

기능: 수집된 메시지 중 동일한 메시지들 제거
방식: *Delete_Overlapped_Messages 메세지 첫 글자 부터 20개 글자가 동일한 메시지들은 모두 삭제

Untitled

효과: 중복 문자를 제거하는 이유

동일 메시지가 반복되어 여러곳에 게시되는 경우, 대부분 이 메시지는 다음 3가지일 가능성이 매우 높다.

유형 1: 기업의 상업용 광고 유형 2: 소비자의 순수한 댓글이 아닌 다른 목적에 의해 만들어진 댓글 (알바생의 댓글 작업 등)

유형 3: 트위터 리트윗 처럼 처음 작성자의 글을 다른 사람들이 다른 곳에 재게재하는 경우

위 3가지 유형의 경우, 중복 메시지를 제거하지 않을 경우 다수의 의견이 아닌 소수의 의견 또는 순수하지 않은 상업적 의견일 가능성이 높기에 JLab Miner의 경우 제거를 하고 있다.
1. 작동 알고리즘
과부하를 줄이고, 처리 속도 향상을 위해 메세지 전체를 비교하지 않고, 대신 메시지 처음부터 지정한 글자수 (default: 10)만큼을 비교해 이 부분이 같다면 같은 메세지로 판정하고 더이상 비교 없이 해당 메시지를 제거한다.

주의: 비교 글자수를 너무 적게 하면 다른 메시지를 동일 메시지로 처리, 삭제할 가능성이 높아지므로 적정 비교 글자수를 정할 필요가 있다.
- 기능: 동일한 메시지 제거
- 효과: 광고, 상업적 알바 글, 프로그램이 자동으로 작성한 글 등 불필요한 메시지 제거
알고리즘
- AI 생성 코드 @희열 정 이것도 작동 여부 확인 바란다.
- 예제 카페후기데이터
- Code: 직접 작성 코드
JLab Miner 코드

알고리즘