첫차 구매는 주로 사회 초년생에게서 일어나기 때문에 블라인드 ‘자동차’ 카테고리에서 ‘첫차’라는 단어가 포함되어 있는 최신 게시글의 댓글을 크롤링 하였다. 게시글은 일반적으로 ‘첫차 추천해줘’라는 글로, 이와 관련된 추천 정보 단어들은 댓글에 있기 때문에 본문은 제외하고 댓글만 크롤링하였다.
첫차 검색 이후 pseudo 코드 (프로토타이핑 과정 중 생긴 문제점은 빨간색)
사용 기술 스택: Selenium
수정할 수 있는 사항 : 댓글 1000개 → 게시글 1000개 내 댓글 전부
1000개의 게시글(약 1년간의 게시물)에서 12824개의 댓글을 수집하였다
Stopword가 없을 때
Stopword를 지정했을 때
my_stopwords = set(['그냥', '진짜', '더', '감사합니다', '차', '근데', '어차피', '그리고', '너무', '아님', '그래서', '무조건', '아니면', '좀', '다', 'ㅋㅋ', 'ㅋㅋㅋ', 'ㅠ', 'ㅠㅠ', 'ㅎㅎ', 'ㄱㄱ', '잘', '그', '걍', '난', '나도', '일단', '아', '오', 'ㅋㅋㅋㅋ', 'ㅇㅇ', 'ㄱ', '이', '안', '내', '내가', '형', '네', '됩니다', '합니다', 'ㅜ', 'ㅜㅜ', '후', '한', '가'])