이용시 궁금한 부분을 문의해주세요. 친절히 답변해 드리겠습니다.
제목 뉴스 데이터 수집시에 수집하는 기준은 무엇인가요?
작성자 김원확 작성일 2016-02-14 01:30:25
첨부파일

안녕하십니까.


데이터 수집중 궁금한 점이 있어 문의드립니다.


데이터를 수집하는데 데이터량과 수집량의 차이가 있는데

랜덤으로 수집하는 것인지 중복이 제거되어 수집하는 것인지 궁금합니다.


아래는 제가 직접 수집한 결과입니다.


예) 

채널 섹션 데이터량 수집량
naver 뉴스 4580 594
daum 뉴스 10900
293



댓글 [1]
더아이엠씨 데이터량의 경우 네이버나 다음에서 제공하는 전체 데이터량을 말합니다.
키워드로 검색시 유사어, 연관어 등 관련있는 모든 데이터들이 나타나게 됩니다.
위 4580의 모든 데이터를 제공하지 않고 가장 정확도가 높은
1000개의 데이터만 유저에게 제공합니다.

수집량의 경우에는 유저에게 제공하는 1000개의 데이터 중 텍스톰이 키워드가 들어가있는
데이터만 수집하여 데이터량과 수집량이 차이가 나는 것 입니다.

다른 궁금한 점이 있으시면 답변해드리도록 하겠습니다.

감사합니다. 2016-02-15