이용시 궁금한 부분을 문의해주세요. 친절히 답변해 드리겠습니다.
제목 데이터량과 수집량의 차이
작성자 조재인 작성일 2017-03-03 20:30:13
첨부파일

좋은 서비스 감사합니다.

네이버 뉴스에서 데이터를 수집하고 있는데요 데이터량과 수집량에 차이가 있는 것 같습니다.

기간내 존재하는 데이터를 다 가지고 오는게 아니므로 수집량이 데이터량보다 작게 나타나는 것일 텐데요

그렇다면 수집기준은 무엇인지요?


댓글 [1]
더아이엠씨 안녕하세요. 조재인님.
빅데이터 일관처리솔루션 텍스톰 담당자입니다.
포털사이트 데이터와 수집 데이터의 차이에 대해 문의 주셨는데요.
수집되는 데이터 량은 최대 1,000건 입니다. 이는 각 포털사이트에서 제공되는 최대 링크수가 1,000건이기 때문입니다.
검색되는 데이터가 1,000건이 넘을때, 수집되는 데이터는 설정한 기간을 기준으로 데이터가 수집됩니다.
예를들어, 수집 기간을 2017년 2월 1일부터 2017년 2월 28일로 설정하셨다면, 2월 1일 데이터부터 수집을 시작합니다. 따라서 1,000건이 넘을 경우, 가장 최신의 데이터가 수집에서 제외됩니다. 이 경우 최신 데이터까지 모두 수집하고 싶다면 기간을 나누어 분할 수집하는 방법을 사용할 수 있습니다.
답변이 도움이 되었기를 바랍니다.
오늘도 행복한 하루 보내시길 바랍니다.
감사합니다. :) 2017-03-06