네이버뉴스 데이터수집

728x90

https://github.com/affjljoo3581/canrevan

안녕하세요! 저번에 직접 만든 Corpus 라이브러리를 소개했었는데요! (Expanda - https://github.com/affjljoo3581/Expanda)
아이러니하게도, 예시로 올린 네이버 뉴스 크롤링 라이브러리가 더 많은 관심을 받았습니다...🤨
사실 그와 관련해서, 이번에 데이터셋 규모를 조금 키울 필요가 있어서 살짝 성능 개선을 해보았습니다.
https://github.com/affjljoo3581/canrevan
예전에는 64 코어로 겨우겨우 수집했었는데요. 이번에는 일반 컴퓨터로도 더 빨리 수집할 수 있게 되었습니다!😃
제 경우는 13GB 정도 수집하는데 대략 9시간이 걸렸습니다. 비결은 바로 비동기 I/O 처리인데요, 성능상으로만 보면 약 100배 정도 빨라졌네요!
데이터를 수집하면서 항상 느끼는 점이 너무 느린 속도였는데요. 저처럼 답답하셨을 분들을 위해 공유해봅니다!😆

affjljoo3581/Expanda

The universal integrated corpus-building environment. - affjljoo3581/Expanda

github.com

affjljoo3581/canrevan

대량의 네이버 뉴스 기사를 수집하는 라이브러리입니다. Contribute to affjljoo3581/canrevan development by creating an account on GitHub.

github.com

728x90

저작자표시 비영리 (새창열림)

'최신기술 포스팅 링크' 카테고리의 다른 글

Spring Batch ItemWriter 성능 비교 (0)	2020.12.30
데이터분석가로서 업무 과정과 경험, 배움을 공유합니다 (0)	2020.12.30
JPA + Querydsl group_concat 사용법 (0)	2020.12.30
스프링부트2 외부 프로퍼티 설정 (0)	2020.12.30
HTTP/3는 왜 UDP를 선택한 것일까? (0)	2020.12.30
Azar Mirror 서버 제작기 (0)	2020.12.30
카카오 네이버 코테 (0)	2020.12.30
Netty 채팅 서버 (0)	2020.12.30

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

네이버뉴스 데이터수집

'최신기술 포스팅 링크' 카테고리의 다른 글

공지사항

카테고리

태그목록

글 보관함

달력

링크

nineDeveloper

LATEST FROM OUR BLOG

LATEST COMMENTS

BLOG VISITORS

티스토리툴바