728x90
반응형
https://github.com/affjljoo3581/canrevan
안녕하세요! 저번에 직접 만든 Corpus 라이브러리를 소개했었는데요! (Expanda - https://github.com/affjljoo3581/Expanda)
아이러니하게도, 예시로 올린 네이버 뉴스 크롤링 라이브러리가 더 많은 관심을 받았습니다...🤨
사실 그와 관련해서, 이번에 데이터셋 규모를 조금 키울 필요가 있어서 살짝 성능 개선을 해보았습니다.
https://github.com/affjljoo3581/canrevan
예전에는 64 코어로 겨우겨우 수집했었는데요. 이번에는 일반 컴퓨터로도 더 빨리 수집할 수 있게 되었습니다!😃
제 경우는 13GB 정도 수집하는데 대략 9시간이 걸렸습니다. 비결은 바로 비동기 I/O 처리인데요, 성능상으로만 보면 약 100배 정도 빨라졌네요!
데이터를 수집하면서 항상 느끼는 점이 너무 느린 속도였는데요. 저처럼 답답하셨을 분들을 위해 공유해봅니다!😆
728x90
반응형
'최신기술 포스팅 링크' 카테고리의 다른 글
Spring Batch ItemWriter 성능 비교 (0) | 2020.12.30 |
---|---|
데이터분석가로서 업무 과정과 경험, 배움을 공유합니다 (0) | 2020.12.30 |
JPA + Querydsl group_concat 사용법 (0) | 2020.12.30 |
스프링부트2 외부 프로퍼티 설정 (0) | 2020.12.30 |
HTTP/3는 왜 UDP를 선택한 것일까? (0) | 2020.12.30 |
Azar Mirror 서버 제작기 (0) | 2020.12.30 |
카카오 네이버 코테 (0) | 2020.12.30 |
Netty 채팅 서버 (0) | 2020.12.30 |