728x90
반응형

https://github.com/affjljoo3581/canrevan

안녕하세요! 저번에 직접 만든 Corpus 라이브러리를 소개했었는데요! (Expanda - https://github.com/affjljoo3581/Expanda)
아이러니하게도, 예시로 올린 네이버 뉴스 크롤링 라이브러리가 더 많은 관심을 받았습니다...🤨
사실 그와 관련해서, 이번에 데이터셋 규모를 조금 키울 필요가 있어서 살짝 성능 개선을 해보았습니다.
https://github.com/affjljoo3581/canrevan
예전에는 64 코어로 겨우겨우 수집했었는데요. 이번에는 일반 컴퓨터로도 더 빨리 수집할 수 있게 되었습니다!😃
제 경우는 13GB 정도 수집하는데 대략 9시간이 걸렸습니다. 비결은 바로 비동기 I/O 처리인데요, 성능상으로만 보면 약 100배 정도 빨라졌네요!
데이터를 수집하면서 항상 느끼는 점이 너무 느린 속도였는데요. 저처럼 답답하셨을 분들을 위해 공유해봅니다!😆

 

affjljoo3581/Expanda

The universal integrated corpus-building environment. - affjljoo3581/Expanda

github.com

 

affjljoo3581/canrevan

대량의 네이버 뉴스 기사를 수집하는 라이브러리입니다. Contribute to affjljoo3581/canrevan development by creating an account on GitHub.

github.com

 

728x90
반응형
블로그 이미지

nineDeveloper

안녕하세요 현직 개발자 입니다 ~ 빠르게 변화하는 세상에 뒤쳐지지 않도록 우리모두 열심히 공부합시다 ~! 개발공부는 넘나 재미있는 것~!

,