728x90
반응형

호모 사피엔스는 짱구를 굴리며 산다.

 

오늘 달리기를 하다 짱구를 굴렸다.

 

정규식 편집기에서 정규식으로 뭔가 찾아서 보여만 줄게 아니라 찾은 것만 뽑아주면 어떨까...

 

그래서 집에 달려들어오자 마자 땀에 찌든 운동복 벗고 (글타... 벌거벗고 맹글었다. 야한가?^^) 뚝딱 뚝딱 기능을 집어넣었다.

 

이 기능 집어넣다가 버그도 한마리 잡았다.

 

추출 기능이란 이런거다.


 

 

 

네이버 블로그 소스를 클립보드로 복사한 다음 그 해당 소스에서 HTML 태그만 추출한거다. 내용은 몽땅 지우고...

 

역시 정규식 아니면 이딴 짓은 삽질을 넘어 뻘짓해야 한다. 정규식을 모르거나 정규식을 알아도 그걸 활용할 수 있는 도구가 없다면 웹문서에서 태그만 골라내는 일에 얼마나 시간이 많이 걸릴지 계산해보시라.

 

모두 추출 버튼 한번 누르는데 딱 1초 걸린다.

 

중복 제거 추출을 하면 중복되는 항목은 없애준다.

 

정렬 기능이 있어 발견된 순서대로 볼 수도 있고, 갈비씨디 순으로 정렬해 볼 수도 있다.

 

짱구라고 했다 짱구.

 

예전에 쓴 글에도 있지만...

 

정규식은 ART다. 예술이란 말이다. 그냥 스킬이 아니다.

 

정규식 아티스트가 되려면 언제나 짱구를 굴려야 한다.

 

한가지 예를 들어보자.

 

문서가 한 100개쯤 있다. 거기 담긴 이메일 주소를 몽땅 골라내는 일을 해야 한다.

 

어떻게 하겠는가? 문서가 100개에서 1000개로 늘어나면? 10000개 라면?

 

 

간단한 샘플을 보여주면...

 

내가 모으고 있는 자막들 중에 일부 디렉토리만 검색을 해서 자막내에 심어져 있는 이메일주소를 중복되지 않게 추출한 모습이다.

 

역시 짱구다.

 

백만건의 문서에서 전화번호 패턴만 골라낼 수도 있다.

 

정규식 아티스트가 되면...

 

심지어 영어문서에서 맘에 드는 예문만 골라서(예: 가정법 패턴, 완료 패턴이 들어간 문장만 추출) 예문 모음집을 만들 수도 있다.

 

어떻게 하냐고?

 

정규식 아티스트가 되시라. 그럼 할 수 있다.

 

모든게 패턴 아니던가.........

 

전화번호도...

 

이메일도...

 

영어 관사도...

 

가정법이라는 것도...

 

완료시제라는 것도...

 

패턴... 패턴... 패턴이다.

 

아, 추출 기능은 0.1a에 안들어간다. 디버깅 대충 끝나고 0.1b 나올때 공개한다.

 

패턴 인식 이야기 곧 시작하겠다.

 

달리기하고 와서 벌거벗고 프로그래밍했더니 춥고 배고프다ㅡ.ㅡ

728x90
반응형
블로그 이미지

nineDeveloper

안녕하세요 현직 개발자 입니다 ~ 빠르게 변화하는 세상에 뒤쳐지지 않도록 우리모두 열심히 공부합시다 ~! 개발공부는 넘나 재미있는 것~!

,