문든 이런 생각이 든다.
뭔가 설명을 들으면 짱구를 굴리는 호모 사피엔스라는게 자칫 수동적이 되기 쉽다. 짱구를 굴린다는 게 부작용을 가져오는거다.
수동적으로 설명을 듣다보면 (이건 영어가 됐건 컴퓨터가 됐건 뭘 배우든 마찬가지다) 대부분 '그런가 보다~~' 하고 지나간다.
아무것도 남지 않는다.
(영어책 많이 보고 강의 많이 듣는 분들 중에도 이런 경우 많다. 고개 끄덕끄덕 거리고... 실력은 늘지 않는다.)
심심한데 문제 한번 내보자.
이곳에 오는 분들중에 외국 드라마나 영화 '영어 스크립트' 또는 '영어 자막'에 관심 갖는 분 많다.
동영상에 따라오는 자막인 경우에는 다음처럼 HTML 비슷한 포멧으로 저장된 경우가 대부분이다.
동영상 볼때는 문제 없지만 자료로 활용할때는 무쟈게 거추장스럽다.
이런 포멧의 파일을 사람이 편하게 볼 수 있는 텍스트 문서로 바꾸기 위해 여러분은 어떤 작업을 하는가?
고민해 보자.
부디 실제로 고민해보기 바란다.
삽질이 뭔지 느낄 수 있다.
다음은 Taken 이라는 미국 드라마 첫번째 에피소드의 자막 중 일부만 추출한거다.
'일부'라고 했다. 자막 파일 한개는 이보다 다섯배는 크고, 드라마라면 시즌당 대충 10~20개 이상이다.
실제로 화면에 나타나는 영문만 골라내야 한다면 어쩌겠는가?
고민해보자! (고민 안할거면 삽질 중독 재활센터는 읽을 필요도 없다ㅡ.ㅡ)
<Title>Netshow 3.0 - Close Captioning Sample</Title>
<STYLE TYPE="text/css">
P {margin-left:8pt; margin-right:8pt; margin-bottom:2pt; margin-top:2pt;
text-align:center; font-size:20pt; font-family:arial, sans-serif;
font-weight:normal; color:white;}
.EGCC {Name:English; lang:en-EN; SAMIType:CC;}
#STDPrn {Name:Standard Print;}
#LargePrn {Name:Large Print; font-size:20pt;}
#SmallPrn {Name:Small Print; font-size:10pt;}
<SYNC Start=20520><P Class=EGCC>
GIRL (ALLIE): My mother<br>
always talked to me
<SYNC Start=22033><P Class=EGCC>
<SYNC Start=22440><P Class=EGCC>
a lot about the sky.<br>
(Subtitle Revised by HchC)
<SYNC Start=24351><P Class=EGCC>
<SYNC Start=24560><P Class=EGCC>
She liked to watch<br>
the clouds in the day
<SYNC Start=26516><P Class=EGCC>
<SYNC Start=26720><P Class=EGCC>
and the stars at night...<br>
especially the stars.
<SYNC Start=31111><P Class=EGCC>
<SYNC Start=31520><P Class=EGCC>
We would play a game sometimes.
<SYNC Start=33954><P Class=EGCC>
<SYNC Start=34240><P Class=EGCC>
a game called<br>
"What's Beyond the Sky?"
<SYNC Start=37391><P Class=EGCC>
<SYNC Start=37600><P Class=EGCC>
We would imagine darkness<br>
or a blinding light
<SYNC Start=40956><P Class=EGCC>
<SYNC Start=41280><P Class=EGCC>
or something else that<br>
we didn't know how to name.
<SYNC Start=43953><P Class=EGCC>
<SYNC Start=44320><P Class=EGCC>
But. of course.<br>
that was just a game.
<SYNC Start=47949><P Class=EGCC>
<SYNC Start=48160><P Class=EGCC>
There's nothing beyond the sky.
<SYNC Start=50355><P Class=EGCC>
<SYNC Start=50560><P Class=EGCC>
The sky just is. and it goes on and on.
<SYNC Start=53711><P Class=EGCC>
<SYNC Start=53920><P Class=EGCC>
and we play all of our games<br>
beneath it.
<SYNC Start=56229><P Class=EGCC>
<SYNC Start=60200><P Class=EGCC>
Comin' in. twelve o'clock high!
<SYNC Start=62191><P Class=EGCC>
<SYNC Start=62400><P Class=EGCC>
Tail gunner. get the bogey!
<SYNC Start=65039><P Class=EGCC>
<SYNC Start=65440><P Class=EGCC>
<SYNC Start=66953><P Class=EGCC>
<SYNC Start=67200><P Class=EGCC>
give 'em short bursts<br>
when they're in range.
<SYNC Start=69395><P Class=EGCC>
<SYNC Start=69600><P Class=EGCC>
Do not waste ammunition.
<SYNC Start=70953><P Class=EGCC>
<SYNC Start=74640><P Class=EGCC>
Watch out!
<SYNC Start=76073><P Class=EGCC>
<SYNC Start=77920><P Class=EGCC>
Bandit, twelve o'clock.
<SYNC Start=80388><P Class=EGCC>
<SYNC Start=80800><P Class=EGCC>
Watch out,<br>
they'll come back around.
<SYNC Start=83268><P Class=EGCC>
<SYNC Start=83680><P Class=EGCC>
There's one! There's one!
<SYNC Start=85671><P Class=EGCC>
<SYNC Start=87520><P Class=EGCC>
- That was too close!<br>
- Roger that!
<SYNC Start=90080><P Class=EGCC>
<SYNC Start=91960><P Class=EGCC>
Nine o'clock!
<SYNC Start=93234><P Class=EGCC>
<SYNC Start=95680><P Class=EGCC>
He's comin' around.<br>
I'm on him!
<SYNC Start=97159><P Class=EGCC>
<SYNC Start=97560><P Class=EGCC>
Come on. you lousy Kraut!<br>
Come to papa! Yeah!
<SYNC Start=100154><P Class=EGCC>
<SYNC Start=100560><P Class=EGCC>
Whoo! I got him!
<SYNC Start=101709><P Class=EGCC>
<SYNC Start=101920><P Class=EGCC>
Nine o'clock.<br>
keep your eyes open!
<SYNC Start=104480><P Class=EGCC>
<SYNC Start=107200><P Class=EGCC>
There's another one!
<SYNC Start=108428><P Class=EGCC>
<SYNC Start=108640><P Class=EGCC>
<SYNC Start=110039><P Class=EGCC>
<SYNC Start=112320><P Class=EGCC>
<SYNC Start=113673><P Class=EGCC>
<SYNC Start=113880><P Class=EGCC>
What do you got, Toland?
<SYNC Start=114949><P Class=EGCC>
<SYNC Start=115160><P Class=EGCC>
Lights... blue ones.
<SYNC Start=117469><P Class=EGCC>
<SYNC Start=117680><P Class=EGCC>
- We see them. too!<br>
- Holy Mary!
<SYNC Start=118954><P Class=EGCC>
<SYNC Start=119360><P Class=EGCC>
- What the hell are they?<br>
- Let's get a look at these.
<SYNC Start=121032><P Class=EGCC>
<SYNC Start=121440><P Class=EGCC>
- Are they Germans?<br>
- They're too bright. I can't see!
<SYNC Start=124079><P Class=EGCC>
<SYNC Start=124480><P Class=EGCC>
Three bogeys. moving fast!
<SYNC Start=125959><P Class=EGCC>
<SYNC Start=126320><P Class=EGCC>
Everybody keep calm.<br>
We're gonna take care of this.
<SYNC Start=128959><P Class=EGCC>
<SYNC Start=129360><P Class=EGCC>
- Bandit. twelve o'clock!<br>
- F- 1s coming down on our left.
<SYNC Start=131476><P Class=EGCC>
<SYNC Start=131680><P Class=EGCC>
Head right. full throttle!
<SYNC Start=133796><P Class=EGCC>
<SYNC Start=137720><P Class=EGCC>
- I'm hit!<br>
- Oh, Christ! Russ!
<SYNC Start=139233><P Class=EGCC>
<SYNC Start=144440><P Class=EGCC>
- We're losing altitude!<br>
- We're losing engines!
<SYNC Start=146829><P Class=EGCC>
<SYNC Start=147040><P Class=EGCC>
Co-pilot. take the plane!
<SYNC Start=148393><P Class=EGCC>
<SYNC Start=148600><P Class=EGCC>
- Co-pilot, take the plane!<br>
- Yes, sir!
<SYNC Start=150511><P Class=EGCC>
<SYNC Start=150720><P Class=EGCC>
Captain Keys is on fire!
<SYNC Start=151948><P Class=EGCC>
<SYNC Start=152280><P Class=EGCC>
Cover his tail!
<SYNC Start=154350><P Class=EGCC>
<SYNC Start=154560><P Class=EGCC>
You hang on. Russ!<br>
We're gettin' out of here!
<SYNC Start=157199><P Class=EGCC>
<SYNC Start=157600><P Class=EGCC>
- We lost an engine!<br>
- Shut it down!
'JAVA > regex 정규표현식' 카테고리의 다른 글
패턴 인식 5.5 - 응용문제 (0) | 2014.10.28 |
패턴 인식 5 - 골라 골라~ (0) | 2014.10.28 |
패턴 인식 4 - 보이는 것과 보이지 않는 것 (0) | 2014.10.28 |
패턴 인식 3 - 정규식 입문 (0) | 2014.10.28 |
패턴 인식 2 - 정규식이란? (0) | 2014.10.28 |
패턴 인식 1 - 패턴이란? (0) | 2014.10.28 |
정규 표현식(Regex) 강좌 9편. 전후방탐색(lookaround) (0) | 2014.10.28 |
정규 표현식(Regex) 강좌 8편. 역참조(backreferences) (0) | 2014.10.28 |