드디어 자막 만들기 글을 포스팅할 수 있게 되어 기쁘다~~ 내가 엄마는 아니지만, 세상에 뭔가를 태어나게 한다는 게 참 이렇게 어렵고, 책임감이 들 줄이야... ㅎㅎ, 이렇게 거창하게 시작하면 실망할 수도 있으니, 일단, go go~

현재 DVD 에서 자막을 추출하는 방법은 SubRip 을 사용하거나, VobSub(한글화패치)를 사용하고 있는 것으로 보인다.(DVD to HDD 방법과 이미지 처리된 자막 뽑는 방법을 보면 SubRip 사용법이 나오고, dvd 자막 빼내기에 대한 답글이나, DVD타이틀을 AVI파일로 만들기 - 3. 자막파일을 추출 및 변환하기 (VobSub)를 보면 VobSub 사용법이 나온다.) 그리고 나서, "한방에" 와 같은 프로그램을 사용해서 오류가 난 부분이나, sync 틀린 부분을 수정하는 것으로 보인다. 

한번에 DVD 에서 자막을 만들어내지 못하는 이유는 DVD 에 텍스트 형태의 자막이 들어있지 않기 때문이다. 아래를 보면 DVD 에 자막이 어떻게 들어있는지 볼 수 있다. DVD 자막은 그림파일 형태로 들어있다. 그림 파일이 아니라면, DVD 플레이어들은 폰트를 내장해야 할 것이다. 그래서 VobSub 에서 자막을 추출할 때에는 이미지 인식 방법을 사용한다. 아래와 같이 'a' 처럼 보이는 문자는 a 로 인식하기로 입력하면, 앞으로 나오는 모든 이미지들은 a 로 인식할 수 있다. 이렇게 입력된 문자들을 바탕으로 동일한 이미지 패턴에 대해서는 동일한 문자로 취급하고 넘어간다. 그래서, 어느 정도 입력하다 보면 거의 대부분 인식이 된다. 처음 하는 사람은 3~4시간 정도, 익숙해지면 1시간 정도면 할 수 있다고 한다. 그리고 영어보다, 한글이 오래 걸린다고 한다.



도스 실행파일이어서 command 창으로 작업을 해야 한다. "윈도우 키 + r" 을 눌러 "실행" 창을 열고, cmd 라고 입력하고 확인을 누른다.

그리고 나서 cd 명령을 사용해서, *.sup 와 sup2sub.exe 가 있는 디렉토리로 이동한다. (위의 윈도우 탐색기의 주소를 복사한 후, 도스 창에서 마우스 우클릭 하고 붙여 넣기를 하면 된다.)

그리고, sup2sub.exe -create Subpictures_20 라고 치고 엔터를 누르면 변환이 된다.(Subpictures_20.sup 라고 치지 않는다) 마찬가지로 Subpictures_21 에 대해서도 변환을 해준다. 그러면, Subpictures_20.idx, Subpictures_20.sub, Subpictures_21.idx, Subpictures_21.sub 파일 두 쌍이 생성된다.

[작업3 - SubtitleCreator 로 자막 인식] 세 번째로, SubtitleCreator v.2.2 를 다운 받아서 설치한다. (user guide 를 보면 .NET framework 2.0 가 필요하다. 설치하지 않으면 아마 실행 오류가 날 것이다. Vista 는 이미 .NET framework 3.0 이 설치되어 있으므로 괜찮다. 그리고 내 노트북에서 SutitleCreator v.2.31 로는 자막 인식이 제대로 동작하지 않았다.) 실행 뒤에 나오는 야시시한 그림이 불편하다면, C:\Program Files\SubtitleCreator\Data 폴더에 있는 NTSC720x480.jpg 와 Pal720x576.jpg 파일을 교체하면 된다. 파일 이름은 같고, 빈 그림 파일들로 만들어서 첨부한다. 
이제 Subtitle Creator 를 실행하고, 메뉴에서 "Tools" > "Recognize text using OCR" 를 실행한다. 한국어를 먼저 할 것이기 때문에 Language 옵션에서 KOREAN 을 선택해 주었다. 그리고, 아래에 있는 "Open file for Optical Character Recognition" 을 클릭한다.

 *.SUP 파일은 exception 이 발생하므로, VobSub 파일을 선택하도록 한다. 그리고, 약 4~5 분 정도 기다리면 텍스트를 자동으로 인식한다. (두근두근~ 얼마나 잘 인식되었을까 궁금한 순간이다.) 결과물로 Subpictures_20.srt 자막 파일이 생성된다.

[작업4 - srt 자막 파일을 smi 자막 파일로 변경] 이렇게 해서 자막 만들기가 마무리 되었다. SRT→SMI 변환 툴을 사용해 *.srt 파일을 *.smi 파일로 바꾸면 된다. 먼저 영어 자막인지, 한글 자막인지 구별해서 언어를 선택한다. 그리고, "Open and convert and save" 메뉴를 클릭해서 위에서 생성한 *.srt 파일을 선택하면 자동으로 변환이 된다.

[수정 작업 - 자막 이미지와 자막의 비교] 그런데, 자막이 100% 완전하게 인식되지는 않는다. 추가적으로 손을 보아야 하는데, "Tools" > "Translate SUP or VobSub to SRT" 를 실행해서 손을 볼 수 가 있다. 아래 창이 뜨는데, 첫번째로 나오는 IFO 파일은 지정하지 않아도 된다. 두 번째에 있는, IDX or SUB 파일은 위에서 만든 파일로 지정한다. 세 번째에 나오는, SRT 파일은 이미 자동으로 생성되어서 지정되어 있을 것이다.

아래와 같이 자막의 그림 파일과 인식된 *.srt 파일을 비교하면서 일일이 손을 볼 수가 있다. 원하는 만큼 작업한 후 저장해 놓으면, 나중에 다시 작업할 수 있다. 버그가 하나 있는데, *.srt 의 문장 갯수가 맞지 않는다는 에러 메세지가 나올 때가 있다. 이것은 *.srt 파일의 마지막 자막이 기록이 안 된 경우이다. *.srt 파일을 (메모장으로) 열어 (아무렇게나) 자막의 개수를 맞춰주면 편집이 가능하다. 혹은 자막 이미지 자체를 SubtitleCreator 가 제대로 보여주지 못하는 경우도 있는데, 이 때는 VobSub 을 설치해서 SubResync 로 자막 파일을 열어보면 제대로 보인다.

이렇게, 이렇게 해서 자막 만들기가 마무리 되었다. 어째 VobSub 으로 하는 것보다 훨씬 더 복잡해 보인다. ㅎㅎ 그리고, 아직은 문제도 좀 있다. 하지만, 한글이 인식된다는 장점이 있다.

그리고 나중에 다국어가 인식이 될 가능성이 있다. Non-English OCR in Microsoft Office Document Imaging (MODI) 글을 보면, OS 에서 해당 언어팩을 설치한 후, Office language pack(about $25/lang pack)을 설치하고, 언어마다의 service pack 을 설치하면 해당 언어가 인식 된다고 한다. 하지만, 내가 테스트해 본 바로는 Office2007 Document Imaging 환경에서는 SubtitleCreator 의 OCR 인식이 동작하지 않았다. 그리고 다국어 언어를 테스트 해보기 위해서는 Windows MUI(Multilingual User Interface)로 OS 를 깔아서 테스트해 보아야 한다.

둘째로, 나한테 자막파일을 처리할 수 있는 기술이 생겼다. 자막 specification 도 있고, 자막을 처리하는 간단한 소스도 있다. 조금씩 손 보면 [작업2번] 부터 자동화가 가능하다. 자~ 자~ 이제 부터는 다시 stress 관련 글을 쓰련다. 다시 일상으로 go back ~~
_M#]
Posted by 마몸

최근에 올라온 글

카테고리

모두 (497)
We BLOG (353)
테라피 (79)
재능 찾기 (62)

달력

«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

글 보관함