시간은 점점 늦어가는데 잠은 안 온다. 조카랑 너무 신나게 논 탓일까? 아이가 부모한테서 떨어지기 싫은 것 만큼이나, 부모도 아이한테서 떨어지기 힘들다는 말이 실감나는 밤이다. 흐음... 글이나 쓰자~

요새 영어 공부를 하고 있는데, 영어 공부는 안 하고, 영어 사전만 찾고 있다. 헐~~ 먼저 소개할 사전은 StarDict 사전이다. 좋은 사전의 첫 번째 요건은 풍부한 어휘이다. 그리고, 사용하기 편리한 것. 마지막으로 자신의 스타일에 어울리는 사전일 것이다. StarDict 는 우선 사전 데이터가 풍부하다. 얼마나 풍부하냐 하면...

 여기에 더해서, 한글 관련 사전도 이렇게나 있다.

Posted by 마몸
요새 동영상이 대세인 것 같다. 예전의 PMP 를 비롯해, PSP, 요새 iPod touch, 그리고 전자 사전에서 제공하는 동영상 기능, 그리고 좋은 핸드폰들... 하지만, 이렇게 편리한 기기들이 있어도 동영상을 보지 못하는 한 가지 장벽이 있으니, 바로 "인코딩" 이라는 벽이다. 한편, "인코딩" 을 해주는 프로그램인 "인코더" 도 봇물처럼 나오고 있다. 우선 다음 팟 인코더 가 있고, 곰 인코더도 있다. 조금 더 찾아보면, 바닥이나 여러 가지 무료로 쓸 수 있는 인코더 들이 있다. 그 중, 다음 팟 인코더나 곰 인코더가 사용하기 편리한 인터페이스를 갖추고 있는 것 같다. 

난 주로 다음 팟 인코더를 사용하는데, 곰 인코더가 좋다는 말을 들어 보았다. 그러나, 사용하려니 곰 인코더는 로그인을 해야 하고, 사용하려면 월 1000원을 내야 한다. 음... 프로그램에 적당한 사용료를 줄 필요는 있는데, 다른 쪽에서 무료로 제공하고 있으니 참 난감하다---;

아무튼 친구의 전자사전 iRiver 딕플 D5에 동영상을 넣어주려고 하는데, 어떻게 넣어야 하는지 모르겠다. 대충 400 x 240 해상도, 15 프레임을 재생할 수 있다고 하는데, 인코딩 설정할 게 너무 많다. 다행히 곰 인코더에서는 현재까지 나온 수많은 기기에 적합한 인코딩 설정을 제공해 준다. 그래서, 곰 인코더에서 설정을 확인하고, 다음 팟 인코더에서 인코딩 솩솩~~
Posted by 마몸
예전에는 Yahoo! 미니 사전을 사용했었다. 이 사전은 Hooking 기능을 사용해서 마우스를 갖다 대면 밑줄이 쫙 그어지고, 사전 검색 결과를 보여주는게 재미있었다. 그러나, 가끔씩 나의 의지와 상관없이 튀어나오는 업데이트 메세지가 탐탁치 않았다. 요새는 주로 Naver 영어 사전이나 Daum 영어 사전을 사용한다. 숙어나 문장까지 검색되는 것으로는 가장 좋은 사전이 아닐까 생각한다. 특히 네이버는 작은 창을 띄워 놓고 작업할 수 있어 편리하다.

그러나, 이 사전들은 인터넷에 연결되어 있어야 사용할 수 있다는 점~~! 매번 인터넷이 되는 장소로 찾아가기도 번거롭고, 무엇보다도 인터넷이 연결되어 있으면 번역하다가 샛길로 새기가 쉽다. ㅎㅎ 아는 분의 부탁으로 iPod Touch 에 영어 사전을 설치해 주게 되었다. 너무 너무 너무 사전이 풍부하고 좋아서, 나도 iPod Touch 를 지르고 싶은 마음이 차올랐다. 하지만, 주머니 사정을 고려해서 일단 접고... iPod Touch 에 설치했던 WeDict 를 내 PMP(T43 DIC) 에 설치해보려고 노력했다.

우선 WeDict 는 오픈 소스 형태인 StarDict 프로젝트로 공개되어 있었다. 그리고, 큐토피아용으로 만들어진 소스도 있었다. But... 소스만 있어서, 컴파일 해야 한다. mipsel 로 누가 컴파일 해주면 좋으련만... 이걸 컴파일 하려고 리눅스를 다시 깔기엔 너무 번거롭다. 헐~~~ 난, 그 대신 Zbedic 을 PMP 에 설치했다. 사전 데이터는 나중에 다운 받아 넣어봐야 겠다. (설치방법, 문제해결1, 문제해결2, 사전데이터1, 사전데이터2 ,Tree explorer 는 문제해결2에서 다운) 

일단 StarDict 를 PMP 에 설치하는 것은 유보~ 그렇다고, 물러날 내가 아니다. 오픈소스이므로 windows 용도 있을 것이라는 추측에 검색해 보니, 여러 가지 결과가 나왔다. Windows 버젼을 다운 받아 설치하고, 사전 데이터(1, 2, 3)를 추가하면 된다. 사전 데이터는 *.dz 압축을 풀어도 되고 안풀어도 된다.

사전 중에 가장 필요한 사전이 풍부한 영한 사전일 것이다. Google 로 잘 검색해 보면 Sisa_e4u 데이터가 있다. 하지만, 이 사전의 단점 하나~ 발음기호가 깨진 경우 검색 결과 자체에 포함 되지 않는다. (예: love) 여기를 참고해서 사전 데이터를 수정해 주면 된다. notepad++ 에 hex edit 플러그인으로 했다가 시간이 너무 오래 걸려서, winhex 로 했더니 몇 초밖에 걸리지 않았다. (그래도 accent 가 붙은 발음 기호는 ? 로 나타나지만, 검색에는 지장이 없다.) (참고1, 참고2, 참고3)

추가로 iPod touch 에 설치하는 방법, 레퍼드 사전에 추가하는 방법(1, 2)도 있다. iPod 1 세대는 해킹한 후에 WeDict 데이터 디렉토리에 *.idx 와 압축이 풀린 *.dict 파일을 넣어주면 된다. 2세대는 해킹이 되지 않았으므로, WeDict Pro 의  "Upload dictionaries" 메뉴를 사용한다. 그러면 1234 포트를 열어주는데, ftp 전송 프로그램으로 *.idx 와 *.dict 를 전송해 주면 된다.(1, 2, 3)

스트레스 관련 글은 쓰지 않고, 연달아 컴퓨터 관련 글이다. 게다가 불친절한 only 텍스트 모드의 글! 후훗~ 프로그래머 본성인가?
Posted by 마몸
드디어 자막 만들기 글을 포스팅할 수 있게 되어 기쁘다~~ 내가 엄마는 아니지만, 세상에 뭔가를 태어나게 한다는 게 참 이렇게 어렵고, 책임감이 들 줄이야... ㅎㅎ, 이렇게 거창하게 시작하면 실망할 수도 있으니, 일단, go go~

현재 DVD 에서 자막을 추출하는 방법은 SubRip 을 사용하거나, VobSub(한글화패치)를 사용하고 있는 것으로 보인다.(DVD to HDD 방법과 이미지 처리된 자막 뽑는 방법을 보면 SubRip 사용법이 나오고, dvd 자막 빼내기에 대한 답글이나, DVD타이틀을 AVI파일로 만들기 - 3. 자막파일을 추출 및 변환하기 (VobSub)를 보면 VobSub 사용법이 나온다.) 그리고 나서, "한방에" 와 같은 프로그램을 사용해서 오류가 난 부분이나, sync 틀린 부분을 수정하는 것으로 보인다. 

한번에 DVD 에서 자막을 만들어내지 못하는 이유는 DVD 에 텍스트 형태의 자막이 들어있지 않기 때문이다. 아래를 보면 DVD 에 자막이 어떻게 들어있는지 볼 수 있다. DVD 자막은 그림파일 형태로 들어있다. 그림 파일이 아니라면, DVD 플레이어들은 폰트를 내장해야 할 것이다. 그래서 VobSub 에서 자막을 추출할 때에는 이미지 인식 방법을 사용한다. 아래와 같이 'a' 처럼 보이는 문자는 a 로 인식하기로 입력하면, 앞으로 나오는 모든 이미지들은 a 로 인식할 수 있다. 이렇게 입력된 문자들을 바탕으로 동일한 이미지 패턴에 대해서는 동일한 문자로 취급하고 넘어간다. 그래서, 어느 정도 입력하다 보면 거의 대부분 인식이 된다. 처음 하는 사람은 3~4시간 정도, 익숙해지면 1시간 정도면 할 수 있다고 한다. 그리고 영어보다, 한글이 오래 걸린다고 한다.



도스 실행파일이어서 command 창으로 작업을 해야 한다. "윈도우 키 + r" 을 눌러 "실행" 창을 열고, cmd 라고 입력하고 확인을 누른다.

그리고 나서 cd 명령을 사용해서, *.sup 와 sup2sub.exe 가 있는 디렉토리로 이동한다. (위의 윈도우 탐색기의 주소를 복사한 후, 도스 창에서 마우스 우클릭 하고 붙여 넣기를 하면 된다.)

그리고, sup2sub.exe -create Subpictures_20 라고 치고 엔터를 누르면 변환이 된다.(Subpictures_20.sup 라고 치지 않는다) 마찬가지로 Subpictures_21 에 대해서도 변환을 해준다. 그러면, Subpictures_20.idx, Subpictures_20.sub, Subpictures_21.idx, Subpictures_21.sub 파일 두 쌍이 생성된다.

[작업3 - SubtitleCreator 로 자막 인식] 세 번째로, SubtitleCreator v.2.2 를 다운 받아서 설치한다. (user guide 를 보면 .NET framework 2.0 가 필요하다. 설치하지 않으면 아마 실행 오류가 날 것이다. Vista 는 이미 .NET framework 3.0 이 설치되어 있으므로 괜찮다. 그리고 내 노트북에서 SutitleCreator v.2.31 로는 자막 인식이 제대로 동작하지 않았다.) 실행 뒤에 나오는 야시시한 그림이 불편하다면, C:\Program Files\SubtitleCreator\Data 폴더에 있는 NTSC720x480.jpg 와 Pal720x576.jpg 파일을 교체하면 된다. 파일 이름은 같고, 빈 그림 파일들로 만들어서 첨부한다. 
이제 Subtitle Creator 를 실행하고, 메뉴에서 "Tools" > "Recognize text using OCR" 를 실행한다. 한국어를 먼저 할 것이기 때문에 Language 옵션에서 KOREAN 을 선택해 주었다. 그리고, 아래에 있는 "Open file for Optical Character Recognition" 을 클릭한다.

 *.SUP 파일은 exception 이 발생하므로, VobSub 파일을 선택하도록 한다. 그리고, 약 4~5 분 정도 기다리면 텍스트를 자동으로 인식한다. (두근두근~ 얼마나 잘 인식되었을까 궁금한 순간이다.) 결과물로 Subpictures_20.srt 자막 파일이 생성된다.

[작업4 - srt 자막 파일을 smi 자막 파일로 변경] 이렇게 해서 자막 만들기가 마무리 되었다. SRT→SMI 변환 툴을 사용해 *.srt 파일을 *.smi 파일로 바꾸면 된다. 먼저 영어 자막인지, 한글 자막인지 구별해서 언어를 선택한다. 그리고, "Open and convert and save" 메뉴를 클릭해서 위에서 생성한 *.srt 파일을 선택하면 자동으로 변환이 된다.

[수정 작업 - 자막 이미지와 자막의 비교] 그런데, 자막이 100% 완전하게 인식되지는 않는다. 추가적으로 손을 보아야 하는데, "Tools" > "Translate SUP or VobSub to SRT" 를 실행해서 손을 볼 수 가 있다. 아래 창이 뜨는데, 첫번째로 나오는 IFO 파일은 지정하지 않아도 된다. 두 번째에 있는, IDX or SUB 파일은 위에서 만든 파일로 지정한다. 세 번째에 나오는, SRT 파일은 이미 자동으로 생성되어서 지정되어 있을 것이다.

아래와 같이 자막의 그림 파일과 인식된 *.srt 파일을 비교하면서 일일이 손을 볼 수가 있다. 원하는 만큼 작업한 후 저장해 놓으면, 나중에 다시 작업할 수 있다. 버그가 하나 있는데, *.srt 의 문장 갯수가 맞지 않는다는 에러 메세지가 나올 때가 있다. 이것은 *.srt 파일의 마지막 자막이 기록이 안 된 경우이다. *.srt 파일을 (메모장으로) 열어 (아무렇게나) 자막의 개수를 맞춰주면 편집이 가능하다. 혹은 자막 이미지 자체를 SubtitleCreator 가 제대로 보여주지 못하는 경우도 있는데, 이 때는 VobSub 을 설치해서 SubResync 로 자막 파일을 열어보면 제대로 보인다.

이렇게, 이렇게 해서 자막 만들기가 마무리 되었다. 어째 VobSub 으로 하는 것보다 훨씬 더 복잡해 보인다. ㅎㅎ 그리고, 아직은 문제도 좀 있다. 하지만, 한글이 인식된다는 장점이 있다.

그리고 나중에 다국어가 인식이 될 가능성이 있다. Non-English OCR in Microsoft Office Document Imaging (MODI) 글을 보면, OS 에서 해당 언어팩을 설치한 후, Office language pack(about $25/lang pack)을 설치하고, 언어마다의 service pack 을 설치하면 해당 언어가 인식 된다고 한다. 하지만, 내가 테스트해 본 바로는 Office2007 Document Imaging 환경에서는 SubtitleCreator 의 OCR 인식이 동작하지 않았다. 그리고 다국어 언어를 테스트 해보기 위해서는 Windows MUI(Multilingual User Interface)로 OS 를 깔아서 테스트해 보아야 한다.

둘째로, 나한테 자막파일을 처리할 수 있는 기술이 생겼다. 자막 specification 도 있고, 자막을 처리하는 간단한 소스도 있다. 조금씩 손 보면 [작업2번] 부터 자동화가 가능하다. 자~ 자~ 이제 부터는 다시 stress 관련 글을 쓰련다. 다시 일상으로 go back ~~
_M#]
Posted by 마몸
다음으로 동영상을 만들기를 해본다. 오히려 동영상 쪽이 편리한 툴이 있어서, 음성 추출하기 보다 수월하다. 역시 [강좌] DVD에서 영상과 음성파일을 추출해보자를 참고해서 만들어 보았다. 이번에는 PgcDemux 를 실행한 후, Option 에서 "audio streams" 에 더해 "video streams" 을 체크한다. 원하는 Movie 의 *.IFO 파일을 택하고, Mode 에서 "by VOB id" 를 택하고, Domain 에서 "Titles" 택한 다음, 말림 막대에서 Movie 를 선택한다. 대충 재생 시간을 보면 제대로 택했는지 알 수 있다. 음성과 영상을 같이 추출해도 음성을 추출할 때와 시간이 비슷하게 걸린다. 45분 Movie 에서 영상과 음성 같이 추출하는데 걸린 시간은 7분 정도이고, 생성된 파일은 VideoFile.m2v 와 AudioFile_80.ac3 두 개이다


Posted by 마몸

최근에 올라온 글

카테고리

모두 (498)
We BLOG (353)
테라피 (72)
재능 찾기 (62)

달력

«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31

글 보관함