PTShare - 乐享影视 让小水管也玩得起PT!

 找回密码
 立即注册
搜索
查看: 1827|回复: 0

【教程】图形字幕OCR心得及常用软件

[复制链接]
  • TA的每日心情
    开心
    2024-3-27 19:41
  • 签到天数: 1035 天

    [LV.10]以坛为家III

    发表于 2019-2-24 09:31:07 | 显示全部楼层 |阅读模式
    图形字幕OCR心得及常用软件

    前面的帖子说到提取DVD图形字幕,但最终目的是为了转成我们可以容易编辑的文本字幕。
    前面说过BD和DVD的字幕其实是一张张透明的8bit的图片,加入时间轴及位置索引后,字幕和音视频封装在同一个容器里。DVD容器就是VOB,BD容器就是m2ts。在播放中,BD靠着mpls,DVD靠着IFO发出指令,这些字幕图像就会在该出现的时候出现在该出现的地方了。
    明白这个道理后其实很多问题都迎刃而解,包括各种字幕的互转互换,还有BD的IG菜单、DVD菜单按钮的添加修改,还有BD、DVD播放中的小白兔等等,就都见怪不怪其怪自败了。
    我们常说的OCR就是光学字符识别的缩写(Optical Character Recognition),简单地说就是通过某种技术将图像信息转化成文字的识别技术。
    下面我用一张bdnxml图形字幕来举例说明,这张图非常直观。
    画面上右边看到的图片就是我们最终看到的字幕,左边的XML文件记录着字幕的各项属性,很明确地看到字幕的图片文件名,分辨率,开始时间,结束时间,也就是时间轴。还有字幕的宽高大小、位置等等图形字幕OCR心得及常用软件

    OCR的软件有很多,存在就是真理。每一种其实都有它的技术含量,也都有各自的拥护者。
      一般我们比较常用到的就是SubToSrt、subocr、IdxSubOcr,这些也正是代表了几种主流的OCR技术。
    这几款软件OCR之前都必须先转Idx+Sub,如何转Idx+Sub这个有很多方法,很多软件可以达成。本文主要讨论的是OCR,所以转换Idx+Sub不在本文的讨论范围。可参考以下帖子:
    http://www.cmct.cc/thread-132792-1-1.html

    下面我分别介绍这几种软件。这几款软件很多朋友应该都使用烂熟了。但还是会有些朋友在使用上会遇到这样或那样的问题。
    这几款软件使用上其实都相当简单,并不复杂。很多人失败的原因无非是缺少经验和没有认真看教程而已。
    先介绍一款我个人最常用的OCR软件。也是我强烈推荐给大家的一款软件。部分介绍直接引用作者老马的话。

    IdxSubOcr这款软件利用的是Microsoft Office Word 2003所带的Microsoft Office Document Imaging (MODI),这是目前唯一公开接口、支持多语言的商业级OCR引擎。

    这款小巧的软件使用比较简单:
    1.点击“打开idx文件”按钮,选择需要OCR/校对的idx文件。
    2.如果有必要,设置“毫秒分隔符”选项,即毫秒用小数点还是句号分隔。
    3. 如果有必要,勾选“OCR前先加粗处理”,避免因为笔画过细影响OCR质量。但如果文字笔画本来就不细,勾选此选项后可能造成笔画粘连,反而影响质量。
    4.在“操作选项”里,选择需要OCR/校对的字幕,及究竟是要OCR还是校对。
    如果是OCR,在接下来的“OCR”选项中,需要选择OCR语言及字幕颜色。注意这两个选项直接关系到OCR效果,所以必须认真选择:语言好说,颜色必须保证文字为实心字,空心字没法识别。 如果字幕第一行为空,则文字颜色可能不能选择,可以选择字幕其他行,直到能够选择颜色。OCR识别结束后,自动进入校对模式。
    如果是校对,界面上方显示字幕图像,下方显示文字,用户可以直接对文字进行编辑。在编辑框中可以使用上下箭头、PgDn、PgUp滚动。校对完成后,点击“保存srt文件”按钮存盘。

    在校对过程中,可以用“辅助功能”进行辅助,包括:
    ·文本替换。通常用来替换OCR中的一些习惯性错误。
    ·英文句首字母大写。某些英文字幕全是大写,看起来比较费劲,用这个可以转成小写。
    ·繁体转简体。繁体中文字幕OCR后的结果是GBK编码的繁体字,如果觉得麻烦,可以用这个功能转换成GB编码的简体字。

    对于这款软件的安装我提供些个人的经验供参考
    1.最好安装Microsoft Office Word 2003完整版。精简版可能会将你需要的东西阉割掉,让你OCR失败还不知道是为什么。
    2.安装Microsoft Office Word 2007也可以,不过个人认为不如Microsoft Office Word 2003方便。
    3. Microsoft Office 2010不再提供MODI组件,OCR功能改由OneNote完成,最靠谱的解决方案,要么安装Office 的 SharePoint Designer 2007 里面的识别引擎,然后把繁体识别用到的库文件放进去 ,要嘛就别用这个版本。
    4.OCR繁体中文字幕必须安装下面提供的繁体中文识别的东东。不然繁体识别一定失败。
    使用方法是
    下载繁体中文识别.zip
    将下面的文件复制到安装了简体中文Office 2003的相同文件夹下:
    C:\Program Files\Common Files\Microsoft Shared\MODI\11.0
    TCCODE.UNI
    TCPRINT.DAT
    TCPRINT2.DAT
    TCSERHT.DAT
    TCTREE.DAT
    TW_BU.DAT
    TW_UB.DAT
    TWBIG532.DLL
    双击reg文件导入注册表后,在MODI的OCR选项卡里,“OCR语言”即可看到“中文(繁体)”。注意导入注册表时必须先关闭所有MODI窗口,导入后再打开。


    这里赞一下这个软件的作者老马,老马是个非常好的软件开发者,平易近人,我在使用中有什么问题或有什么建议发邮件给老马,老马都及时回复。
    图形字幕OCR心得及常用软件

    软件下载地址:
    http://www.comicer.com/stronghorse/software/index.htm#IdxSubOcr

    http://pan.baidu.com/s/1i3L3BYP

    SubOCR也是一款使用OCR引擎的软件。据作者说所使用的 OCR 引擎是从超星图书阅读器里面截取出来的。
    SubOCR 使用也不复杂,可以识别简体中文和繁体中文的字幕,

    1.点击“文件”按钮,再点击“打开字幕文件”选择需要OCR的idx文件。
    2.点击“运行”按钮,在识别开始时候会要求你选择字幕的字芯颜色和简繁体。这个一定要选择正确,不然会准确才怪。
    3.OCR完成要记得点击“保存文本字幕”。

    但是这个软件的识别率不如IdxSubOcr的高,所以我还是推荐IdxSubOcr。不过有的时候搞不定IdxSubOcr的,可以尝试用SubOCR。
    从我截取的图中,大家也可以看到,如果字幕当中有分隔的,这个软件没有识别,而是合在一起。反观IdxSubOcr就会做出分隔,而分行的字幕,IdxSubOcr还会自动加上\N,非常贴心。   
    SubOCR 也可以用于识别英文字幕,但是效果并不是非常理想,因为英文字母一旦出现连在一起的情况就很难识别了,还是用Subrip 从vob 中直接识别的好。
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    Archiver|手机版|小黑屋|PTShare

    GMT+8, 2024-12-28 12:18

    Powered by Discuz! X3.4 Licensed

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表