我最初的目的是为了提取字幕文件中的有用信息(含中文,英文,及常见标点),但srt格式的字幕文件
若以记事本方式打开会出现诸如“1
00:00:03,177 --> 00:00:07,937”这样的表明时段信息,很是麻烦。。
我想编个程序将源文件中有用信息提取后,能自动生成一个仅含有用信息的文件的程序。
我感觉这个程序并不太难,但限于本人某块知识上的漏洞,尚不能编出。
还望各位大虾多多帮忙。
[此贴子已经被作者于2006-8-19 0:12:46编辑过]
----------------解决方案--------------------------------------------------------
能给帖出一份字幕文件吗 ?
----------------解决方案--------------------------------------------------------
以下是friends season 1 中第八集的部分(有回车符)
1
00:00:06,982 --> 00:00:08,837
帅哥,如何?
2
00:00:09,670 --> 00:00:12,540
萤光灯下的脱水日本面
3
00:00:12,647 --> 00:00:14,469
我能有多好?
4
00:00:15,465 --> 00:00:16,512
问你一个问题
5
00:00:16,617 --> 00:00:18,079
你目前没有约会的对象吧?
6
00:00:18,185 --> 00:00:20,804
我遇见一个和你是绝配的人
7
00:00:20,906 --> 00:00:23,143
绝配或许是个问题
8
00:00:23,243 --> 00:00:25,829
你若说共同独立或自我毁灭的话…
9
00:00:27,085 --> 00:00:28,547
周六想要有个约会的对象吗?
10
00:00:28,653 --> 00:00:30,508
当然,拜托了
11
00:00:30,606 --> 00:00:33,989
他人帅而且风趣,他…
12
00:00:34,095 --> 00:00:36,484
他?
13
00:00:36,593 --> 00:00:38,698
糟了,我以为…
14
00:00:38,801 --> 00:00:41,551
你是个有为的青年
15
00:00:41,651 --> 00:00:45,296
很好,雪莉
我要到马桶去把自己冲掉
16
00:00:45,396 --> 00:00:46,858
再见
17
00:00:59,129 --> 00:01:02,675
主演:珍妮佛安妮斯顿
18
00:01:02,778 --> 00:01:06,608
主演:科妮寇克斯
19
00:01:06,716 --> 00:01:09,946
主演:丽莎库卓
20
00:01:12,734 --> 00:01:16,532
主演:马特李布朗
21
00:01:16,639 --> 00:01:20,666
主演:马修派瑞
22
00:01:20,769 --> 00:01:24,632
主演:大卫修蒙
23
00:01:33,221 --> 00:01:35,131
听完後
我没心情吃面了
24
00:01:35,238 --> 00:01:39,134
这不荒谬吗?
你能相信她会有这样的想法吗?
25
00:01:41,769 --> 00:01:45,731
我第一次见到你时
我以为你是
26
00:01:45,835 --> 00:01:46,663
制片:陶德史蒂芬
27
00:01:50,989 --> 00:01:52,199
你真的这样认为?
28
00:01:52,301 --> 00:01:54,920
对,但后来你在菲比的生日会上
29
00:01:55,022 --> 00:01:57,444
一直盯著我的胸部
我想你大概不是吧
30
00:01:57,551 --> 00:02:03,052
你们第一次看见我时
也是这样认为?
31
00:02:03,665 --> 00:02:04,941
我是
32
00:02:05,042 --> 00:02:07,147
导演:詹姆斯布罗
33
00:02:07,250 --> 00:02:08,941
导演:詹姆斯布罗
34
00:02:10,036 --> 00:02:13,452
虽然大学时代的苏珊
这样认为
35
00:02:13,557 --> 00:02:14,833
开什么玩笑?
36
00:02:15,317 --> 00:02:16,462
你有告诉她我不是吗?
没有
37
00:02:16,566 --> 00:02:21,074
因为我也想跟她约会
38
00:02:21,176 --> 00:02:24,886
我告诉她
你和伯尼是一对
39
00:02:26,266 --> 00:02:28,438
因为他也喜欢她
所以
40
00:02:33,180 --> 00:02:35,482
这简直是太神奇了
41
00:02:35,582 --> 00:02:37,721
是什么原因?
42
00:02:37,822 --> 00:02:39,251
我不知道
43
00:02:39,359 --> 00:02:41,181
因为你既聪明又风趣
44
00:02:41,279 --> 00:02:42,621
罗斯也是聪明又风趣
45
00:02:42,720 --> 00:02:45,208
你们有想过他是吗?
是哦
46
00:02:45,633 --> 00:02:47,641
到底是为什么?
47
00:02:48,514 --> 00:02:49,408
我也说不上来
48
00:02:49,506 --> 00:02:51,394
但你就是有那种调调
49
00:02:51,491 --> 00:02:52,865
没错
50
00:02:52,964 --> 00:02:55,867
调调?说得好
51
00:02:55,973 --> 00:02:58,494
我还担心你们看不出呢
52
00:03:05,193 --> 00:03:07,397
瑞秋,是保罗从罗马打来的
53
00:03:08,041 --> 00:03:10,081
天啊,从罗马打来
54
00:03:11,819 --> 00:03:14,853
(义大利语)
[此贴子已经被作者于2006-8-21 15:55:15编辑过]
----------------解决方案--------------------------------------------------------
恩,初步分析看来,
这种格式很整齐,会车换行比较规整,
用一个字符串搜索算法就可以了 。
大体思路:
用换行把文本分割,
检测各个行的格式,从而判断是时间,还是字幕文字,
既然能分析出来,你取出想要的就可以了。
----------------解决方案--------------------------------------------------------