论坛3 | 乘云而起的互联网经济 张征 「影视数据重构语言学习」



  • 时间: 2016年7月28日
    发言人: 张征|英语魔方秀创始人&CEO
    主题: 影视数据重构语言学习


    今天准备了一系列的视频,希望通过视频能让大家感上一点兴趣。

    (视频)

    这个视频对产品做了一个基本介绍,下面这段视频是2013年的时候对产品做的宣传推广。

    (视频)

    跟大家交流一下,我们视频里面有一个小桥段,不知道大家注意到没有。我们以前学习的时候,经常有一个英语对话,问候:How are you?回答:Fine,Thank you,and you?这样的对白在你的脑海里一定像条件反射一样出现。学英语的过程对于我们很多人都已经有十几年,这十几年的过程很多人、甚至绝大多数人并不是很成功。那么问题何在?其实我们以前用的学习方法很受西方在20世纪50、60年代的一种心理学的一个方式的影响,当时他们强调是行为主义,他们认为这些人的心理行为就像巴布洛夫观察到狗看到食物会流口水,你可以建立起一系列的训练形成的条件反射,然后达成精巧、技巧的训练。这个理论作用下,我们发现你可以做成一些非常机械化的机器人可以做的一些,没有再创造的这种工作,但实际上语言里面包含极大创造性。

    我自己有一个小孩,他现在已经到了3岁多,在这3年多的成长过程里面,我发现他的语言技能得到非常快速的成长,在3岁多的时候,他几乎可以说是一个语法大师,一般中文里面能够用到的,他都已经能够创造性去表达,他没听到过的一些句式他也能够理解。这个时候就是说一个小朋友用3年多的时间,他就能够了解这个语言到底是怎么样吸收怎么样运用?这到底是为什么,一个小朋友花3年时间能做到,我们花十几年的时间做不到。

    很多人理解,把我放到国外去,生活一两年,什么问题都解决了,那是不是说环境就那么重要。那还有一个问题,我现在在中国没法出国怎么办?现在就有很多办法,要打电话找外教,外教贵不贵不说,那是不是真正跟我创造出来这样一种环境呢?他跟我聊的这些我能听得进去吗?我能互动得起来吗?这都有一些问题存在,我们还是回到英语魔方秀产品上面来。

    我们认为在孩子的语言学习过程中,有一个非常重要的事情,就是情景+体验,他学到的、他输入的每句话、他用到的每句话都是情景+体验,他没有过“只是要学中文,学你的母语”这样的过程,一定是跟他的体验密切结合。他想要喝这杯水,他想要吃这个食物,他想要达成某种共鸣,这时候,他所听的语言和所用的语言就高度融合在这个情景的体验之中了,所以情景+体验是语言学习中非常重要的提升效率的所在。

    我们大家回忆起来,我们输入这些语言的场景是什么?教材,看到教材课文,包括课堂里面老师给我们的讲授。输出的场景是作业的练习还有考试、测验,这些都是我们场景的输入输出的内容。但这些内容没有体验,没有这些真正的情景。

    我们英语魔方秀做看电影学英语这件事。看电影在电影的元素中包含了大量的这些情景,而且这些情景包含了这些事情的时间、地点、人物、起因、经过结果,矛盾非常突出,人物性格非常鲜明,这些情景之下用户印象非常之深刻,而且我们还创造了一系列的体验。在这一系列的体验中,让用户能够跟这个情景融为一体。比如说我们通过用户的跟踪模仿能够形成自己的一个个人配音作品,这时候他就会微博微信上分享给他的好友。另外在配音过程中,实际上可以扮演一部影视剧里面不同角色,可以跟别人在这里面体验交流沟通的感觉。还有我们通过一种技术方案去做声文识别,通过用户的几句话语音输入,分析出来你的声音音色上你天生像哪个国外明星,这个时候如果发现你的声音天生就像明星,我找到这样的影视片断你就天生应该为他去配音,所以这个片断就属于你。我们创造了一系列的这样的体验过程,希望用户能够融入其中,包括我们后来也提供了一种直播的体验。在这个直播场景里面大家都可以同一时间观看我们影视语料库里提供的视频片断,大家围绕着这个视频片断可以互动交流,上麦,跟别人一起互动扮演里面的角色,去实践这个语言。我们希望我们新的这种体验带来的是情景输入,通过影视语料库挖掘出大量情景,并且能够创造出一系列体验情景,让用户体验语言交流的价值。

    英语魔方秀基于视频语料库,能创造出什么不一样的输入的内容来?体验情景到底是什么样的感受,看一个片子来感受一下。

    (视频)

    大家已经看到了,大量影视片断里面都有我们讲到的语言现象,其实我们有950万条影视数据的积累,在这些950万条数据已经结构化,在数据库中可以随时被被检索,并被挖掘出来用于组成大家刚才看到的片断。这里面有4075万的词汇出现过,消重以后会变成20万的词汇量。接下来还有给大家更有感觉的信息。

    现在看一部美国电影,一定会出现8733个词汇,消重以后只有1322个词。也就是说你到电影院脱离字幕看电影,你只要掌握一千多个词汇,你就可以脱离字幕看下来了。但是以前我们都畏惧这样的体验,不敢做,知道这样的数据,你是不是胆子更大一点。再有就是每部电影对白数量其实没有那么多,只有1433句,平均下来也就这么多。

    还有一些数据,比如电影中最常出现的连续两个词,这应该是在影视中对白台词里面影响力最大、最流行的、最常用出现的连续两个词,其实就是非常有意思的一个结果:you know,在口语里经常会出现you know;如果说最常出现的连续三个词,结果也很有意思,就是i don not know;还有最常出现的连续四个词:what are you doing? 连续出现的五个词:what are you talking about,这些其实是语言里最常出现的现象,在我们的影视里面你会发现往往这种连续出现的5个词连读现象非常严重,我们有具体的内容在讲连读现象是怎么回事。

    然后我们也对整体语料库里的词进行了一个分析,我们可以看到下面横轴是词汇量,到了20万的时候是人类不可能做到的。但是在前面你可以找到一个点,比如说在3000这个点,你可以覆盖到影视语料库的91%,这让我们感到宽慰的数据,这3000个词,我们考过大学四级的人,一般都要掌握4800多个词,但这3千多个词是不是放入囊中了呢?事实上并不是这么容易。我们先来看看,这两个词太简单了,这是排在401位和402位的,所有人都知道。但我们再来看看这个词,403位,如果各位有人认识,能告诉我们一下。如果真的大家不认识这个词汇,那确实我当时看到这个词汇的时候我也心中一拧,我竟然学了那么多年,这个在影视语料库里面出现频次如此之高的词汇我竟然不了解,当时我的心就凉了,这个词给我留下非常深刻的印象,Slingshot,就是弹弓,但是影视语料库为什么这么多使用频次,它其实很多时候形容快速动作情况里边会用到这个词,比如科幻片里火箭发射都会用到,这个词使用频次太多。这在英语魔方秀里面会给大家提供充分的这种场景,让大家能够使用到它。为什么这个词这么常用,但是我们却不知道。

    后面还有吓人的,比如说641位,grind,还有751位evidence,这只是在在1000个词之内。我们上初中差不多已经掌握1000多单词,但是在上初中的时候,你却发现很多在影视语料库里边他们大量出现的词汇是被影视内容多次重复使用,这个如果你不掌握,那其实可能会严重影响到你的输入的这种体验,你在电影院里边看到一个Imax,屏幕那么大,你却只能盯着下面一行字幕。

    现在英语魔方秀的内容,像刚才那样的视频,单月内容被浏览的次数,累计魔友魔坊秀作品,有这样的数字。我们当初希望通过这个产品让大家能够开口去说,说一句也好,但是后来我们发现用户说起来的话,串起来能用132年,这让我们感到成就感爆棚,我们希望用户能有更多机会去用到英语,只有这个时候你才能够体会到这个语言的价值。这个视频其实是一个用户在配音作品里的配音,声音并不大,这段视频描述母亲节的场景,当时用户使用这段视频,一遍一遍地跟读模仿,做好一个作品分享给自己的妈妈,告诉他从小到大,我对你是关心的,是爱护的,有很多魔友们发出这样的作品,跟自己的爸爸妈妈分享,我们希望语言能够直指人心,能够学到一些真的有价值的内容,去触动别人,打动别人。

    我们接着往下可以看另外一个视频。这个视频也挺有意思,当时我们有一个用户要表白,他用英语魔方秀表白的时候,很巧妙使用了影视语料库而且还达成了目的。这些魔都是我们同事,这个视频是他的表白视频,大家看看作为女生你看到这样的视频会不会被打动。

    (视频)

    他精心制作,深情款款。中间有视频电影插入进来,是他自己选的。

    我们不看完,我们往下走,我们看到了用户有这样的作品以后,其实我们也有一个回应。当时在情人节里边,有这样一系列的影视片断被混剪成可以为他们献上祝福的内容,这也是影视数据库的价值。

    魔方英语秀的实现历程

    我们希望用自己的努力换来更多的价值,其实给大家回顾一下我们这几年的历程。2010年开始做这件事情,最早的时候,我们自己是使用一台PC服务器,就放在一个角落里面。后面我们就开始使用一些比较像样的服务器,不停运到各种各样的机房里面去,运到机房一般都要花上一两天时间,把一系列问题解决掉。我们后来在2011年的时候,能有像样的办公室的时候,我们就选了一个比较好的机房,把一台买的戴尔比较新的服务器给送到机房里面去。但是后面的时候,我们发现这件事越来越牵扯精力,2012年的时候我们还在西二旗干过一段时间,当然现在也在西二旗,我们当时在民居里边做这件事情的时候,其实还是为运维这个事情苦恼,当时我们就两个人,做这件事确实没有精力。

    到2013年年底,我们就开始使用青云提供的IaaS服务。当时也是青云刚刚开始,我们的投资者想要投青云,和我们讲,他们正在做尽职调查,魔方天空你们帮我做DB,做的时候就测了阿里云和青云的对比,我们发觉在IO性能上青云以绝对优势胜出其它云平台,然后我们就选择青云,这是非常简单的一些理由。

    在2014年的时候我们也拿到A轮融资。我在2014年的时候,我教我的孩子给英语魔方秀做一些ID。跟海绵宝宝学口语。

    (视频)

    这个是当时,他在2岁的时候学话,真的就是从模仿开始。这个过程后边他是有进步的。在我们的产品迭代过程中,他的语言也在进展。直到后来我们在2016年春节上线自己的直播功能,2016年产品做了一些变化,韩雪加入团队。

    (视频)

    现在韩雪她的英语老师也是汤唯的英语老师,汤唯在艺人圈里面英语确实不错,所以老师推荐给她这个应用,韩雪使用确实放不下来,就分享到微博上面。我们就发现有这样的大V使用英语魔方秀,后来发现不只是她,像明星圈张含韵,包括中国国际广播电台的主播们也在使用这个产品,包括东哥(刘强东)。我们产品还没有来得及做推广,但是大家可以看到大学、中学、小学中有大量的用户,包括英孚这样的机构,2016年已经在全面的使用英语模仿秀来举办他们的全球英语挑战赛。我们希望这款产品能够给大家带来价值,教育不是灌输,以前的教育过程让我们太痛了,感觉学海无涯苦作舟,我们希望学习的体验是能够给人快乐,能点燃学习的火焰,希望在青云的平台上有更多的开发者能够创造更多的这种体验,乘云而起把这个火烧的原来越旺。


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待