百度移动互联网战略:“深度学习”配合大数据
作者:网络转载 发布时间:[ 2013/5/21 9:41:58 ] 推荐标签:
路线选择的不同,使百度与腾讯、阿里的移动互联网战略可比性越来越弱。但百度的这个战略也面临挑战,大的不确定性来自于数据的来源

要搞清楚一个互联网公司当下的主要战略方向其实并不难,只要看它们的创始人在干嘛,基本能猜个八九不离十。以这个标准看,腾讯的马化腾在抓手机QQ,搜狐的张朝阳逼着自己看雷人电视剧,新浪的曹国伟当然还是在发微博,阿里巴巴的马云……退休了……
百度的李彦宏在做什么?他在年初成立了深度学习研究院(Institute of Deep Learning,IDL)并自任院长,亲自出马去延揽人才,并在全公司群发邮件介绍这些来自Facebook等硅谷巨头的技术专家。“以前算是VP入职,也是HR和分管高管发邮件介绍而已啊。”三天前,一位百度员工看着又一封Robin发出的新进专家介绍邮件说。
深度学习对百度有啥用?
今年3月,一位在Google领导重要研究项目的人物低调来访百度,还去清华大学讲了次课。淼叔当时发了一条微博,说他会见了一堆百度的技术高管,还可能帮百度在硅谷的研究员招兵买马。
这个人是Andrew Ng(吴恩达)。在他来访百度之后不久,即入选《时代》杂志年度全球有影响力100人,成为16位科技界代表之一。吴恩达现任斯坦福大学人工智能实验室主任。他与大公司合作的一个项目,则代表了互联网巨头的下一步方向:这个项目,叫做Google Brain,它的领域,是深度学习。
鉴于百度发布的研究成果比较少,我们可以用吴恩达取得的一些成果来侧面看看深度学习能干些什么:去年,吴恩达领导Google的科学家们,用16000台电脑模拟了一个模拟人脑神经网络出来,并向这个网络展示了1000万段随机从Youtube上选取的视频,看看它能学会什么。结果在完全没有外界干涉的条件下,它自己识别出了猫脸。
我们要注意的是,这种机器学习与我们通常意义上说的“机器识别”有所不同。现有的很多此类识别,需要人工输入一些用于对比的数据,或者一些已经进行初步分类、打好标签的数据,机器通过学习这些数据的共同点,得出规律,然后再去将规律应用于更大规模的数据中。粗略地说,这是一种“有监督的学习”,需要人工输入初始数据,有时候还要对识别结果进行判断,由此促进机器的学习速度。
而深度学习是一种“无监督的学习”。它基于一种学术假设:即人类对外界环境的了解过程终可以归结为一种单一算法,而人脑的神经元可以通过这种算法,分化出识别不同物体的能力。这个识别过程甚至完全不需要外界干预。
还是以识别猫脸为例:吴恩达给神经网络输入了一个单词“cat”,这个神经网络中并没有辞典,不了解这个单词的含义。但在观看了一千万段视频,它终确定,cat是那种毛茸茸的小动物。这个学习过程,与一个不懂英语的人,在没任何人教他的时候,通过独立观察学会“cat”的过程几乎一致。
现在我们可以看出,深度学习对百度有什么意义了。基本的,在门槛上,这个领域不是谁都能随便进来的,它需要有庞大的计算能力,海量的人类知识数据;更重要的,它能够完全自主地学习并数字化这个世界——然后可以让人们搜索任何东西啦。

sales@spasvo.com