微軟中國研究院的前兩年,大家確實是在用一種拼的精神去對待工作。一批世界一流的科學家,帶領一批聰明、拼命的年輕人,形成一個研究兵團,他們創造了奇蹟,結出了碩果。捲起袖子做老師
是不是做了院長,就可以不做專案了?我給自己的答案是:不行。其實原因非常簡單——人手不夠。
當時,研究院確立的研究方向之一是“音字技術組”,也就是教電腦聽話、講話。這個恰好是我的博士論文的內容,但是我早就脫離了這個領域,而且已經多年沒有寫程式。但在研究院,我是唯一懂這方面技術的人,我只有勉為其難地捲起袖子,和我招到的幾位副研究員一起工作。
邸爍和陳正是清華的高材生,儘管不是學語音的,但是l999年他們進入希格瑪大廈的時候,選擇了語音識別小組。每天,我拿著語音的教科書,從最基礎的知識開始教他們。讀完基礎的課本後,他們開始練習在這個新的領域程式設計,然後,我再把我的論文拿出來,一章一章地講給他們聽。這兩個年輕人都聰明過人,可以閱讀世界水平的學術論文。另外,他們可以利用微軟的“資源共享”制度,從美國研究院語音負責人那裡拿來全套的語音軟體。有了這些技術和原始碼,這就像攀登100層的高樓,兩人一開始就站在了50 層。他們倆進步神速,兩年後,都成了專案負責人,如今在不同的公司取得了驕人的成績。
在他們倆之後,我們組又來了個年輕人——高劍峰。高雖然也是名校(上海交通大學)的博士,但是他的專業是機械設計,方向是“工業造型”。因此,他經歷過一段頗為迷茫的時期。
那一年,我去上海交大招聘,正好遇到了高劍峰,就問他在研究些什麼?他興致勃勃地說了他的研究。我當頭潑了他一盆冷水,說,“這個東西在美國早過時了,你還研究什麼,還不如到微軟來換個有用的題目呢。”沒想到,他真的來了,闖過了應聘的重重關卡,加入了語音識別小組。
不過,他馬上感覺到了強大的壓力,邸爍和陳正不斷取得突破,而他連門道都沒摸清楚,有時候遇到一個問題,他還沒有弄明白是怎麼回事,人家已經解決了。
看到高劍峰非常苦惱,我開玩笑地對他說,“你是不是混進來的啊?”他抬頭看我,表情很窘迫。我笑了笑,對他說,“你不是計算機專業畢業的,但是我覺得你還是有潛力的,如果有不懂的問題,我覺得你可以去請教一下組裡的同事,畢竟我們是一個團隊,也歡迎你隨時來找我。”
高劍峰點了點頭,就去找邸爍和陳正了。這兩個小夥子一點都不吝嗇,把自己知道的東西都告訴了高劍鋒,一些問題經他們點撥,就輕鬆化解了。
在不斷的學習中,高劍峰的信心被慢慢地樹立了起來。他覺得,作研究就像一場長跑比賽,遇到了高手,被人家甩得很遠,不能著急,不能亂了方寸,該怎麼跑還是怎麼跑。他後來總是告訴新來的研究員不要在意中途的快慢,最後勝出的人,才是真正的勝者。
高劍峰就這麼跟了幾年,先學著跑,再自己跑,漸漸地不再感覺累。到了第四年,他已經是“專案帶頭人”,換句話說,他也是一個“領跑者”了。現在,他已經轉到微軟美國,在那裡做資深研究員。
語音識別不是僅僅把每個字分別識別出來,而是像人一樣,要運用到語言的知識。中文有一個特
殊的問題,就是分詞。一個笑話就是“杭州市長春藥店”,人們看到這個店名的時候,自然而然地知道是“杭州市/長春/藥店”。但是僅僅向前推一個字,電腦很可能會識別成為“杭州/市長/春藥店”。
如何做到正確的識別呢?我告訴陳正:“國內的語音識別往往是先分詞,然後識別。這是徹底的錯誤,因為第一次分詞總可能出錯,一定要同時分詞和識別,經過所有的排列與組合,挑選出最好的結合。”
然後,我發現我們的語言模型語料遠遠不夠。語言模型的功能是經過大量的統計,來判斷在下一個位置最可能出現哪些字,比如說,看到“尊敬的李”時,我們可能預測下面會是“先生”、“老師”、
“女士”等詞,各有不同的機率。我對他說,“在中國做語音搜尋統計,只聯絡到前面的一個詞,但是中文的語言特點是歧義特別多。僅僅依靠向前推一個詞,電腦並不能作出正確的判斷,至少要向前推兩個詞。”我們請黃昌寧教授去開始一個語料採購的計劃,訓練出這樣推兩個詞的語言模型。
另外,中文和英文很大的一個差別就是中文有四聲的識別。這方面團隊很快地做