了一個四聲識別器,和整體的識別系統結合起來。就像分詞一樣,一定不能先把四聲識別出來,而要考慮所有的可能性,再作出總體最優的選擇。
在他們三人以及後來加入的幾位副研究員的努力下,很快,一箇中文語音識別系統就做出來了。
此後,陳正和我發現這個系統不但可以做語音識別,也可以做拼音轉換。我們嘗試了一下,果然轉換率比當時任何系統都要高很多。除此之外,我們還發現可以用統計模型做出一種奇妙的功效——
自動糾正人為造成的拼寫錯誤,也就是說,如果你打入:“zunjingdelixansheng”,這個系統可以發現你少打了一個“i”,而自動轉換成“尊敬的李先生”。後來,這個專案,由陳正做核心的技術,王堅做使用者介面,成為了一個高質量的輸入法。
在短短的一年內,這個五人團隊就做出了多項傲人的成果:中文的四聲識別、最精確的輸入法、中文的聽寫機,還有多用途的統計語言模型。這些
專案都符合了我們“有用”的目標,也用我們的“兵團”模式迅速獲得了成果。
與此同時,研究院裡其他小組,都在為有用的夢想而全力打拼。向比爾彙報
在研究院成立之初,我就有一個願望——有朝一日,我要走進比爾蓋茨的辦公室,向他展示微軟中國研究院的成果。
這種彙報,是展示中國智慧最好的機會,也是讓比爾信任“中國智慧”的最好契機。我希望中國研究院因此獲得更多的經費和更有力的支援。
從進入研究院開始,我就把這個願景分享給我的同事和朋友們。因此,向比爾彙報,成了我們共同的夢想。在美國出版的一些有關微軟和比爾蓋茨的書籍中,“向比爾彙報”是一個最引人入勝的章節,它們像武俠小說那樣跌宕起伏、玄機重重。一方面,它給你無與倫比的愉悅;另一方面,蓋茨有可能在最短的時間裡挑出你報告裡的問題,然後步步緊逼,讓你無法招架,最後,你非但得不到半點成就感,還會被潮水般的質疑和批評淹沒。
因此,如果沒有百分之百的把握,是不能到比爾那裡去彙報的。蓋茨的時間富貴,所以每個產品團隊每年最多向他彙報一次,但他特別重視研究院,所以公司每個季度都會安排彙報。
1999年6 月,裡克雷斯特來北京參加“21 世紀的計算”大會,看到研究院做出的一些初步成果。他找到我,說:“開復,我本來想安排你明年2 月給蓋茨作彙報,但是現在看來,你們已經達到了見他的水平,要不然你今年10 月就去見他吧!我來安排。”
我又驚又喜。一回到希格瑪,就把這個好訊息告訴了大家,他們和我的感覺一樣,既興奮又緊張。我也趁勢鼓舞大家,“我們手裡的研究專案可要加快節奏了!大家要加把勁了!”
從那一天起,整個研究院進入了一種“備戰”
狀態。
那是整整一個月的不眠夜!
音字技術組,我們的語音識別系統已經裝入 5萬個中文單詞,但是四聲的識別總是出問題。另外,我們從《人民日報》社買了大量的語料,邸爍負責這些語料來訓練我們的“語言模型”,做軟體開發的孫燕峰,則負責把“模型”融入一個更大的系統,他馬不停蹄地奔走於北京和雷德蒙之間,不分晝夜。
多通道使用者介面組,王堅和陳正一直在完善他們的無模式使用者介面,直到我帶去美國的前一分鐘,他們還在除錯。
網路多媒體組,亞勤交出了他的多媒體壓縮成果。而且,在MPEG…4 的標準裡,組員李世鵬得到了一個國際標準,這不但是微軟貢獻的標準,也是中國貢獻的標準。
形象計算組,沈向洋正在完善他的三維模擬環境,讓你用一臺普通的電腦,就能進入一個逼真的三維環境,並漫步其間。他的技術,是基於數十萬張圖片的貼上,與前面提過的蘋果 QuickTime VR很像,但更龐大、更逼真。
多媒體計算組,張宏江做出了聰明的圖片檢索。你只要圈出一個人的臉,他的系統就能在相簿裡找出更多這個人的臉,這個系統還能做影片分類,把足球、籃球、田徑都精確地自動標出。
1999年10 月18 日,微軟雷德蒙總部一如往常,中國研究院的第一次“向比爾彙報”靜悄悄地開始了。
中國研究院的六位同事,第一次穿了同一款衣服——全黑色純棉夾克,作為彙報人,我穿了件純黑色的Polo 上衣。
蓋茨的辦公室