用大數據教英文! 清華大學研究團隊開發雲端寫作教練
【大成報記者羅蔚舟/新竹報導】
「作家也會有寫作障礙,寫不出來英文論文,更是研究生常見的大問題!」國立清華大學資訊工程系教授張俊盛利用大數據資料,結合樣式文法的理論基礎,開發 WriteAhead 及 Linggle 兩套雲端教練寫作系統。
清大指出,「WriteAhead系統在4億6千萬字已發表論文的大數據中,挖掘出學術關鍵詞的數萬筆文法句型和例句,可預測一般作者寫作的下一步,有效協 助研究生英文論文寫作的難題」。更有趣的是「Linggle 系統處理1兆詞的網頁文字中,讓使用者查詢用字遣詞的各種問題:檢查文法是否正確,如何代換同義詞,如何選擇適當的搭配。例如,該用 heavy rain 還是 strong rain,或者 cultivate 常常搭配哪些名詞,或者如何形容 beach。你想得到的寫作問題,Linggle 幾乎都有答案」。
清華資工系「自然語言實驗室」長期研究數 位化文字語料庫,如何應用在電腦輔助語言學習。張俊盛與研究生包括 Joanne Boisson、吳鑑城、高定慧、張竟、顏孜曦等,共同研究開發 Linggle 和 WriteAhead 發表多篇重要國際會議的論文。他們也在雲端服務平台上提供雛形系統,供大眾透過瀏覽器免費使用。這兩套系統還未商品化,但使用簡便,可解決使用者寫作上的 問題。最近,有部落客主動撰寫推文,評斷Linggle 勝過德國的 NetSpeak 系統。更早前,美國海軍官校的英文教授 William Fletcher 無意中在清大的線上教材看到 Linggle 的開發說明,來函詢問並在「應用語言學百科全書」的專文中介紹 Linggle。
張教授研究發現,由母語作者文章或學者論文的大數據語料庫中,提煉出文法句型與例句建議,可有效協助學生寫作。其中,WriteAhead 的資料來自CiteSeer 學術搜尋引擎收錄的160萬篇英文論文,內含2000萬個句子,共4億6千萬詞;另外,WriteAhead 也運用波蘭學者提供的「維基編輯錯誤語料庫」(WikEd Error Corpus)的5千萬句10億詞超過1億筆增刪編輯記錄,擷取出大量寫作錯誤的文法句型,提供高精度的改錯規則。「我們很意外地發現結合樣式文法、大數據、統計分析,可以得到這麼有效的語言參考資訊」,張教授說。
他表示運用電腦在大數據中提煉出文法句型,效果逼近專家編輯的辭典(如去年出版的牛津學術英文辭典)。傳統的辭典雖然很有用,但是會造成查詢、寫作兩頭忙, 而且辭典的資料呈現方式固定不變,不會隨著寫作情境調整。相形之下,WriteAhead 提供互動式寫作環境,使用者輸入字詞後,系統會依照寫作的前後文,建議相關的文法與例句引導寫作,不但避免文法錯誤,還提示常用字詞、表達方式,讓使用者 以最合乎學術社群的方式寫作;至於 Linggle 則是英語語言學習搜尋引擎,透過「任意詞性+關鍵詞」的搜尋方式,協助使用者斟酌用字遣詞,強化英文寫作能力。
除 了追求學術上的研發突破,實驗室也由葉玫慈同學帶領下,以 WriteAhead 為案例參與清大科管院史欽泰前院長開設的「技術商品化課程」及科技部主辦的創業競賽,透過諮詢管理學教授與業界導師,不斷修正商業模式。張教授表示,雖然目前 WriteAhead 還只是個展示概念的雛形,已有出版社及高科技公司洽談商品化的合作。
不同文體、研究領域會有不一樣的表達方式,一套系統並不能對所有人一體適用。張俊盛教授也不諱言指出,目前WriteAhead比較適合研究生寫工程論文, 所以這項研究還需繼續蒐集資料,進行大規模的客製化。如何可以達成,對於國高中學生練習作文、研究生寫論文、職場電子郵件寫作等,都會有很大的助益。張教授補充說:「接下來,我們預計提供文章段落與結構建議,並提供外掛介面讓使用者在Microsoft Word 與 Google Docs 中使 WriteAhead。我們認為WriteAhead在寫作的未來世界中,一定會佔有一席之地。」
「作家也會有寫作障礙,寫不出來英文論文,更是研究生常見的大問題!」國立清華大學資訊工程系教授張俊盛利用大數據資料,結合樣式文法的理論基礎,開發 WriteAhead 及 Linggle 兩套雲端教練寫作系統。
清大指出,「WriteAhead系統在4億6千萬字已發表論文的大數據中,挖掘出學術關鍵詞的數萬筆文法句型和例句,可預測一般作者寫作的下一步,有效協 助研究生英文論文寫作的難題」。更有趣的是「Linggle 系統處理1兆詞的網頁文字中,讓使用者查詢用字遣詞的各種問題:檢查文法是否正確,如何代換同義詞,如何選擇適當的搭配。例如,該用 heavy rain 還是 strong rain,或者 cultivate 常常搭配哪些名詞,或者如何形容 beach。你想得到的寫作問題,Linggle 幾乎都有答案」。
清華資工系「自然語言實驗室」長期研究數 位化文字語料庫,如何應用在電腦輔助語言學習。張俊盛與研究生包括 Joanne Boisson、吳鑑城、高定慧、張竟、顏孜曦等,共同研究開發 Linggle 和 WriteAhead 發表多篇重要國際會議的論文。他們也在雲端服務平台上提供雛形系統,供大眾透過瀏覽器免費使用。這兩套系統還未商品化,但使用簡便,可解決使用者寫作上的 問題。最近,有部落客主動撰寫推文,評斷Linggle 勝過德國的 NetSpeak 系統。更早前,美國海軍官校的英文教授 William Fletcher 無意中在清大的線上教材看到 Linggle 的開發說明,來函詢問並在「應用語言學百科全書」的專文中介紹 Linggle。
張教授研究發現,由母語作者文章或學者論文的大數據語料庫中,提煉出文法句型與例句建議,可有效協助學生寫作。其中,WriteAhead 的資料來自CiteSeer 學術搜尋引擎收錄的160萬篇英文論文,內含2000萬個句子,共4億6千萬詞;另外,WriteAhead 也運用波蘭學者提供的「維基編輯錯誤語料庫」(WikEd Error Corpus)的5千萬句10億詞超過1億筆增刪編輯記錄,擷取出大量寫作錯誤的文法句型,提供高精度的改錯規則。「我們很意外地發現結合樣式文法、大數據、統計分析,可以得到這麼有效的語言參考資訊」,張教授說。
他表示運用電腦在大數據中提煉出文法句型,效果逼近專家編輯的辭典(如去年出版的牛津學術英文辭典)。傳統的辭典雖然很有用,但是會造成查詢、寫作兩頭忙, 而且辭典的資料呈現方式固定不變,不會隨著寫作情境調整。相形之下,WriteAhead 提供互動式寫作環境,使用者輸入字詞後,系統會依照寫作的前後文,建議相關的文法與例句引導寫作,不但避免文法錯誤,還提示常用字詞、表達方式,讓使用者 以最合乎學術社群的方式寫作;至於 Linggle 則是英語語言學習搜尋引擎,透過「任意詞性+關鍵詞」的搜尋方式,協助使用者斟酌用字遣詞,強化英文寫作能力。
除 了追求學術上的研發突破,實驗室也由葉玫慈同學帶領下,以 WriteAhead 為案例參與清大科管院史欽泰前院長開設的「技術商品化課程」及科技部主辦的創業競賽,透過諮詢管理學教授與業界導師,不斷修正商業模式。張教授表示,雖然目前 WriteAhead 還只是個展示概念的雛形,已有出版社及高科技公司洽談商品化的合作。
不同文體、研究領域會有不一樣的表達方式,一套系統並不能對所有人一體適用。張俊盛教授也不諱言指出,目前WriteAhead比較適合研究生寫工程論文, 所以這項研究還需繼續蒐集資料,進行大規模的客製化。如何可以達成,對於國高中學生練習作文、研究生寫論文、職場電子郵件寫作等,都會有很大的助益。張教授補充說:「接下來,我們預計提供文章段落與結構建議,並提供外掛介面讓使用者在Microsoft Word 與 Google Docs 中使 WriteAhead。我們認為WriteAhead在寫作的未來世界中,一定會佔有一席之地。」