客家文化數位化 台灣客語語料庫系統今上線    首頁|臺灣客語語料庫
   首頁|臺灣客語語料庫 https://bit.ly/3A8tkep
客語語料庫系統今日正式上線,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。(記者羅綺攝) 首頁|臺灣客語語料庫
客家文化數位化 台灣客語語料庫系統今上線 - 生活 - 自由時報電子報 https://bit.ly/3Aab7wT
2021/12/24 19:13
〔記者羅綺/台北報導〕數位化時代來臨!客家委員會透過建置AI客語語料庫,保存客家文化,至今已收錄超過600萬字客語資料。今日客語語料庫系統正式上線開放各界使用,客委會表示,未來將有助於客語研究與教學推展,並作為發展客語語音數位應用的基礎。
台灣的客語在過去50年以來,受到不當的打壓,使得客語迅速流失,客委會為了讓客語永續傳承、保存珍貴語料,自106年底開始建置台灣客語語料庫,將文字及語音數位化,創建台灣第一個本土語言語料庫,並結合AI技術,讓客語能與世界上強勢語言,如英語、日語等串聯對話,當國外的朋友要認識客語時,透過客語語料庫AI技術也能互相溝通
客委會委託國立政治大學建置台灣客語語料庫,以全台客語書寫的客語文本及以客語發音的口語內容作為語料來源。客委會表示,在書面語料方面,蒐羅已出版或對外發表的書面文本,並藉此契機,將台灣客語早期珍貴的作品到近期出版品盤點;而在口語語料部分,來源包含電視節目,或是由執行團隊親自採錄的客語口說內容,如訪談、演講、日常生活對話、說故事等,網址為https://corpus.hakka.gov.tw/。
客委會指出,語料庫所收錄的語料都經過轉寫,以及請專家進行文字校訂,並由系統斷詞;口語語料則再經專家人工聽取音檔、標記時間碼,以供系統辨識並串接文字及音訊區段。
客語語料庫的團隊主持人、政大英語系教授賴惠玲表示,客語語料庫是跨領域合作的產物,建置過程相當耗時費力,必須仰賴語言學、資訊工程、傳播領域的專家學們,帶領團隊進行語料蒐集、語料處理、系統建置等程序,才能將語言加工後並轉化成資訊,進一步串聯其他語言,最後結合成可被利用的工具語言。
台灣客語語料庫系統具有多項功能,一是資料視覺化與媒體展示,在入口網頁設有客語常用詞文字雲、客語特色詞彙展示,方便民眾快速瀏覽客語常用詞彙,並設有「口語人物誌」,展示語料庫收錄口語語料。二是語言典藏與保存,透過書面語料及及口語語料的蒐集完成台灣客語六腔的基礎保存,展現語言多樣性。
另在教學研究與數位化應用方面,也設置了語料檢索系統及客語斷詞及詞性標注器,能作為客語學術研究、教學推廣使用,後續更能成為台灣客語數位應用的重要素材。
此外,客委會也進一步規劃並建置「台灣客語語音資料庫」,其最大的特色是擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用。
客家文化數位化 台灣客語語料庫系統今上線 - 生活 - 自由時報電子報 https://bit.ly/3Aab7wT
------------------------
臺灣客語語料庫試用版上線 鍾孔炤邀全民共下迎接客語數位新時代    首頁|臺灣客語語料庫
張貼日期:2021-12-24臺灣客語語料庫試用版上線 鍾孔炤邀全民共下迎接客語數位新時代 | 客家委員會全球資訊網 https://bit.ly/3qFcyk6
客語數位化,臺灣客語語料庫試用版上線了!客家委員會自106年開始建置臺灣客語語料庫,迄今已收錄超過600萬字(含書面、口語)客語語料,語料庫系統於今(24)日正式上線開放各界試用,客委會副主任委員鍾孔炤表示,客語數位化的語料庫,不僅有助於客語研究及教學推展,更可以應用到日常生活中的各種大小事,讓學習客語變得很簡單,歡迎大家多多利用!
今日的臺灣客語語料庫試用版上線記者會,由國立政治大學英國語語文學系教授賴惠玲親自示範如何線上使用「臺灣客語語料庫試用版」,希望大家一起利用這些超過600萬字(含書面、口語)的珍貴客語語料,進行更多元面向的應用,另外,這次將語料庫結合人工智慧技術的團隊「華碩雲端有限公司」吳漢章總經理指出,語音資料庫最大的特色為,擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,讓客語迎接時代潮流。
客委會表示,客委會委託國立政治大學規劃建置「臺灣客語語料庫」,以全臺灣客語書寫的文本、發音內容作為語料來源。在書面語料方面,蒐羅已出版或對外發表的書面文本,並盤點臺灣從早期到近年,已出版的各種珍貴客語出版品;而口語語料部分,來源包含電視節目,或是由執行團隊親自採錄的客語口說內容,如訪談、演講、日常生活對話、說故事等。此外,語料蒐整工作號召了許多客語薪傳師協助,共同為保存客語盡一份心力。語料庫所收錄之語料都經過轉寫(轉檔),以及請專家進行文字校訂,並由系統斷詞;口語語料則再經專家人工聽取音檔、標記時間碼,以供系統辨識並串接語料文字及音訊區段。
臺灣客語語料庫系統具有多項功能,第一,資料視覺化與多媒體展示,於入口網頁設置客語常用詞文字雲、客語特色詞彙展示,將相關資訊視覺化,方便民眾快速瀏覽客語常用詞彙;同時設有「口語人物誌」,以多媒體形式展示本語料庫所收錄之口語語料。第二,語言典藏與保存,透過書面語料及口語語料的蒐集,完成臺灣客語六腔(四縣、海陸、大埔、饒平、詔安、南四縣)的基礎保存,其內涵包括保存語言資產、展現語言多樣性、記錄語言生命等多面向。第三,教學研究與數位化應用,語料檢索系統及客語斷詞及詞性標注器之設置,不僅能作為客語學術研究、教學推廣使用,更是完成臺灣客語的數位接軌,建立語言資料與資訊科技介接的管道,提供大數據分析能力,亦為後續臺灣客語數位應用的重要素材。
此外,隨著數位時代的來臨,客委會在臺灣客語語料庫基礎之上,進一步規劃並建置「臺灣客語語音資料庫」,由華碩雲端股份有限公司執行團隊以分年分階段逐步執行,語音資料庫最大的特色為擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,歡迎大家點選連結:https://corpus.hakka.gov.tw/ 一同徜徉珍貴的客語資料雲海,迎接全新客語時代      首頁|臺灣客語語料庫
-----------------------
台灣客語語料庫試用版上線 奠定數位應用基礎 | 生活 | 中央社 CNA https://bit.ly/3Ievegu(編輯:陳政偉)1101224台灣客語語料庫試用版上線 奠定數位應用基礎 | 生活 | 中央社 CNA https://bit.ly/3Ievegu
--------------------------
臺灣客語語料庫試用版上線 鍾孔炤邀全民共下迎接客語數位新時代
發稿時間:2021/12/24 18:28:42     首頁|臺灣客語語料庫
(中央社訊息服務20211224 18:28:42)客語數位化,臺灣客語語料庫試用版上線了!客家委員會自106年開始建置臺灣客語語料庫,迄今已收錄超過600萬字(含書面、口語)客語語料,語料庫系統於今(24)日正式上線開放各界試用,客委會副主任委員鍾孔炤表示,客語數位化的語料庫,不僅有助於客語研究及教學推展,更可以應用到日常生活中的各種大小事,讓學習客語變得很簡單,歡迎大家多多利用!
今日的臺灣客語語料庫試用版上線記者會,由國立政治大學英國語語文學系教授賴惠玲親自示範如何線上使用「臺灣客語語料庫試用版」,希望大家一起利用這些超過600萬字(含書面、口語)的珍貴客語語料,進行更多元面向的應用,另外,這次將語料庫結合人工智慧技術的團隊「華碩雲端有限公司」吳漢章總經理指出,語音資料庫最大的特色為,擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,讓客語迎接時代潮流。
客委會表示,客委會委託國立政治大學規劃建置「臺灣客語語料庫」,以全臺灣客語書寫的文本、發音內容作為語料來源。在書面語料方面,蒐羅已出版或對外發表的書面文本,並盤點臺灣從早期到近年,已出版的各種珍貴客語出版品;而口語語料部分,來源包含電視節目,或是由執行團隊親自採錄的客語口說內容,如訪談、演講、日常生活對話、說故事等。此外,語料蒐整工作號召了許多客語薪傳師協助,共同為保存客語盡一份心力。語料庫所收錄之語料都經過轉寫(轉檔),以及請專家進行文字校訂,並由系統斷詞;口語語料則再經專家人工聽取音檔、標記時間碼,以供系統辨識並串接語料文字及音訊區段。
臺灣客語語料庫系統具有多項功能,第一,資料視覺化與多媒體展示,於入口網頁設置客語常用詞文字雲、客語特色詞彙展示,將相關資訊視覺化,方便民眾快速瀏覽客語常用詞彙;同時設有「口語人物誌」,以多媒體形式展示本語料庫所收錄之口語語料。第二,語言典藏與保存,透過書面語料及口語語料的蒐集,完成臺灣客語六腔(四縣、海陸、大埔、饒平、詔安、南四縣)的基礎保存,其內涵包括保存語言資產、展現語言多樣性、記錄語言生命等多面向。第三,教學研究與數位化應用,語料檢索系統及客語斷詞及詞性標注器之設置,不僅能作為客語學術研究、教學推廣使用,更是完成臺灣客語的數位接軌,建立語言資料與資訊科技介接的管道,提供大數據分析能力,亦為後續臺灣客語數位應用的重要素材。
此外,隨著數位時代的來臨,客委會在臺灣客語語料庫基礎之上,進一步規劃並建置「臺灣客語語音資料庫」,由華碩雲端股份有限公司執行團隊以分年分階段逐步執行,語音資料庫最大的特色為擁有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用,歡迎大家點選連結:https://corpus.hakka.gov.tw/ 一同徜徉珍貴的客語資料雲海,迎接全新客語時代。臺灣客語語料庫試用版上線 鍾孔炤邀全民共下迎接客語數位新時代 | 中央社訊息平台 https://bit.ly/3qFrsXe
-------------------------
台灣客語語料庫試用版上線 奠定數位應用基礎    首頁|臺灣客語語料庫
新頭殼newtalk | 文/中央社
發布 2021.12.24 | 18:20
(中央社記者楊淑閔台北24日電)客家委員會舉辦「建置台灣客語語料庫」成果發表記者會,宣布台灣客語語料庫試用版今天上線,迄今收錄包含書面、口語逾600萬字客語語料,將為拓展客語語音數位應用奠定基礎。
客委會委託國立政治大學規劃建置台灣客語語料庫,政治大學教授賴惠玲說,台灣客語語料庫的語料來源為全台灣客語書寫的客語文本,以及客語發音的口語內容。網址為https://corpus.hakka.gov.tw/,開放使用。
她說明,其中書面語料方面,蒐羅台灣客語早期珍貴作品到近期出版品。
口語語料來源則包含電視節目,以及執行團隊採錄的客語口說內容,包含訪談、演講、日常生活對話、說故事等,相關工作並號召客語薪傳師協助完成。
她並說,台灣客語語料庫系統有數項功能,首先,「資料視覺化與多媒體展示」,入口網頁設置客語常用詞文字雲、客語特色詞彙展示,透過是覺化,方便民眾快速瀏覽。
其次,「語言典藏與保存」,透過書面語料及口語語料的蒐集,完成台灣客語六腔的基礎保存,這六腔包含四縣、海陸、大埔、饒平、詔安、南四縣。
第3是「教學研究與數位化應用」,語料檢索系統及客語斷詞及詞性標注器的設置,能作為客語學術研究、教學推廣使用,同時完成台灣客語的數位接軌,建立語言資料與資訊科技介接的管道,可提供大數據分析能力,成為後續台灣客語數位應用的重要元素。
參與建置語音資料庫的華碩雲端總經理吳漢章並說,資料庫內有各腔調客語語音辨識與語音合成語料,未來可結合人工智慧技術,發展客語數位應用
台灣客語語料庫試用版上線 奠定數位應用基礎 | 中央社 | 新頭殼 Newtalk https://bit.ly/3tAYwSh
--------------------------

arrow
arrow
    全站熱搜

    nicecasio 發表在 痞客邦 留言(0) 人氣()