「繁體中文AI開源實踐計畫」於 8/3 COSCUP 開源人年會舉辦成果發表會,分享計畫近半年以來的開源成果,並分享專案過程中的挑戰與突破。
- 計畫網站:https://sch001.g0v.tw/means/
- Hugging Face:https://huggingface.co/aigrant
- 成果發表會直播影片:https://youtube.com/playlist?list=PLdwQWxpS513CYIfSY_LTHEMuVi07ci0BN&feature=shared
台灣語言模型競技場 Taiwan Chatbot Arena
「台灣語言模型競技場」專案建立了一個平台,讓使用者測試和評分不同的語言模型,並利用收集到的數據優化繁體中文模型的表現。該專案收集了超過3000筆測試數據,成功提升了語言模型的對話品質,並提供了資料下載和模型訓練功能,支持進階使用者進行個性化開發。
- 專案簡介:https://sch001.g0v.tw/dash/prj/Psgw1_h15KNJoFo55nCCo4GTTi_Q7C
- Hugging Face:https://huggingface.co/datasets/aigrant/tw_chatbot_arena
- 成果發表影片:https://youtu.be/9TgSwfv7fLY?si=c5-C6SWq7RjB2boX
「LegaL Mind智慧法律諮詢系統」則專注於開發基於司法院公開文件的大型語言模型,為法律相關問題提供解答。該系統特別針對勞資爭議訴訟案件進行優化,通過深度學習模型幫助法律從業者和一般使用者更有效地處理法律問題,提升法律資訊的近用性與處理效率。
- 專案簡介:https://sch001.g0v.tw/dash/prj/PscU0Ax3sXd6bCUw57AB6Tybr4BlnR
- Hugging Face:https://huggingface.co/datasets/aigrant/Legal-Mind-Mix-160K
- 成果發表影片:https://youtu.be/iI2nYcXVfSo?si=8BIjnLTvMnrLoNi8
大量閱讀台灣研究的健康促進小幫手
在健康領域,「大量閱讀台灣研究的健康促進小幫手」專案致力於為台灣繁體中文健康醫療相關資料的收集與處理,專案團隊成功爬取了超過2300家醫療院所的網站數據,並累積了5萬筆高品質的訓練資料,這些資料將用於未來健康促進和醫療應用的AI模型訓練,推動台灣在健康數據開源領域的發展。
- 專案簡介:https://sch001.g0v.tw/dash/prj/PqYu6bC3rc.Ii6Qc5h99T3JtbtQn2o
- Hugging Face:https://huggingface.co/datasets/aigrant/medical_health
- 成果發表影片:https://youtu.be/XKIRXDEsqcc?si=lz4kYcPqc_2uT-Fb
「台灣AI教學共創實驗室」專案則專注於開發適應台灣教育需求的大型語言模型,特別針對台灣歷史、地理、公民與文學等領域。專案旨在設計出能準確反映台灣文化與教育需求的評測資料集,並提升AI技術在台灣教育現場的應用,為台灣教師整合AI技術提供後援。
- 專案簡介:https://sch001.g0v.tw/dash/prj/PwDWHhZ3DFGZfDP55_uBm3R_T3ypcr
- Hugging Face:https://huggingface.co/datasets/gatelynch/awesome-taiwan-knowledge
- 成果發表影片:https://youtu.be/7Byog48IF_g?si=axHS6Ls1D59d9KC6
立委發言觀測儀表板與政治時事資料集
此外,「立委發言觀測儀表板與政治時事資料集」專案結合AI技術與數據分析,為選民提供更全面的立委表現評估工具。該專案由報導者與歐噴有限公司(OpenFun)聯合開發,透過AI技術生成立委的發言摘要和議題分析,讓選民能夠更清晰地了解立委在關鍵議題上的立場,並促進選民做出更有依據的投票決策。
- 專案簡介:https://sch001.g0v.tw/dash/prj/PuH4T8g4v2yywCP85Wc9MluRFz_HCh
- Hugging Face:
https://huggingface.co/datasets/aigrant/taiwan-legislator-transcript
https://huggingface.co/datasets/aigrant/taiwan-ly-law-research - 成果發表影片:https://youtu.be/pYhizn95Gz0?si=8I-g6ylm5tqWJQLl
台語自動分詞與詞性標記系統
「台語自動分詞與詞性標記系統」專案則針對台語語料的整理與分析,目的是為台語的數位化資源提供支持。由於目前台語語料多以國字和拼音混用的形式存在且數量有限,專案團隊透過與學術機構合作,成功收集並整理了多類型的台語文本資料,並開發了台語分詞與詞性標記工具,以提高文本處理的精確度,為未來的台語語言模型訓練奠定了基礎。
- 專案簡介:https://sch001.g0v.tw/dash/prj/PwBWl.O3AIxboDff5pXCq.DBAx1Eza
- Hugging Face:https://huggingface.co/datasets/aigrant/Taiwanese-Chinese_characters-POJ-Collection
- 成果發表影片:https://youtu.be/mIPYXLtFuu4?si=Odab1Que6Nmoid7J
綜合討論:專案推進中的挑戰與心得
在討論過程中,團隊們分享了專案推進中的挑戰與心得。包含技術上的突破,部分團隊成員並非技術背景出身,但在推進專案的過程中,也逐步發展出新的應對方法,並在應用AI技術方面取得了進展。參與專案的團隊一致感謝贊助單位的支持,不僅加速了專案的開發進程,也激發了團隊對繁體中文AI開源發展的信心。
各團隊展望了AI技術在未來的應用方向,強調定義「好」的標準對於確保開發和數據處理工作的方向性至關重要。這些專案不僅展示了AI技術及本土資料庫在台灣語言處理、法律諮詢、健康促進、教育以及政治監督領域的可能性,也為未來更多元的AI應用開啟了新的可能性。隨著技術的進一步成熟,這些專案有望在各自的領域內產生更大的影響力,為台灣在全球AI技術浪潮中建立基礎。
更多消息,請見官方網站:https://sch001.g0v.tw/means/
【合作舉辦單位】(依筆劃排序)
g0v Sch001 零時小學校(https://sch001.g0v.tw/)
g0v 揪松團(https://jothon.g0v.tw/about/)
Taiwan National Treasure Foundation
財團法人開放文化基金會
財團法人開拓文教基金會
【贊助單位】
Brighter Capital(https://brightercapital.com/)
*發表會之直播影片*