中文信息很多,但要找到合適的中文語料很難。
有人看不下去了,在GitHub上開了一個項目,專門貢獻(xiàn)中文語料資源。
他說,要為解決中文語料難找貢獻(xiàn)一份力量。
什么樣的資源?
目前,這個項目中一共有3種json版資源:
包含104萬個詞條的維基百科資源,包含250萬篇新聞的新聞?wù)Z料,以及包含150萬個問答的百科類問答資源。
一般來說,這些資源可以作為通用的中文語料,用于預(yù)訓(xùn)練或者構(gòu)建詞向量等等。
不同的資源,用處也有不同,比如維基百科和問答百科,可以用來構(gòu)建知識問答等等。
新聞?wù)Z料資源,囊括了標(biāo)題、關(guān)鍵詞、描述和正文,也可以用來訓(xùn)練標(biāo)題生成模型、關(guān)鍵詞生成模型等等。
此外,在對數(shù)據(jù)集劃分過的新聞?wù)Z料和百科類問答資源中,只提供訓(xùn)練集和驗(yàn)證集
高端網(wǎng)站建設(shè),不提供測試集數(shù)據(jù)的下載。
是因?yàn)椤?br />
希望更多人參與
資源的貢獻(xiàn)者表示,希望大家報告模型在驗(yàn)證集上的準(zhǔn)確率,并提供模型信息、方法描述、運(yùn)行方式,以及可運(yùn)行的源代碼(可選)。
這些信息都有的話,資源貢獻(xiàn)者會在測試集上測試模型,并給出準(zhǔn)確率。
他表示,項目中的語料庫將會不斷擴(kuò)充
教育網(wǎng)站建設(shè),號召大家多多貢獻(xiàn)資源,并給出了相應(yīng)的目標(biāo):
到2019年5月1日,放出10個百萬級中文語料&3個千萬級中文語料。
到2019年12月31日
鴻翔創(chuàng)意廣告,放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。
從目前已經(jīng)有的資源來看,一個語料可以是一個問答,也可以是一個詞條等等。
這份資源的貢獻(xiàn)者,名為徐亮,杭州實(shí)在智能的算法專家,主要關(guān)注文本分類、意圖識別、問答和面向任務(wù)的對話。
,