女人国产香蕉久久精品,免费中文熟妇在线影片密芽,免费av永久免费网址,欧美+视频,久久天堂综合亚洲伊人hd

×

4006-234-116

13681552278

手機(jī)版

公眾號

天晴創(chuàng)藝網(wǎng)站建設(shè)公司。主要為北京、天津全國各地提供網(wǎng)站建設(shè)與網(wǎng)頁設(shè)計制作服務(wù),歡迎大家咨詢。您的IP地址是:154.194.152.162。今天是:,,(),,現(xiàn)在是:15:21:24,

GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫

作者:天晴創(chuàng)藝發(fā)布時間:2019/2/14 15:24:05瀏覽次數(shù):11518文章出處:北京網(wǎng)站開發(fā)

      中文信息很多,但要找到合適的中文語料很難。
      有人看不下去了,在GitHub上開了一個項目,專門貢獻(xiàn)中文語料資源。
      他說,要為解決中文語料難找貢獻(xiàn)一份力量。
      什么樣的資源?
      目前,這個項目中一共有3種json版資源:
      包含104萬個詞條的維基百科資源,包含250萬篇新聞的新聞?wù)Z料,以及包含150萬個問答的百科類問答資源。
GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫

      一般來說,這些資源可以作為通用的中文語料,用于預(yù)訓(xùn)練或者構(gòu)建詞向量等等。
      不同的資源,用處也有不同,比如維基百科和問答百科,可以用來構(gòu)建知識問答等等。
      新聞?wù)Z料資源,囊括了標(biāo)題、關(guān)鍵詞、描述和正文,也可以用來訓(xùn)練標(biāo)題生成模型、關(guān)鍵詞生成模型等等。
      此外,在對數(shù)據(jù)集劃分過的新聞?wù)Z料和百科類問答資源中,只提供訓(xùn)練集和驗(yàn)證集高端網(wǎng)站建設(shè),不提供測試集數(shù)據(jù)的下載。
      是因?yàn)椤?br />       希望更多人參與
      資源的貢獻(xiàn)者表示,希望大家報告模型在驗(yàn)證集上的準(zhǔn)確率,并提供模型信息、方法描述、運(yùn)行方式,以及可運(yùn)行的源代碼(可選)。
      這些信息都有的話,資源貢獻(xiàn)者會在測試集上測試模型,并給出準(zhǔn)確率。
      他表示,項目中的語料庫將會不斷擴(kuò)充教育網(wǎng)站建設(shè),號召大家多多貢獻(xiàn)資源,并給出了相應(yīng)的目標(biāo):
      到2019年5月1日,放出10個百萬級中文語料&3個千萬級中文語料。
      到2019年12月31日鴻翔創(chuàng)意廣告,放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。
      從目前已經(jīng)有的資源來看,一個語料可以是一個問答,也可以是一個詞條等等。
      這份資源的貢獻(xiàn)者,名為徐亮,杭州實(shí)在智能的算法專家,主要關(guān)注文本分類、意圖識別、問答和面向任務(wù)的對話。

,

文章來源:北京網(wǎng)站開發(fā)

文章標(biāo)題:GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫

文本地址:http://www.cxgb.com.cn/info_1087.html

收藏本頁】【打印】【關(guān)閉

本文章Word文檔下載:word文檔下載 GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫

用戶評論

客戶評價

專業(yè)的網(wǎng)站建設(shè)、響應(yīng)式、手機(jī)站微信公眾號開發(fā)

© 2010-2022 北京天晴創(chuàng)藝科技有限公司 版權(quán)所有 京ICP備16050845號-2   

關(guān)注公眾號 關(guān)注公眾號

進(jìn)入手機(jī)版 進(jìn)入手機(jī)版