GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫

作者：天晴創(chuàng)藝發(fā)布時間：2019/2/14 15:24:05瀏覽次數(shù)：11518文章出處：北京網(wǎng)站開發(fā)

中文信息很多，但要找到合適的中文語料很難。
  有人看不下去了，在GitHub上開了一個項目，專門貢獻(xiàn)中文語料資源。
  他說，要為解決中文語料難找貢獻(xiàn)一份力量。
  什么樣的資源？
  目前，這個項目中一共有3種json版資源：
  包含104萬個詞條的維基百科資源，包含250萬篇新聞的新聞?wù)Z料，以及包含150萬個問答的百科類問答資源。

  一般來說，這些資源可以作為通用的中文語料，用于預(yù)訓(xùn)練或者構(gòu)建詞向量等等。
  不同的資源，用處也有不同，比如維基百科和問答百科，可以用來構(gòu)建知識問答等等。
  新聞?wù)Z料資源，囊括了標(biāo)題、關(guān)鍵詞、描述和正文，也可以用來訓(xùn)練標(biāo)題生成模型、關(guān)鍵詞生成模型等等。
  此外，在對數(shù)據(jù)集劃分過的新聞?wù)Z料和百科類問答資源中，只提供訓(xùn)練集和驗(yàn)證集高端網(wǎng)站建設(shè)，不提供測試集數(shù)據(jù)的下載。
  是因?yàn)椤?br />   希望更多人參與
  資源的貢獻(xiàn)者表示，希望大家報告模型在驗(yàn)證集上的準(zhǔn)確率，并提供模型信息、方法描述、運(yùn)行方式，以及可運(yùn)行的源代碼（可選）。
  這些信息都有的話，資源貢獻(xiàn)者會在測試集上測試模型，并給出準(zhǔn)確率。
  他表示，項目中的語料庫將會不斷擴(kuò)充教育網(wǎng)站建設(shè)，號召大家多多貢獻(xiàn)資源，并給出了相應(yīng)的目標(biāo)：
  到2019年5月1日，放出10個百萬級中文語料&3個千萬級中文語料。
  到2019年12月31日鴻翔創(chuàng)意廣告，放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。
  從目前已經(jīng)有的資源來看，一個語料可以是一個問答，也可以是一個詞條等等。
  這份資源的貢獻(xiàn)者，名為徐亮，杭州實(shí)在智能的算法專家，主要關(guān)注文本分類、意圖識別、問答和面向任務(wù)的對話。

，

文章來源：北京網(wǎng)站開發(fā)

文章標(biāo)題：GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫

文本地址：http://www.cxgb.com.cn/info_1087.html

【收藏本頁】【打印】【關(guān)閉】

本文章Word文檔下載： GitHub出現(xiàn)一個大型中文NLP資源宣稱要放出億級語料庫