您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. baikeac20121128

  2. 功能: 直接运行 自带网站发布,使用access数据库,无法额外安装服务器,方便新手。(也可以使用sql server数据库,建表baike.sql。) 导入导出 支持批量文本(txt或者htm)导入数据库,导入时支持TXT采用第一行作为标题,网页文件采用页面title作为标题。 支持excel数据导入数据库。 支持单个文本自定义格式(如mdx源文件格式)导入数据库。 支持从数据库直接导出数据为mdx源文件,即可用MdxBuilder直接转换为MDX词典。 导入导出进度条显示。 下载编辑 支持
  3. 所属分类:其它

    • 发布日期:2013-05-23
    • 文件大小:8mb
    • 提供者:bwsjkk
  1. 中文维基百科优良词条

  2. 维基百科共有984,308篇条目,其中1,295(刷新)篇为优良条目(约每760篇条目中有一篇)。该txt文档包含所有的优良词条。
  3. 所属分类:MySQL

    • 发布日期:2018-01-03
    • 文件大小:26kb
    • 提供者:u011936302
  1. java jwpl数据库结构文件

  2. JWPL(Java Wikipedia Library)是一个开源的访问wikipeida数据的Java API包,提供了快速访问维基百科中包含的消息,如重定向、类别、文章和链接结构的结构性访问接口。它提供的DataMachine 工具类可快速解析wiki格式文件,生成mysql的数据txt文件,可通过mysqlimport 导入到本地数据库中。
  3. 所属分类:Java

    • 发布日期:2018-04-25
    • 文件大小:8kb
    • 提供者:ws18921818762
  1. zhwiki.txt

  2. 将wiki上article数据进行下载,通过维基百科抽取工具将xml格式解析成txt格式,然后使用opencc将繁体转化为简体。在抽取时将文档分了段,因此只上传了部分文档
  3. 所属分类:深度学习

    • 发布日期:2019-05-09
    • 文件大小:67mb
    • 提供者:qq_34528437
  1. 聊天机器人代码.txt

  2. 维基百科中的机器人是指主要用于协助编者执行大量自动化、高速或机械式、繁琐的编辑工作的计算机程序或脚本及其所登录的帐户。
  3. 所属分类:机器学习

    • 发布日期:2019-07-16
    • 文件大小:61byte
    • 提供者:cy15625010944
  1. Entity_Processed_UTF_8.txt

  2. 由2019年7月1日的维基百科dump抽取,所有维基百科内的实体列表,id+title。不包括非实体页面。
  3. 所属分类:其它

    • 发布日期:2019-09-18
    • 文件大小:163mb
    • 提供者:adwenwen
  1. wikipedia2text-extracted.txt.bz2

  2. Tensorflow自然语言处理中训练Word2vec所使用的维基百科数据,原下载数据的地址已经失效,需要的可以下载我这个。
  3. 所属分类:互联网

    • 发布日期:2020-04-18
    • 文件大小:17mb
    • 提供者:Elenstone
  1. 维基中文语料.txt

  2. 我搜索了很多,发现关于维基百科物料的下载方式都很慢,努力了很久终于有所收获,和大家分享。有两个内容,一个为json接口版本,一个为已分词版本
  3. 所属分类:讲义

    • 发布日期:2020-03-19
    • 文件大小:238byte
    • 提供者:yh1208975072
  1. 中文维基百科语料库百度网盘网址.txt

  2. 本资源是维基百科中文网页的语料库(包含处理过的与未处理的),版本为2020-8-3版本,可适用于中文语料处理等训练集。由于文件过大,放在的百度网盘中,如果网盘被和谐或者其他原因造成的无法打开,请评论留言,本人看到后立即更改。 文件中包含的内容有:未经处理的维基百科语料库、使用代码处理繁体转简体并jieba分词后的语料库、繁体转简体的代码,读者可根据自己的需要进行相应的提取。
  3. 所属分类:Python

    • 发布日期:2020-08-10
    • 文件大小:769byte
    • 提供者:qq_35357274
  1. 维基百科中文词向量.zip

  2. 维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训
  3. 所属分类:深度学习

    • 发布日期:2020-11-26
    • 文件大小:336mb
    • 提供者:wwmmddz
  1. 维基xml转txt xml2txt.py

  2. 维基百科xml转txt 2020.12.2最新可用,下的几个版本都不能直接用,我经过一些修改之后可用 指令python xml2txt.py ###.xml.bz2 ###.txt
  3. 所属分类:Python

    • 发布日期:2020-12-02
    • 文件大小:970byte
    • 提供者:wj1998w
  1. Airport-Codes:从维基百科获取机场信息-源码

  2. 机场代码 从Wikipedia获取机场信息。 仅包含带有IATA代码的机场。 预设数据 如果您想获取预设数据,请参见 。 请注意,它可能不是最新的。 自行获取数据 要求 的Python 3 安装 pip install -r requirements.txt 用法 python3 main.py [-o/--optput ] [-l/--language ] [-v/--variant ] [--http-proxy ] 例子 python3 main.py -o results/chine
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:187kb
    • 提供者:weixin_42117267
  1. Turkish-Wikipedia-Based-Knowledge-Graph:inzva AI项目#6的“基于土耳其维基百科的知识图和图嵌入”存储库-源码

  2. 土耳其语基于维基百科的知识图 该存储库包括来自土耳其维基百科页面的“知识图”构建项目。 该项目使用非结构化文本和信息框,从土耳其维基百科转储中构建了一个知识图。 它是在inzva AI Projects#6活动下开发的,由4名开发人员组成。 我们使用的资源 我们主要使用了两个存储库。 我们使用它们两者构造了一个管道,以构造一个知识图。 第一个存储库是 ,它是一个模块化的Entity Linker。 第二个存储库是 ,这是“论文的非官方实现。 WikiExtractor 该脚本将Wikipedi
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:343kb
    • 提供者:weixin_42132359
  1. WordEmbedding-WikiChinese:基于中文维基百科文本数据训练词向量-源码

  2. 基于中文维基百科文本数据训练词向量 一,数据获取 本词向量利用的是中文维基百科的语料进行训练。 语料地址: (大小1.16G) 也可以在我的网盘上下载:链接: 提取码:ihu4 二,数据转换 原数据的格式是xml,我们可以将其转换为txt。 这里使用的是gensim自带的WikiCorpus,首先读取xml文件到input_file中,然后其中的get_texts方法会生成一个get_texts器,每一个继承蕴含了一篇文章,这样我们就可以将其写入新的txt文件中了。 三,繁体数据转换为简体数据
  3. 所属分类:其它

  1. Python项目-源码

  2. Python项目 倒数时钟和计时器(21.02.09) 사용자가타이머를정하며,시간이되면이알려준다。 随机密码生成器(21.02.10) 문자,숫자,를사랜덤으。password。로생성한다。 维基百科的随机文章(21.02.11) Wikipedia임의의기사를가져온다。 사해당기사를것인지대답이'예'이면가표시된다。 그렇지않으면다른보고서가제공돤다。 闹钟(21.02.14) C이스(CLI)Python애플리케이션이다。 텍스트(youtube_alarm_videos
  3. 所属分类:其它

  1. 传记:python中的脚本,该脚本获取某人的传记并在熊猫终端中编写-源码

  2. 传 python中的脚本,用于获取某人的传记并在终端中编写。 1-维基百科(含pandas网址 与lib wikipedia任何传记 安装 Python - 3.8 git clone https://github.com/vLeeH/Biography.git 图书馆 pip install -r requirements.txt
  3. 所属分类:其它

  1. tutorial_origin_elements:题为“关于银河系元素的起源”的课程的讲义,作业和插图-源码

  2. 关于银河系元素的起源 该存储库包含讲义,作业集和用于创建具有该标题的讲义的图形的原始数据。 图 数字在figures文件夹中给出。 您将在其中找到svg图形和python脚本来生成更多图形。 还有一个名为requirements.txt的文件,其中列出了需要存在的python软件包。 演讲笔记 讲义的LaTeX文件可在此文件夹中找到。 所有图形均位于graphics文件夹中。 如果存在python脚本或svg原始文件,则文件名将与图形文件夹中的文件相同。 在家工作 在该文件夹中可以找到该课程的所
  3. 所属分类:其它

  1. 维基百科维基百科维基百科维基百科.txt

  2. 网址:http://en.wikipedia.org/wiki/Wikipedia 数据获得描述: 1.获取主页的内容,分析网页内容并找到主页上所有的本站链接
  3. 所属分类:网络攻防

    • 发布日期:2021-02-05
    • 文件大小:768byte
    • 提供者:weixin_49564063
  1. [中文语音识别后文本加标点] 维基百科数据下载和解析(xml->txt)

  2. 维基百科的中文语料库质量高、领域广泛而且开放,其每月会将所有条目打包供大家下载使用,可以点击: https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 直接下载最新版(也可以访问:https://dumps.wikimedia.org/zhwiki/ 获取历史版本)。 1、维基百科数据下载 (分享了一份到百度网盘:链接:https://pan.baidu.com/s/1LgJvdhvJLScDZ
  3. 所属分类:其它

    • 发布日期:2021-01-21
    • 文件大小:249kb
    • 提供者:weixin_38529486
  1. Python 专题五 列表基础知识(二维list排序、获取下标和处理txt文本实例)

  2. 通常测试人员或公司实习人员需要处理一些txt文本内容,而此时使用Python是比较方便的语言。它不光在爬取网上资料上方便,还在NLP自然语言处理方面拥有独到的优势。这篇文章主要简单的介绍使用Python处理txt汉字文字、二维列表排序和获取list下标。希望文章对你有所帮助或提供一些见解~ 一. list二维数组排序 功能:已经通过Python从维基百科中获取了国家的国土面积和排名信息,此时需要获取国土面积并进行排序判断世界排名是否正确。 列表基础知识 列表类型同字符串一样也是序列式的数据类型
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:332kb
    • 提供者:weixin_38537968
« 12 »