博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
doc2vec使用说明(一)gensim工具包TaggedLineDocument
阅读量:6445 次
发布时间:2019-06-23

本文共 1210 字,大约阅读时间需要 4 分钟。

gensim 是处理文本的很强大的工具包,基于python环境下:

1.gensim可以做什么?

它可以完成的任务,参加gensim 主页API中给出的介绍,链接如下:

http://radimrehurek.com/gensim/apiref.html

2.word2vec的使用

其中学习词向量的方法可利用,word2vec,具体使用我爱自然语言中介绍的很清楚,如下链接:

http://ju.outofmemory.cn/entry/80023

3.doc2vec/paragraph2vec的使用方法

学习文档向量,doc2vec(也就是官方网站API中的paragraph2vec)使用方法,中文资料较少,RaRe Machine Learning Blog英文博客讲解的比较详细,链接如下:

http://rare-technologies.com/doc2vec-tutorial/

因为要做文档向量的学习,我也写了个学习文档向量的例子,仅供参考,代码如下:

1 import gensim, logging 2 import os 3  4 logging.basicConfig(format = '%(asctime)s : %(levelname)s : %(message)s', level = logging.INFO) 5 sentences = gensim.models.doc2vec.TaggedLineDocument('review_pure_text.txt') 6 model = gensim.models.Doc2Vec(sentences, size = 100, window = 5) 7 model.save('review_pure_text_model.txt') 8 print len(model.docvecs)  9 out = file('review_pure_text_vector.txt', 'w')10 for idx, docvec in enumerate(model.docvecs):11     for value in docvec:12       out.write(str(value) + ' ')13     out.write('\n')14     print idx15     print docvec16 out.close()

 

输入文件Tweets_id_text.txt的格式就是每个doc 对应内容的分词,空格隔开,每个doc是一行

用TaggedLineDocument 实现,每个doc默认编号

博文doc2vec/paragraph2vec使用说明(二)中介绍 带多个标签的文档向量训练方法。

 

转载于:https://www.cnblogs.com/baiting/p/5153877.html

你可能感兴趣的文章
解决rhythmbox中文名乱码问题
查看>>
Xenomai 的模式切换浅析
查看>>
使用Jekyll官方的ReadMore摘要功能
查看>>
tp5实现多数据库查询
查看>>
tp5操作mongo
查看>>
scrollView 刷新显示在中间的问题
查看>>
tomcat配置301重定向
查看>>
Spring组件扫描<context:component-scan/>使用详解
查看>>
Orchard模块开发全接触4:深度改造前台
查看>>
如何滚动更新 Service?- 每天5分钟玩转 Docker 容器技术(102)
查看>>
Jetbrains Idea连接TFS时配置的坑
查看>>
MYSQL 中的GROUP BY 的方式 (1)(loose index scan松散扫描 tight index scan紧凑扫描)
查看>>
论文格式注意事项
查看>>
英山往事之健康第一
查看>>
复旦大学游记
查看>>
linux删除文件未释放空间问题处理
查看>>
[20151208]关于Oracle Row Lock.txt
查看>>
JavaScript中的分号插入机制
查看>>
SQL Server调优系列玩转篇三(利用索引提示(Hint)引导语句最大优化运行)
查看>>
[20160921]linux下建立samba服务器.txt
查看>>