Doc2Vec算法改进:矿山数据集语义相似词汇获取

1 引言

Doc2Vec可以获得语义相似的单词或短语《语义相似模型(Doc2Vec)在双语教学中的应用》,这种算法虽然从理论上来说比不上Sense2Vec,但它的优点是不需要太大数据量,运行速度快。不过由于Doc2Vec使用的概率原理,每次运行同一词汇得出的结果不完全相同。为了在一次运行中得出更多有意义的结果,对现在的算法作了少许改进。

2 改进方法

这个改进方法其实很简单,思路是通过设置一个循环,把模型运行多次,例如:

for i in range(5):

在每次生成模型之前,使用random.shuffle(documents)函数让数据顺序进行调整, 不做这步也可以。产生的结果保存在一个列表中。对每次循环,如果得出的结果已经出现在列表中就跳过,不在列表中就加进去。



3 试验结果


1) chuquicamata mine

large open pits

geomechanics

in the world

the chuquicamata mine

the chuquicamata underground project

implementation of


2) FLAC

abaqus

modelling

finite element

synthetic rock mass srm

simulations

flac3d


3) discrete fracture network

upscaling approach

synthetic rock mass

different scales

the srm-ujrm

strength anisotropy

jointed rock mass

mohr-coulomb


4) slope stability

reliability

factors of safety

landslide

embankments

bearing capacity


5) UDEC

distinct element

discrete fracture network

slope model

sainsbury et al

particle flow

synthetic rock mass

different scales

upscaling approach


6) block caving

codelco

underground

copper mine

henderson

in northern chile

the palabora mine

pit highland valley

at the chuquicamata


7) rock bridge

failure modes

shear strength of

persistence

non-persistent

coalescence

characteristics of

shear strength


4 改进数据集

在这个试验中,同时更新了四个矿山数据集:

1) Chuquicamata mine (智利)

2) El Teniente mine (智利)

3) Jeffrey Mine (加拿大)

4) Palabora mine (南非)

一个采矿方法数据集:

block caving(自然崩落法)

一个岩石力学数据集




免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删

QR Code
微信扫一扫,欢迎咨询~

联系我们
武汉格发信息技术有限公司
湖北省武汉市经开区科技园西路6号103孵化器
电话:155-2731-8020 座机:027-59821821
邮件:tanzw@gofarlic.com
Copyright © 2023 Gofarsoft Co.,Ltd. 保留所有权利
遇到许可问题?该如何解决!?
评估许可证实际采购量? 
不清楚软件许可证使用数据? 
收到软件厂商律师函!?  
想要少购买点许可证,节省费用? 
收到软件厂商侵权通告!?  
有正版license,但许可证不够用,需要新购? 
联系方式 155-2731-8020
预留信息,一起解决您的问题
* 姓名:
* 手机:

* 公司名称:

姓名不为空

手机不正确

公司不为空