1 引言
Doc2Vec可以获得语义相似的单词或短语《语义相似模型(Doc2Vec)在双语教学中的应用》,这种算法虽然从理论上来说比不上Sense2Vec,但它的优点是不需要太大数据量,运行速度快。不过由于Doc2Vec使用的概率原理,每次运行同一词汇得出的结果不完全相同。为了在一次运行中得出更多有意义的结果,对现在的算法作了少许改进。
2 改进方法
这个改进方法其实很简单,思路是通过设置一个循环,把模型运行多次,例如:
for i in range(5):
在每次生成模型之前,使用random.shuffle(documents)函数让数据顺序进行调整, 不做这步也可以。产生的结果保存在一个列表中。对每次循环,如果得出的结果已经出现在列表中就跳过,不在列表中就加进去。
3 试验结果
1) chuquicamata mine
large open pits
geomechanics
in the world
the chuquicamata mine
the chuquicamata underground project
implementation of
2) FLAC
abaqus
modelling
finite element
synthetic rock mass srm
simulations
flac3d
3) discrete fracture network
upscaling approach
synthetic rock mass
different scales
the srm-ujrm
strength anisotropy
jointed rock mass
mohr-coulomb
4) slope stability
reliability
factors of safety
landslide
embankments
bearing capacity
5) UDEC
distinct element
discrete fracture network
slope model
sainsbury et al
particle flow
synthetic rock mass
different scales
upscaling approach
6) block caving
codelco
underground
copper mine
henderson
in northern chile
the palabora mine
pit highland valley
at the chuquicamata
7) rock bridge
failure modes
shear strength of
persistence
non-persistent
coalescence
characteristics of
shear strength
4 改进数据集
在这个试验中,同时更新了四个矿山数据集:
1) Chuquicamata mine (智利)
2) El Teniente mine (智利)
3) Jeffrey Mine (加拿大)
4) Palabora mine (南非)
一个采矿方法数据集:
block caving(自然崩落法)
一个岩石力学数据集
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删