特征提取-词向量
Word2Vec(词向量),计算每个单词在其给定语料库环境下的分布式词向量(Distributed Representation)。
如果词的语义相近,那么它们的词向量在向量空间中也相互接近,这使得词语的向量化建模更加精确,可以改善现有方法并提高鲁棒性。词向量已经在许多自然语言处理场景中得到应用,如:命名实体识别,消歧,标注,解析,机器翻译等。
代码示例
相关API :Word2Vec
1 | from pyspark.ml.feature import Word2Vec |
参考文章