文本分类模型处理流程
1.样本整理
2.数据预处理
直接按照字符处理可以使用keras的api
Tokenizer(char_level=True) 建立字符数字索引
text_to_sequences() 将句子转成数字
pad_sequences() 将句子填充到相同长度
分词 jieba hanlp等(对于项目里特殊的词汇,可以手动加到分词词库里)
用其他公司训练的词向量
自定义词向量(使用gensim word2vec训练)
直接使用keras Embedding训练,指定输出维度,随机