关于编码方式的问题-慕课网

1回答

正十七 2018-11-25 21:45:29

参考原始代码：

def generate_seg_file(input_file, output_seg_file):
    """Segment the sentences in each line in input_file"""
    with open(input_file, 'r') as f:
        lines = f.readlines()    with open(output_seg_file, 'w') as f:        for line in lines:
            label, content = line.decode('utf-8').strip('\r\n').split('\t')
            word_iter = jieba.cut(content)
            word_content = ''
            for word in word_iter:
                word = word.strip(' ')                if word != '':
                    word_content += word + ' '
            out_line = '%s\t%s\n' % (label, word_content.strip(' '))
            f.write(out_line.encode('utf-8'))

输出文件的编码一般应该是utf-8的，你的代码没有调encode函数，所以需要你打开文件的时候指定编码方式。

把旧文件内容抹掉的原因是因为代码中打开的就是一个文件啊，自然要覆盖。如果你不想让它覆盖，你可以指定其他的文件名。

0 回复有任何疑惑可以回复我~

收起回答

慕圣5474743 #1
```
怎么调encode函数？
```
回复有任何疑惑可以回复我~ 2019-06-06 11:20:18
正十七回复慕圣5474743 #2
```
字符串上直接调用。out_line.encode('utf-8')
```
回复有任何疑惑可以回复我~ 2019-06-09 10:23:57

关于编码方式的问题

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

有些问题

老师，我之前在jupyter上是可以正常运行的，后面就报警告和错误了，您看看下面的图

（已放弃）win10 cuda9.2 cudnn7.2.1 tensflow_GPU 1.10.0 程序意外结束

为什么0的概率就是激活函数的输出呢？

激活函数和归一化的问题

热搜

最近搜索清空

关于编码方式的问题

正在回答 回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

有些问题

老师，我之前在jupyter上是可以正常运行的，后面就报警告和错误了，您看看下面的图

（已放弃）win10 cuda9.2 cudnn7.2.1 tensflow_GPU 1.10.0 程序意外结束

为什么0的概率就是激活函数的输出呢？

激活函数和归一化的问题

正在回答回答被采纳积分+3