当前位置: 高中信息技术 / 综合题
  • 1. (2022高二上·余姚月考) 阿泽同学使用百度搜索关键字“元旦”,将采集到的结果数据存储为文本文件,如图 a 所示,统计其中各词语(2个及2个以上文字构成)出现的次数并以衢州地图为轮廓将其制作成标签云,如图b所示。

    图 a

    图 b

    请回答下列问题:

    1. (1) 编写如下python程序,读取文件“元旦.txt”,并统计各词语(2个及2个以上文字构成)出现的次数。请在划线处填写合适代码,完善程序。

      import jieba

      import os

      txt=open("","r").read()

      words=jieba.cut(txt)

      counts={}

      for word in words:

        if :

          continue

        else:

          if word in counts:

            counts[word]+=1

          else:

           

      #生成词云代码略

    2. (2) 下列描述正确的是(   )(多选,填字母)。
      A . 文本数据处理主要应用在搜索引擎、情报分析、自动摘要、自动校对、自动应答等方面 B . 基于词典的分词方法、基于统计的分词方法和基于规则的分词方法是常用的中文分词算法,其中基于规则的统计方法在实际应用中较多 C . 标签云用词频表现文本特征,将关键词按照一定的顺序和规律排列,并以文字大小的形式代表词语的重要性 D . 典型的中文文本处理过程主要包括:分词、特征提取、数据分析、结果呈现等

微信扫码预览、分享更方便