人工智能年代，最需求学习的编程言语是：python 。笔者是个 python 小白，昨日花了两个小时，榜首次成功运转起来 python 项目。

榜首次运转 Python 项目，运用 python-pptx 提取 ppt 中的文字和图片

项目是 powerpoint-extractor ，能够将 ppt 文件中的图片提取出来，并输出到固定的目录。

1 装置 python 环境

首先翻开终端，翻开后输入 python3 。确定电脑上是否已装置 python3，假如输入 python 是查看 mac 上的自带版别。

指令：python3【直接回车】

出现下面是页面，表明现已装置python3 【退出时可输入：exit（）然后点回车】

若没有装置，装置 python3 如下两种方式：

榜首种方法 brew 装置 python3 ：brew install python3
第二种方法官网 Python Releases for macOS ，依据自己的需求下载自己需求的版别下载。

2 项目 powerpoint-extractor

经过 git 指令 clone 该项目 :

git clone git@github.com:2TallTyler/powerpoint-extractor.git

因为项目依靠 python-pptx 组件，经过清华的镜像履行如下的指令：

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple python-pptx

履行完结之后，能够经过 pip3 list 指令查看已装置包列表：

3 PyCharm 装备

经过 PyCharm 翻开该项目 :

上图，咱们发现 python 解说器并没有装备好，py 脚本显现 import 包失败 。

点击增加 python 解说器按钮，勾选继承大局包，并确认好 python3 的履行目录是否正确，点击 OK 即可完结装备。

点开 extract.py ，核心代码十分简单理解：

for eachfile in glob.glob(self.input_dir + os.sep + "*.pptx"):
  ppt = Presentation(eachfile)
  print("* " + eachfile)
  presentation_count += 1
  self.cur_image_index = 1

  name = self.generate_image_name_part(eachfile)

  # 遍历每张幻灯片
  for page, slide in enumerate(ppt.slides):
    # 将幻灯片上的所有文本搜集到一个字符串中，以换行符分隔
    text = ''
    for shape in slide.shapes:
      if shape.has_text_frame and shape.text.strip():
        text += os.linesep
        text += shape.text

    # 搜集每张幻灯片中的图画
    self.cur_slide_images = []

    # 保存幻灯片中的图画
    for shape in slide.shapes:
      self.drill_for_images(shape, page + 1, name)

    # 将页码、搜集到的文本和演讲者备注作为新行写入CSV文件
    image_list = ''
    if len(self.cur_slide_images) > 0:
      image_list = ','.join(self.cur_slide_images) # 将图画列表转换为逗号分隔的字符串

    # 将信息写入CSV文件
    writer.writerow([eachfile, page + 1, text, slide.notes_slide.notes_text_frame.text, image_list])

这段代码履行了以下操作：

对于每个 PowerPoint 文件，它加载演示文稿并逐个遍历每张幻灯片。
对于每张幻灯片，它搜集文本和图画信息，并将其格式化为 CSV 文件的一行。
CSV 文件的每一行包括文件名、页码、幻灯片文本、幻灯片的演讲者备注以及图画列表。

4 运转项目

将测验 ppt 拷贝到 input 目录，点击 run 。

当履行完结后，ppt 中有的图片拷贝到 images 目录，一起生成了一个 text.csv 。

当然，咱们也能够经过如下的指令直接履行：

第一次运行 Python 项目，使用 python-pptx 提取 ppt 中的文字和图片

1 装置 python 环境

2 项目 powerpoint-extractor

3 PyCharm 装备

4 运转项目

作者信息

第一次运行 Python 项目，使用 python-pptx 提取 ppt 中的文字和图片

1 装置 python 环境

2 项目 powerpoint-extractor

3 PyCharm 装备

4 运转项目

相关文章

After Effects 教程，如何在 After Effects 中创建合成？

带打kaggle文本分类比赛，准确率99%（NLP实战）

Azure API管理中高效的OAuth授权管理

第一百篇文章啦！聊点别的

作者信息