人工智能年代,最需求学习的编程言语是:python 。笔者是个 python 小白,昨日花了两个小时,榜首次成功运转起来 python 项目 。

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

项目是 powerpoint-extractor ,能够将 ppt 文件中的图片提取出来,并输出到固定的目录。

1 装置 python 环境

首先翻开终端,翻开后输入 python3 。确定电脑上是否已装置 python3,假如输入 python 是查看 mac 上的自带版别。

指令:python3【直接回车】

出现下面是页面,表明现已装置python3 【退出时可输入:exit()然后点回车】

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片
榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

若没有装置,装置 python3 如下两种方式:

  1. 榜首种方法 brew 装置 python3 :brew install python3
  2. 第二种方法 官网 Python Releases for macOS ,依据自己的需求下载自己需求的版别下载 。

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

2 项目 powerpoint-extractor

经过 git 指令 clone 该项目 :

git clone git@github.com:2TallTyler/powerpoint-extractor.git

因为项目依靠 python-pptx 组件,经过清华的镜像履行如下的指令:

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple python-pptx

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

履行完结之后,能够经过 pip3 list 指令查看已装置包列表 :

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

3 PyCharm 装备

经过 PyCharm 翻开该项目 :

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

上图,咱们发现 python 解说器并没有装备好 ,py 脚本显现 import 包失败

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

点击增加 python 解说器按钮,勾选继承大局包,并确认好 python3 的履行目录是否正确,点击 OK 即可完结装备。

点开 extract.py ,核心代码十分简单理解:

for eachfile in glob.glob(self.input_dir + os.sep + "*.pptx"):
  ppt = Presentation(eachfile)
  print("* " + eachfile)
  presentation_count += 1
  self.cur_image_index = 1name = self.generate_image_name_part(eachfile)
​
  # 遍历每张幻灯片
  for page, slide in enumerate(ppt.slides):
    # 将幻灯片上的所有文本搜集到一个字符串中,以换行符分隔
    text = ''
    for shape in slide.shapes:
      if shape.has_text_frame and shape.text.strip():
        text += os.linesep
        text += shape.text
​
    # 搜集每张幻灯片中的图画
    self.cur_slide_images = []
​
    # 保存幻灯片中的图画
    for shape in slide.shapes:
      self.drill_for_images(shape, page + 1, name)
​
    # 将页码、搜集到的文本和演讲者备注作为新行写入CSV文件
    image_list = ''
    if len(self.cur_slide_images) > 0:
      image_list = ','.join(self.cur_slide_images) # 将图画列表转换为逗号分隔的字符串# 将信息写入CSV文件
    writer.writerow([eachfile, page + 1, text, slide.notes_slide.notes_text_frame.text, image_list])

这段代码履行了以下操作:

  • 对于每个 PowerPoint 文件,它加载演示文稿并逐个遍历每张幻灯片。
  • 对于每张幻灯片,它搜集文本和图画信息,并将其格式化为 CSV 文件的一行。
  • CSV 文件的每一行包括文件名、页码、幻灯片文本、幻灯片的演讲者备注以及图画列表。

4 运转项目

将测验 ppt 拷贝到 input 目录,点击 run 。

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片

当履行完结后,ppt 中有的图片拷贝到 images 目录,一起生成了一个 text.csv 。

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片


当然,咱们也能够经过如下的指令直接履行:

榜首次运转 Python 项目,运用 python-pptx 提取 ppt 中的文字和图片