Python模块和包

模块和包-初识模块和包
模块和包-内置模块
模块和包-正则表达式和re模块
1. 正则表达式
2. re模块
模块和包-第三方模块
1. request模块
  1. 抓包
2. BeautifulSoup4模块
  1. 一个抓取联通网上商城商品信息的案例

模块和包-初识模块和包

什么是模块和包？

模块

1 2	模块就是一个py文件，我们可以将一些功能按照某个维度来划分模块包括自定义模块、内置模块和第三方的模块

包

1	包是一个文件夹，里面包含多个py文件，即包含了很多简单功能的模块，可以实现复杂功能。也可以按照功能划分

一般情况下，学习和讨论时并不严格划分，统称为模块。

包的安装

通过pip安装

在python的目录中,pip.exe是一个专门用于帮助下载第三方包的工具。

D:\Python
	-python.exe		python解释器
    -Scripts
    	-pip.exe	包管理工具
    -Lib(内置+第三方)
    	-site-packages
        	-第三方包

pip的常见命令

安装
1
pip install 包名称
卸载
1
pip uninstall 包名称
罗列已安装的第三方包
1
pip list
将已安装的包写入到文件中
1
pip freeze > requirements.txt

批量安装包(从requirements.txt文件中)

1
2
3

pip install -r requirements.txt
# 同一个python环境下，只能安装一个版本的包
# requirements.txt要放在项目的根目录下

下载配置

https://pypi.org/是一个开源包的获取网站，pip.exe通过这个网站将包下载到本地，但有时速度比较慢。

可以通过国内的其他同步网站下载，比如豆瓣，基于豆瓣源去下载第三方包：

一次性操作：

1	pip3 install 包名 -i https://pypi.douban.com/simple/

永久使用豆瓣

1 2	pip config set global.index-url https://pypi.douban.com/simple/ # 运行这个命令之后，以后直接使用pip install 包名会默认从豆瓣下载

源码安装

如果pip.exe中下载不到想要的包，可以通过源码安装

下载源码并解压
安装[在终端操作]
- 进入源码目录
- 执行安装命令
  1
  2
  python3.9 setup.py build
  python3.9 setup.py install

wheel安装

有些源码开发者会把源码打包成wheel包，以供下载和安装。

pip支持wheel安装
1
pip install wheel
下载wheel包
进入终端安装
- 进入wheel包的目录
- 执行安装命令
  1
  pip install wheel包文件名

模块和包-模块和包的导入

模块和包的导入路径

python内置的模块都放在了python的安装目录下，可以直接导入使用

1 2	import 模块名 # 后续代码中可以调用该导入模块的功能

一般情况下，自定义的模块和包需要放在运行文件的同级目录下，才可以导入使用

1
2
3

import 模块名			# 运行文件与需要导入的模块在同级目录
import 包名.模块名	   # 运行文件与需要导入的模块所在的包在同级目录
# 后续代码中可以调用该导入模块的功能

当需要让python去自定义的目录中寻找模块时，要用到sys模块：sys.path是获取python寻找模块的目录

import sys
sys.path.append(r"模块所在目录")	# 将该模块所在目录添加到python寻找模块的目录中 
import 模块名
# 后续代码中可以调用该导入模块的功能

自定义模块不能与python内置模块重名

模块和包的导入方式

import导入

导入级别：导入py文件

from导入

导入级别：可以是py文件中的函数，也可以是py文件，更为灵活，比如：

from 包名 import 模块名		# 导入py文件
from 模块名 import func1	 # 导入py文件中的一个函数
from 模块民 import func1,func2,func3	# 导入py文件中的多个函数
from 模块名 import *		 # 导入py文件中的全部函数
from 模块名 import func1 as f1		# 在本文件中，给导入的函数重命名，避免与本文件中的函数重名

一般来说，单层目录时，可以用import或from导入，当层级较深时，用from导入

主文件

主文件是指一个python项目中，作为程序入口的py文件。

py文件执行时，系统内部会创建一个变量名，__name__

主动执行时，__name__="__main__"，被导入执行时，__name__=py文件名

所以当编写主文件时，运行代码前要加上if __name__="__main__":，防止别人导入时执行

模块和包-内置模块

内置模块是python中提供好的功能模块

hashlib

对数据进行加密的模块

比如开发项目时，密码不能用明文存储，防止数据库泄露时密码也泄露，就要用到hashlib模块

import hashlib

name = "邓胖胖"
pwd = "123456"
obj = hashlib.md5()		# md5是一种加密方式
obj.update(pwd.encode("utf-8"))	
res = obj.hexdigest()	#
print(res)				# e10adc3949ba59abbe56e057f20f883e

关于MD5加密

MD5加密后不可反解，用户登录时，根据用户所输入的密码进行MD5加密，与数据库中的密文进行对比。

直接的MD5加密得到的密文可以通过撞库得到明文，所以也并不安全，可以通过加盐的方式解决

加盐

输入一个字符串，增加撞库的难度，比如：

import hashlib

name = "邓胖胖"
pwd = "123456"
salt = "jsdhfjkskf"		# 随意输入的字符串
obj = hashlib.md5()		# md5是一种加密方式
obj.update(salt.encode("utf-8"))	
res = obj.hexdigest()	
print(res)

random

帮助我们生成一些随机数据，比如：

随机生成整数或小数

import random

v1 = random.randint(1, 10)		# 大于等于1，小于等于10的随机整数
v2 = random.uniform(1, 10)		# 大于等于1，小于等于10的随机小数

随机抽取列表中的一个或多个元素

import random

data_list = [11,22,33,44,55]
v3 = random.choice(data_list)	# 随机抽取一个列表中的元素
v4_list = random.sample(data_list,3)	# 随机抽取列表中的多个元素，此处是3个
print(v4_list)					#[11, 55, 22]，结果会生成一个列表

打乱顺序

import random

data_list = [i for i in range(10)]	# 生成一个元素有序的列表
random.shuffle(data_list)			# 打乱列表中元素的顺序
print(data_list)					# [1, 9, 5, 6, 7, 4, 8, 2, 0, 3]

json

本质上是一种数据格式，以字符串的形式存在。作用是在不同的编程语言之间实现数据传输。

json格式外部整体是一个大的字符串，

json格式内部的字符串一定要用双引号

json格式不存在元组的数据类型，转换过程中会将元组转换为列表

json格式中一般只包括：整数、小数、字符串、双引号、字典、列表、true/false、null

序列化

import json

info = {"k1":123, "k2":(2,3,4,5)}

# 将python中的数据类型转换成json中的字符串
res = json.dumps(info)		# 也称为序列化
print(res)					# {"k1": 123, "k2": [2, 3, 4, 5]}

关于中文

python数据里的中文在转换为json中的字符串时，默认会转换为Unicode编码，如果想以中文的形式保留，需要加上ensure_ascii = False

import json

info = {"name":"邓胖胖", "age":23}
v1 = json.dumps(info)	# {"name": "\u9093\u80d6\u80d6", "age": 23}
v2 = json.dumps(info,ensure_ascii = False)	# {"name":"邓胖胖", "age":23}

反序列化

import json

data_string = '{"k1": 123, "k2": [2, 3, 4, 5]}'	

# 将json中的字符串转换成python中的数据类型
res = json.loads(data_string)	# 也称为反序列化
print(res)						# {'k1': 123, 'k2': [2, 3, 4, 5]}

time

获取当前的时间戳

1
2
3

import time

v1 = time.time()	# 1676378548.093892  这个时间是从1970年1月1日至今的秒数

程序停止N秒，再继续运行

import time

while True:
    print("上岸")
	time.sleep(1)	# 运行到此处停止1秒

datetime

获取当前时间

import datetime

v1 = datetime.datetime.now()	
# 2023-02-14 20:54:03.058263 ,这是date-time类型的数据，并非字符串

datetime类型转换为字符串类型

from datetime import datetime

v1 = datetime.now()		# datetime类型
v2 = v1.strftime("%Y-%m-%d %H:%M:%S")	# 字符串类型  - 和 : 并不是关键字，可以更改

字符串类型转换为datetime类型

from datetime import datetime

v1 = "2023-02-14"		#字符串类型
v2 = datetime.strptime(v1, "%Y-%m-%d")	# datetime类型

datetime类型转换为时间戳类型

from datetime import datetime

v1 = datetime.now()		# datetime类型
v2 = v1.timestamp()		# 时间戳类型

时间戳类型转换为datetime类型

from datetime import datetime
import time

v1 = time.time()		# 时间戳类型
v2 = datetime.fromtimestamp(v1)		# datetime类型

datetime数据类型存在的意义

# 进行时间相关的运算
from datetime import datetime,timedelta

v1 = datetime.now()		# datetime类型
v2 = v1 - timedelta(days=200)		#两百天前的时间
v3 = v1 + timedelta(days=29,hours=34,minutes=23,seconds=122)	
#29天34小时23分122秒之后的时间

os

路径的拼接

1
2
3

windows: C:\xx\xx\xxxx
	Mac: /user/xx/xx/xxxx
  Linux: /user/xx/xx/xxxx

import os

path = os.path.join("x1","x2","x3",'log.txt')
print(path)		# x1\x2\x3\log.txt

1
2
3

import os
path = "x1/x2/x3/log.txt"
file_path = os.path.dirname(file_path)	# x1/x2/x3

绝对路径

绝对路径是从根目录开始的路径

相对路径是基于当前文件所在目录的路径

import os

file_name = "xx"	# 相当于一个相对路径
file_path = os.path.abspath(file_name)	# 获取到这个文件的绝对路径

判断文件是否存在

import os

file_path = os.path.join("xx","xx.txt")	# 这是一个文件路径

# 判断路径是否存在
os.path.exists(file_path)	# 如果存在，值为True;不存在，值为False

# 可用于文件操作，防止读取文件时，文件不存在而报错

创建文件夹

import os

path = os.path.join("xx","xx","xxxx")	# 得到一个目录的路径
if not os.path.exist(path):	
    os.makedirs(path)		# 创建这个文件夹，如果已存在会报错，所以需要先判断目录是否已存在

删除文件

import os

# 删除文件
path = os.path.join("xx","xx","xxxx")
os.remove(path)		# 将这个目录删除，如果文件不存在会报错

判断一个目录是否是文件夹

import os

path = os.path.join("xx","xx","xxxx")
os.path.isdir(path)		# 如果是文件夹，值为True;如果不是文件夹，值为False

查看某个目录下的文件和文件夹(单级)

import os

res = os.listdir("D:\connect\Assets")
print(res)		# 得到一个列表，其中的元素是该目录下的文件名

查看某个目录下的所有文件和文件夹(多级)

import os

for item in  os.walk("D:\connect\Assets"):
    print(item)
# 该语句的一次循环会输出三个列表，第一个列表只有一个元素，是文件的主路径，第二个列表是该主路径下的文件夹列表，第三个列表是该主路径下的文件列表
# 第二次循环会将文件夹列表中的第一个文件夹作为主路径，获得该主路径下的文件夹列表和文件列表
# 直到获得所有文件为止

import os

# 该操作可以直接获得某个目录下的所有文件
for in_path, folder_list, file_list in os.walk("D:\connect\Assets"):
    for file in file_list:
        abs_path = os.path.join(in_path,file)
        print(abs_path)

shutil

删除文件夹

import os
import shutil	

path = os.path.join("xx","xx","xxxx")
shutil.rmtree(path)		# 将这个目录删除，文件夹中的文件也会被删除，如果文件夹不存在会报错

拷贝文件夹

1
2
3

import shutil

shutil.copytree("原文件夹路径", "目标文件夹路径")	# 可以自动创建文件夹

拷贝文件(两种方式)

import shutil

# 拷贝到目标文件夹下
shutil.copy("原文件夹路径", "目标文件夹路径\\")		# 要保证目标文件夹存在

# 拷贝到目标文件夹下的某个文件中(是一个不重名的文件)
shutil.copy("原文件夹路径", "目标文件夹路径文件名")		# 会自动创建一个不重名的拷贝文件

重命名文件或文件夹

1
2
3

import shutil

shutil.move("原文件路径文件(夹)名", "目标文件路径文件(夹)名")	# 原文件要存在，否则会报错

压缩和解压缩

import shutil

# 压缩
"""
base_name 压缩后，压缩包的名称
root_dir 要压缩的文件夹的路径
format 后缀名
"""
shutil.make_archive(root_dir = "xxx", base_name = "xx/xxx",format = "zip")

import shutil

# 解压缩
"""
filename 压缩包的文件名
extract_dir 解压后，文件的路径
format 后缀名
"""
shutil.unpack_archive(filename="dd.zip", extract_dir="xx/xxx", format="zip")

模块和包-正则表达式和re模块

正则表达式

正则表达式，是用语句来描述一些字符串的特征，可以与re模块结合，将字符串提取出来。比如：

import re

text = "sdhkfsgk23874823skjfsbj34563hsdj"	# 一段任意字符串
data_list = re.findall("正则表达式", text)	 # 可以提取得到想要的字符串，组成列表

字符相关

固定文本

正则表达式不含任何特殊符号，表示直接匹配固定文本

1 2	text = "常州大学西太湖校区常州市武进区延政西大道" re.findall("常州", text) # ['常州', '常州']

匹配字符

如[sdfhd]表示，中括号里的任一字符都在选择范围内，数量较多时可使用如[a-z]或[0-9]

1 2	text = "常州大学西太湖校区常州市武进区延政西大道" re.findall("常州[大,市]", text) # ['常州大', '常州市']-

\d代表数字

text = "sfkhd23394jdbdjkjd2323"

# \是转义字符，\d 代表一个数字
re.findall("d\d", text)		# ['d2', 'd2']

\w表示字母、数字、下划线或汉字

import re

text = "常州大学cczu  常州大学cczu"
data_list = re.findall("大学\w+z",text)	
# ['大学ccz', '大学ccz'],\w不匹配空格

# 正则默认是尽可能多的去匹配，称为贪婪匹配
text = "常州大学cczu常州大学cczu"
data_list = re.findall("大学\w+z",text)	# ['大学cczu常州大学ccz']

# 非贪婪匹配是指找到第一个匹配就不要再匹配了，加上一个?即可
text = "常州大学cczu常州大学cczu"
data_list = re.findall("大学\w+?z",text)	# ['大学ccz', '大学ccz']

.表示除换行符以外的任何字符

import re

#  . 只代表一个字符
text = "adshjgkalsdkfjo"
data_list = re.findall("a.s",text)		# ['ads', 'als']

# 多个字符，贪婪匹配
text = "adshjgkalsdkfjo"
data_list = re.findall("a.+s",text)		# ['adshjgkals']

# 多个字符，非贪婪匹配
text = "adshjgkalsdkfjo"
data_list = re.findall("a.+?s",text)	# ['ads', 'als']

\s表示空白字符

import re

text = "add admin    a"
data_list = re.findall("a\w+\s+\w",text)	# ['add a'], \s后不带+只代表一个字符

数量相关

*代表0或多个
+代表1或多个
?代表0或1个
{n}代表固定n个
{n,}代表n个及以上
{n,m}代表大于等于n,小于等于m个

注意：默认贪婪匹配，非贪婪匹配需要在数量后加?

# \d+ 代表一个或多个数字
re.findall("d\d+", text)	# ['d23394', 'd2323']

# \d* 代表0个或1个或多个
re.findall("d\d*", text)	# ['d23394', 'd', 'd', 'd2323']

# \d? 代表0个或1个，如果后面有多个数字，只取第一个
re.findall("d\d?", text)	# ['d2', 'd', 'd', 'd2', 'd1']

# \d{n} 代表固定n个，如果后面有超过n个，只取n个
re.findall("d\d{3}", text)	# ['d233', 'd232']

# \d{n,} 代表n个或n个以上
re.findall("d\d{5,}", text)	# ['d23394']

# \d{n,m} 代表大于等于n,小于等于m
re.findall("d\d{5,6}", text)	# ['d23394']

# 注意：以上的+，*，?，{}等代表次数，也可以与一般字符串搭配使用，如：
text = "aabbccccaaadddd"
res = re.findall("a+", text)	# ['aa', 'aaa']

分组

提取部分区域的数据

import re

# 将目标区域用()围住即可，()不影响正则表达式的整体含义
text = "手机号17633554278中国联通"
data_list = re.findall("1\d{6}(\d{4})",text)		# ['4278']

# 当要提取多个部分时，或存在区域包含关系时，仍然可用
data_list = re.findall("((1\d{2})\d{4}(\d{4}))",text)	
# [('17633554278', '176', '4278')]

“或”的关系

import re

# 用()围住的部分中，可以存在"或"的关系,用|实现
text = "手机号17633554278和手机号17633554273都是我名下的，后面那个送人了"
data_list = re.import("1\d{6}427(8|3)",text)	# ['8', '3']

限制开头和结尾

# 在正则表达式的开头加上 ^ ,在结尾加上 $ ,表示严格限制文本的开头和结尾，常用于文本校验
import re

text = input("请输入手机号：")		
res = re.match("^1[3-9]\d{9}$", text)	# 只能输入符合要求的11位数，后续不能存在更多字符

应用

企鹅号
手机号
1
# 手机号格式："1[3-9]\d{9}"
身份证号

邮箱

"""
一般邮箱格式：xxx@xxx.com
正则表达式出现的 . 代表的是除换行符外的一个任意字符,当需要表示字符 . 时，用 \. 
"""
import re

text = "我的126邮箱是dengjinjun0805@126.com，QQ邮箱是498790885@qq.com"
data_list = re.findall("\w+@\w+\.com", text, re.ASCII)	# re.ASCII让\w不匹配中文
print(data_list)	# ['dengjinjun0805@126.com', '498790885@qq.com']

# 对于较为复杂的支持 - 和 _ 以及域名为cn或en等的邮箱，可以使用如下语句
data_list = re.findall("[a-zA-Z0-9-_]+@[a-zA-Z0-9-_]+\.[a-zA-Z0-9-_]+"，text)

re模块

获取所有匹配成功的结果

1	re.findall("正则表达式", "文本") # 在正则表达式中已介绍

从字符串开头进行匹配，返回第一个对象

使用re.match()对字符串开头第一个字符开始匹配，如果开头不匹配不会继续寻找。

import re

text = "changzhou university"
res = re.match("u\w+y", text)	# None
res = re.match("c\w+\s", text)	# <re.Match object; span=(0, 10), match='changzhou '>
# 得到的是一个re.match类型的对象，可以通过group()方法获得
# 为了防止匹配失败得到空对象，然后使用group方法时报错，一般需要添加判断条件
if res:
	content = res.group()			# changzhou

从整个字符串进行匹配，返回第一个对象

使用re.search()对整个字符串进行匹配，返回第一个对象，与re.match()不同的是，开头不匹配，仍然会继续寻找，找到后返回一个对象，通过group()方法获取，否则返回None
1
2
3
4
5
6
import re

text = "changzhou university"
res = re.search("u\w+y", text) # <re.Match object; span=(10, 20), match='university'>
if res:
content = res.group() # university
字符串的分割

使用re.split()对字符串进行分割，一般的字符串分割只能按照一个字符进行分割，而利用正则表达式，可以实现按照不同的字符进行分割，比如:
1
2
3
4
import re

text = "23+34-5"
data_lsit = re.split("[+-]", text) # ['23', '34', '5']

模块和包-第三方模块

request模块

request模块是一个重要的第三方模块，可以让我们通过代码向某些地址发送网络请求，然后我们就可以获取到结果。

抓包

查看网络请求，空白处右键——检查——网络
- 查看地址：url
- 请求的方式
- 传递的数据：response

通过代码伪造浏览器

import request

# 原始文本
res = request.get(
	url = "xxxx"
    headers = {
        "User-Agent":"xxxx"
    }
)

# 解码1
res.encoding = "utf-8"
print(res.text)
# 解码2
res.content.decode("utf-8")

# JSON格式
print(json.loads(res.text))

# JSONP格式：切片后转为JSON格式

# HTML格式，需要安装第三方模块进行处理 pip install beautifulsoup4

BeautifulSoup4模块

BeautifulSoup4模块专门用于帮助我们在HTML格式的字符串中提取我们想要的数据

from bs4 import BeautifulSoup

data = """<meta charset="utf-8"/>
<meta content="webkit" name="renderer">
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="width=1400" name="viewport">
<title>常州大学</title>
<meta content="常州大学" name="keywords"/>
<meta content="常州大学" name="description"/>"""


soup_object = BeautifulSoup(data,"html.parser")		# 得到一个可解析的对象
# 寻找一个符合特点的对象
soup_object.find(name = "xxx",attrs = {"id": "xxx","class": "xxx"})	
# 寻找具有共同特点的全部对象
soup_object.find_all(name = "xxx",attrs = {"id": "xxx","class": "xxx"})	
# 得到一个标签之后，可以获取它的全部属性
res.text	# 文本值
res.attrs["src"]
res.attrs["name"]

一个抓取联通网上商城商品信息的案例

import requests
from bs4 import BeautifulSoup as bs
import re
import os

FILE_PATH = "picture"

def download(url, file_path):
    pic = requests.get(url=url)
    # 2.保存到本地
    if pic:
        with open(file_path, mode="wb") as f:
            f.write(pic.content)

def run():
    # 创建文件
    if not os.path.exists(FILE_PATH):
        os.makedirs(FILE_PATH)

    # 返回的所有数据（响应头，响应体）
    res = requests.get(
        url="http://s.10010.com/hebei/mobilelist-0-0-0-0-0-0-0-0-29-0-0-p2/"
    )

    # 解码
    data = res.content.decode("utf-8")

    # 获取HTML格式的可解析对象
    soup_object = bs(data, "html.parser")

    # 逐步获取对象
    goods_object_list = soup_object.find_all(name="li", attrs={"class": "goodsLi"})
    for item in goods_object_list:
        name_object = item.find(name="p", attrs={"class": "mobileGoodsName"}).find(name="a").text.strip()
        price_object = item.find(name="p", attrs={"class": "evaluation"}).text.strip()
        price = re.findall("￥(\d+)", price_object)[0]
        comment_object = item.find(name="p", attrs={"class": "evalNum"}).find(name="a").text.strip()
        comment = re.findall("已有(\d+人)评价", comment_object)[0]
        img_url = item.find(name="img").attrs["data-original"]
        file_name = "{}.jpg".format(img_url[-18:-1])
        file_path = os.path.join(FILE_PATH, file_name)
        download(img_url, file_path)
        line = "{}|{}|{}|{}|{}\n".format(name_object, int(price), comment, img_url, file_path)
        with open("db.txt", mode="a", encoding="utf-8") as f:
            f.write(line)

if __name__ == "__main__":
    run()

2023-01-15 该篇文章被邓胖胖打上标签: Python 归为分类: 学习笔记