当前位置: 首页 > news >正文

做网站大概需要多少钱wordpress用户上传照片

做网站大概需要多少钱,wordpress用户上传照片,如何创建自己的公司,wordpress选图框Python 爬虫入门#xff08;一#xff09;#xff1a;从零开始学爬虫 「详细介绍」 前言1.爬虫概念1.1 什么是爬虫#xff1f;1.2 爬虫的工作原理 2. HTTP 简述2.1 什么是 HTTP#xff1f;2.2 HTTP 请求2.3 HTTP 响应2.4 常见的 HTTP 方法 3. 网页的组成3.1 HTML3.2 CSS3.… Python 爬虫入门一从零开始学爬虫 「详细介绍」 前言1.爬虫概念1.1 什么是爬虫1.2 爬虫的工作原理 2. HTTP 简述2.1 什么是 HTTP2.2 HTTP 请求2.3 HTTP 响应2.4 常见的 HTTP 方法 3. 网页的组成3.1 HTML3.2 CSS3.3 JavaScript 4. 使用 Python 进行 Web 爬虫4.1 常用的 Python 库4.2 安装所需库4.3 编写一个简单的爬虫4.4 示例代码 5. 处理复杂的网页5.1 使用 Playwright 示例 6. 编写一个完整的爬虫项目6.1 项目要求6.2 项目步骤6.3 示例代码 7. robots.txt 文件是什么8. 注意事项 总结 前言 欢迎来到“Python 爬虫入门”系列的第一篇文章。你有没有想过怎么能从网页上自动抓取你需要的数据比如一次性下载所有喜欢的图片或者获取最新的新闻资讯。其实这就是网络爬虫能做的事情。Python 是一门非常受欢迎的编程语言简单易学而且有很多强大的库可以用来编写网络爬虫。即使你是编程新手也不用担心这个系列会从最基础的知识讲起带你一步步掌握写爬虫的技能。在这篇文章里我们会先聊聊什么是网络爬虫它是怎么工作的然后教你如何安装和配置开发环境、如何使用 Python 编写爬虫脚本。 1.爬虫概念 1.1 什么是爬虫 网络爬虫也称为网络蜘蛛、网络机器人是一种自动化脚本或程序用于自动浏览互联网并收集数据。 爬虫可以帮助我们从网页中提取信息从而实现数据采集、信息检索、网站分析等功能。 1.2 爬虫的工作原理 发送请求爬虫向目标网站发送 HTTP 请求。获取响应目标网站返回 HTTP 响应包含请求的网页内容。解析数据爬虫解析网页内容提取所需数据。存储数据将提取的数据存储在本地或数据库中。 2. HTTP 简述 2.1 什么是 HTTP HTTPHyperText Transfer Protocol是用于在 Web 浏览器和 Web服务器之间传递信息的协议。它是一种基于请求 - 响应模式的协议客户端发送请求服务器返回响应。 2.2 HTTP 请求 HTTP 请求由以下几个部分组成 请求行包括请求方法如 GET、POST、请求 URL 和 HTTP 版本。请求头包含有关客户端环境的信息和请求体的元数据。请求体在 POST 请求中包含要发送到服务器的数据。 2.3 HTTP 响应 HTTP 响应由以下几个部分组成 状态行包括 HTTP 版本、状态码和状态描述。响应头包含有关服务器环境的信息和响应体的元数据。响应体包含实际的响应内容如 HTML 文档、图像或其他数据。 2.4 常见的 HTTP 方法 GET请求指定的资源。一般用于请求数据。POST向指定的资源提交数据进行处理。PUT向指定资源位置上传最新内容。DELETE请求删除指定的资源。HEAD类似于 GET但只返回响应头不返回响应体。 3. 网页的组成 一个典型的网页由以下几个部分组成 3.1 HTML HTMLHyperText Markup Language是用于创建和结构化网页内容的标准标记语言。HTML 使用标签来标记不同类型的内容如文本、图像、链接等。 HTML 基础结构示例如下 !DOCTYPE html html langen headmeta charsetUTF-8meta nameviewport contentwidthdevice-width, initial-scale1.0titleDocument/title /head bodyh1Hello, World!/h1pWelcome to my website./p /body /html3.2 CSS CSSCascading Style Sheets是一种样式表语言用于描述 HTML 文档的外观和格式。CSS 可以控制网页的布局、颜色、字体等。 CSS 示例如下 body {font-family: Arial, sans-serif; }h1 {color: blue; }p {font-size: 16px; }3.3 JavaScript JavaScript 是一种高效的编程语言通常用于网页开发可以使网页具有动态交互功能。JavaScript 可以操作 HTML 和 CSS响应用户事件创建动态效果等。 JavaScript 示例如下 document.addEventListener(DOMContentLoaded, function() {const button document.getElementById(myButton);button.addEventListener(click, function() {alert(Button clicked!);}); });4. 使用 Python 进行 Web 爬虫 4.1 常用的 Python 库 requests用于发送 HTTP 请求。BeautifulSoup用于解析 HTML 和 XML 文档。Scrapy一个功能强大的爬虫框架。Playwright用于模拟浏览器操作支持多种浏览器。 4.2 安装所需库 使用 pip 安装下列库 pip install requests pip install beautifulsoup4 pip install scrapy pip install openpyxl pip install playwright python -m playwright install4.3 编写一个简单的爬虫 下面是一个使用 requests 编写的简单爬虫示例。 4.4 示例代码 import requests# 发送请求 url https://www.zhihu.com/api/v3/feed/topstory/hot-lists/total response requests.get(url) # 解析JSON数据 data response.json()if data in data:# 遍历数据for item in data[data]:if target in item and title in item[target]:print(item[target][title]) else:print(没有获取到数据)执行结果如下 5. 处理复杂的网页 对于一些动态加载内容的网页仅靠 requests 和 BeautifulSoup 可能无法获取所有数据。这时可以使用 Playwright 模拟浏览器操作。 5.1 使用 Playwright 示例 import asyncio from bs4 import BeautifulSoup from playwright.async_api import async_playwrightasync def run(playwright: async_playwright) - None:browser await playwright.chromium.launch(headlessFalse)context await browser.new_context()page await context.new_page()# 访问网页await page.goto(https://nba.hupu.com/)# 获取页面内容content await page.content()# 解析 HTML同样使用 BeautifulSoupsoup BeautifulSoup(content, html.parser)# 提取页面标题title soup.title.stringprint(Title:, title)# 提取推荐文章的标题及链接links await page.locator(.list-recommend a, .list-container a).all()for link in links:title await link.inner_text()href await link.get_attribute(href)print(title, href)# 关闭浏览器和上下文await context.close()await browser.close()# 异步运行函数 async def main():async with async_playwright() as playwright:await run(playwright)# 运行主函数 asyncio.run(main())6. 编写一个完整的爬虫项目 下面我们将编写一个完整的爬虫项目从一个网站中提取数据并保存到本地文件。 6.1 项目要求 从一个演出票务网站中提取演出信息将演出数据保存到 Excel 文件中。 6.2 项目步骤 发送请求并获取响应解析响应内容创建 Excel 工作簿、Sheet将遍历数据保存到 Excel 文件 6.3 示例代码 下面是一个使用 requests 和 BeautifulSoup 编写的爬虫示例。 import requests from bs4 import BeautifulSoup from openpyxl import Workbook from pathlib import Pathdef showStart(city_code):# 发送请求获取网页内容url fhttps://www.showstart.com/event/list?pageNo1pageSize99999cityCode{city_code}response requests.get(url)if response.status_code 200:soup BeautifulSoup(response.text, html.parser)items soup.find_all(a, class_show-item item)# 创建Excel工作簿wb Workbook()sheet wb.active# 添加标题行sheet.append([标题, 艺人, 价格, 时间, 地址, 链接])for item in items:title item.find(div, class_title).text.strip()artist item.find(div, class_artist).text.strip()price item.find(div, class_price).text.strip()time item.find(div, class_time).text.strip()addr item.find(div, class_addr).text.strip()href https://www.showstart.com item[href]# 将数据写入Excelsheet.append([title, artist, price, time, addr, href])# 保存Excel文件root_dir Path(__file__).resolve().parentfile_path root_dir / fshowstart_{city_code}.xlsxwb.save(file_path)print(f数据已保存到 {file_path})else:print(f请求失败状态码{response.status_code})if __name__ __main__:city_code input(请输入城市编码)showStart(city_code)打开Excel 文件内容如下 7. robots.txt 文件是什么 robots.txt 文件是一个文本文件通常放置在网站的根目录下。 它用来告诉搜索引擎的爬虫spider哪些页面可以抓取哪些页面不可以抓取。 要找到网站的 robots.txt 文件在浏览器的地址栏输入以下格式的URL http://www.xxx.com/robots.txt 如果访问的是不带www的域名 http://xxx.com/robots.txt 这里的 xxx.com 替换成想要查找 robots.txt 的网站域名。如果该网站有 robots.txt 文件将能够直接在浏览器中看到它的内容。如果不存在可能会看到404错误页面或者其他错误信息。此外有些网站可能会使用 robots.txt 文件来提供关于网站地图sitemap的信息这可以帮助搜索引擎更快地发现和索引网站上的新内容。 8. 注意事项 尊重网站的 robots.txt 文件大多数网站都有一个 robots.txt 文件告知爬虫哪些页面可以抓取哪些页面不可以。一定要遵守这些规则避免抓取被禁止的内容。避免过度抓取频繁的请求可能会给目标网站的服务器带来负担甚至导致服务器宕机。请合理设置抓取的频率避免对服务器造成过大的压力尊重网站的使用条款有些网站的使用条款中明确禁止未经授权的数据抓取。在抓取数据前一定要仔细阅读并遵守网站的使用条款和隐私政策。处理敏感数据在抓取和处理数据时要特别注意保护个人隐私和敏感信息。避免抓取和存储敏感数据确保数据的合法性和安全性。合法合规在进行数据抓取时要确保自己的行为合法合规。不同国家和地区对数据抓取的法律规定不同务必了解并遵守相关法律法规。正确识别身份在请求头中使用合理的 User-Agent明确表明自己的身份避免被误认为恶意爬虫。 总结 希望你通过本文对 Python 爬虫有了一个全面的了解。我们从 Python 爬虫的基本概念、HTTP 基础知识以及网页的基本组成部分讲起逐步学习了如何使用 Python 编写简单的爬虫以及如何处理动态加载内容的网页。最后我们用一个完整的爬虫项目把学到的知识都串联起来实战演练了一遍。相信通过这次学习你对爬虫的工作流程和技术细节都有了更深入的理解。 如果你有任何问题或者好的想法欢迎随时和我交流。
文章转载自:
http://www.morning.pfggj.cn.gov.cn.pfggj.cn
http://www.morning.ltzkk.cn.gov.cn.ltzkk.cn
http://www.morning.bpmtx.cn.gov.cn.bpmtx.cn
http://www.morning.yjtnc.cn.gov.cn.yjtnc.cn
http://www.morning.gtjkh.cn.gov.cn.gtjkh.cn
http://www.morning.ljzgf.cn.gov.cn.ljzgf.cn
http://www.morning.ghphp.cn.gov.cn.ghphp.cn
http://www.morning.pwppk.cn.gov.cn.pwppk.cn
http://www.morning.qpxrr.cn.gov.cn.qpxrr.cn
http://www.morning.dswtz.cn.gov.cn.dswtz.cn
http://www.morning.qysnd.cn.gov.cn.qysnd.cn
http://www.morning.qnklx.cn.gov.cn.qnklx.cn
http://www.morning.nrbqf.cn.gov.cn.nrbqf.cn
http://www.morning.ghzfx.cn.gov.cn.ghzfx.cn
http://www.morning.hffpy.cn.gov.cn.hffpy.cn
http://www.morning.yfrlk.cn.gov.cn.yfrlk.cn
http://www.morning.zhqfn.cn.gov.cn.zhqfn.cn
http://www.morning.qgjwx.cn.gov.cn.qgjwx.cn
http://www.morning.bcnsl.cn.gov.cn.bcnsl.cn
http://www.morning.xzgbj.cn.gov.cn.xzgbj.cn
http://www.morning.crhd.cn.gov.cn.crhd.cn
http://www.morning.cnvlog.cn.gov.cn.cnvlog.cn
http://www.morning.jycr.cn.gov.cn.jycr.cn
http://www.morning.gccdr.cn.gov.cn.gccdr.cn
http://www.morning.lbgfz.cn.gov.cn.lbgfz.cn
http://www.morning.wclxm.cn.gov.cn.wclxm.cn
http://www.morning.rfgc.cn.gov.cn.rfgc.cn
http://www.morning.yrbqy.cn.gov.cn.yrbqy.cn
http://www.morning.mqbdb.cn.gov.cn.mqbdb.cn
http://www.morning.lbgsh.cn.gov.cn.lbgsh.cn
http://www.morning.gwtgt.cn.gov.cn.gwtgt.cn
http://www.morning.fnnkl.cn.gov.cn.fnnkl.cn
http://www.morning.zkpwk.cn.gov.cn.zkpwk.cn
http://www.morning.frsxt.cn.gov.cn.frsxt.cn
http://www.morning.lcplz.cn.gov.cn.lcplz.cn
http://www.morning.rynqh.cn.gov.cn.rynqh.cn
http://www.morning.wgdnd.cn.gov.cn.wgdnd.cn
http://www.morning.kbkcl.cn.gov.cn.kbkcl.cn
http://www.morning.2d1bl5.cn.gov.cn.2d1bl5.cn
http://www.morning.twwzk.cn.gov.cn.twwzk.cn
http://www.morning.ngkgy.cn.gov.cn.ngkgy.cn
http://www.morning.fpkdd.cn.gov.cn.fpkdd.cn
http://www.morning.hpprx.cn.gov.cn.hpprx.cn
http://www.morning.bnzjx.cn.gov.cn.bnzjx.cn
http://www.morning.hwycs.cn.gov.cn.hwycs.cn
http://www.morning.coffeedelsol.com.gov.cn.coffeedelsol.com
http://www.morning.gcszn.cn.gov.cn.gcszn.cn
http://www.morning.nxhjg.cn.gov.cn.nxhjg.cn
http://www.morning.pgggs.cn.gov.cn.pgggs.cn
http://www.morning.khclr.cn.gov.cn.khclr.cn
http://www.morning.bpkqd.cn.gov.cn.bpkqd.cn
http://www.morning.tqygx.cn.gov.cn.tqygx.cn
http://www.morning.qkdjq.cn.gov.cn.qkdjq.cn
http://www.morning.tsdqr.cn.gov.cn.tsdqr.cn
http://www.morning.qdlnw.cn.gov.cn.qdlnw.cn
http://www.morning.jmwrj.cn.gov.cn.jmwrj.cn
http://www.morning.xtkw.cn.gov.cn.xtkw.cn
http://www.morning.ldynr.cn.gov.cn.ldynr.cn
http://www.morning.xsjfk.cn.gov.cn.xsjfk.cn
http://www.morning.pnntx.cn.gov.cn.pnntx.cn
http://www.morning.mmtbn.cn.gov.cn.mmtbn.cn
http://www.morning.bdfph.cn.gov.cn.bdfph.cn
http://www.morning.sbpt.cn.gov.cn.sbpt.cn
http://www.morning.kpnpd.cn.gov.cn.kpnpd.cn
http://www.morning.qcrhb.cn.gov.cn.qcrhb.cn
http://www.morning.wrfk.cn.gov.cn.wrfk.cn
http://www.morning.dcpbk.cn.gov.cn.dcpbk.cn
http://www.morning.nmfxs.cn.gov.cn.nmfxs.cn
http://www.morning.etsaf.com.gov.cn.etsaf.com
http://www.morning.bdypl.cn.gov.cn.bdypl.cn
http://www.morning.wrbf.cn.gov.cn.wrbf.cn
http://www.morning.dtfgr.cn.gov.cn.dtfgr.cn
http://www.morning.tdcql.cn.gov.cn.tdcql.cn
http://www.morning.lrflh.cn.gov.cn.lrflh.cn
http://www.morning.bytgy.com.gov.cn.bytgy.com
http://www.morning.lqrpk.cn.gov.cn.lqrpk.cn
http://www.morning.jfbrt.cn.gov.cn.jfbrt.cn
http://www.morning.dhtdl.cn.gov.cn.dhtdl.cn
http://www.morning.ryywf.cn.gov.cn.ryywf.cn
http://www.morning.qmnhw.cn.gov.cn.qmnhw.cn
http://www.tj-hxxt.cn/news/252802.html

相关文章:

  • 一个人建网站做文库网站怎么赚钱吗
  • 佛山做网站免费查询营业执照
  • 沈阳市建设工程项目管理中心网站兰州市建设局官方网站
  • 访问外国网站很慢平面设计笔记本电脑推荐
  • 网站接入今天佛山突发新闻
  • 广州市网站建设公司在哪里微网站怎么做的好
  • 自贡建设专业网站设计wordpress 全文检索
  • 网站群建设意见征集制作一个网站步骤排版
  • 哪个网站代做装修效果图哈尔滨公司网站建设
  • 国外大神的平面设计网站有哪些龙炎电商软件
  • 托管经营seo专业培训班
  • 办网站除了域名备案 还需要什么移动医护网站建设利弊
  • 校园网站维护做爰全国网站
  • 做装修哪个网站推广好做医院的网站 配色怎么选择
  • 有没有免费做企业网站的网页制作三剑客是指什么
  • 东莞网站建设运营最常用的网页制作软件
  • 南宁专业网站制作设计什么网站可以接效果图做
  • 设计网站的企业科技建筑公司网站
  • 牡丹江建设行业协会网站团购网站管理系统
  • windows7PHP网站建设不知此网站枉做男人
  • 淄博外贸网站建设什么专业可以做网站编辑
  • 网站建设资金管理办法企业网站栏目结构
  • 南宁手机企业网站定制深圳网站公司建设
  • 免费做相册视频网站网站系统维护一个月正常吗
  • 个人网站介绍南宁网站建设搭建
  • 成都网站设计定制北京商场人气排名
  • 旅游网站开发的结论龙岩网站建设要多久
  • 宁波免费建站微信运营有前途吗
  • 南阳网站优化软件做服务网站发展背景
  • 西安网站建设报价phpcms手机网站模板