在Python中,采集数据可以通过多种库实现,以下是一些常用的库及其关键方法:
1. requests库:用于从网络上获取数据。
关键方法:`requests.get(url)` 和 `requests.post(url, data=data)`。
示例:
```python
import requests
response = requests.get('http://example.com')
print(response.text)
```
2. BeautifulSoup库:用于解析HTML和XML文档。
关键方法:`BeautifulSoup(html_content, 'html.parser')`。
示例:
```python
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.find('title').text)
```
3. Scrapy库:用于爬取网站数据。
关键方法:`CrawlSpider` 和 `Rule`。
示例:
```python
import scrapy
class MySpider(scrapy.Spider):
name = 'example'
start_urls = ['http://example.com']
def parse(self, response):
for item in response.css('div.item'):
yield {'title': item.css('h2::text').get()