链家爬虫（成都）

环境

ubuntu 16.04.2 LTS
python 3.5.2
pip 8.1.1

如何使用

pip install -r requirements.txt
python main.py

原理

测试使用了scrapy内置的Spider, 核心代码位于lianjia.py.

scrapy启始根据start_urls发送请求，得到的结果在parse函数中解析，得到不同区域的url;
然后使用不同区域的url再次发送请求，得到的结果位于detail_url中解析，然后针对分页发送批量的请求；
解析数据，最后通过yield item返回

注意

导出json格式文件的时候出现对了/000xx之类的乱码；目前采用csv格式导出，测试通过

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
helper		helper
lianjia		lianjia
.gitignore		.gitignore
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

链家爬虫（成都）

环境

如何使用

原理

注意

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

链家爬虫（成都）

环境

如何使用

原理

注意

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages