기타2/Nodejs
크롤링
죠부니
2020. 10. 29. 17:19
반응형
github.com/bda-research/node-crawler
github.com/simplecrawler/simplecrawler
github.com/ktty1220/cheerio-httpcli
github.com/puppeteer/puppeteer
무엇을쓸것인가.
puppeteer와 cheerio의 조합
+ 크론잡 node-cron, node-schedule 둘중하나 선택
github.com/node-cron/node-cron
github.com/node-schedule/node-schedule
---
cheerio만 사용한다면 iconv를 써서 해결해야되지만
github.com/bnoordhuis/node-iconv
cheerio-httpcli사용시 iconv안써도된다
---
npm install cheerio-httpcli
var client = require("cheerio-httpcli");
let url = "URL";
var param = {};
client.fetch(url,param,function(err,$,res){
//에러체크
if(err){
console.error("ERROR : " + err);
return;
}
console.log($.entityHtml());
})
기본형으로 나머지는 $쪽 jquery선택자를 활용해서 내가 원하는 정보에 접근하면된다.
반응형