Sfaturi pentru a implementa un crawler web...

 

Cand a aparut a doua tema la IE nu stiam de unde sa incep.M-am documentat si m-am gandit sa va dau si voua cateva sugestii legate de tema. Sunt mai degraba sugestii legate de instalarea si folosirea tehnologiilor pe care tema le impune,daca vreti sa folositi Java.

Tema presupune realizarea unui mic crawler web.Detalii despre ceea ce inseamana un crawler puteti gasi aici sau aici.
In scopul realizarii acestui crawler in JAVA veti avea nevoie de:
 -download-area si instalarea unui server de MySQL
 -realizarea accesului dintr-un program Java la baza de date
 -parsarea codului sursa folosind un parser propriu sau parsere deja implementate in Java:SAX,DOM

  MySQL

MySQL este unul dintre cele mai cunoscute servere de baze de date. MySQL este gratuit pentru sistemele de operare Windows, Linux, Unix, MacOS, sub licenta GPU(General Public License).Pentru a downloada serverul de baze de date impreuna cu documentatia puteti accesa site-ul oficial www.mysql.com. MySQL server ultima distributie (MySQL Community Server)se poate downloada de aici. Pentru Windows instalarea este extrem de simpla:doar de dat Next:)

  Drivere JDBC pentru MySQL

Ce este JDBC?...JDBC(Java Database Connectivity) reprezinta un API ce ofera conectivitate la diferite baze de date pentru aplicatiile JAVA. Aplicatiile scrise conform acestui standard sunt independente de bazele de date folosite ,dovedindu-si capabilitatile de "Write Once, Run Anywhere". Pentru mai multe detalii puteti vizita java.sun.com.
Pentru MySQL exista mai multe implementari de drivere JDBC gratuite:Connector/J,Mm(GNU),Twz si Caucho.Driverul recomandat este Connector/J,driver ce reprezinta o imbunatatire a driverului mmMySQL.Ultima versiune a driverului(5.1) poate fi downloadata de aici Pentru a putea folosi driverul este necesar sa adaugati in librariile folosite de proiectul Java si .jar care se afla in arhiva driverului.
Pasul final :parsarea se poate face destul de usor folosind DOM sau SAX.Am presupus ca codul paginii preluate este valida XHTML pentru a putea fi parsata de catre DOM sau SAX. Tutoriale interesante despre DOM si SAX:
   tutorial DOM
   tutorial SAX
Despre alegerea intre SAX si DOM va voi vorbi intr-un articol viitor. Urmand pasii de mai sus poti spune ca esti gata sa incepi implementarea unui crawler web..