Technologia

Crawlery

PricePanorama uzyskuje informacje ze sklepów używając tzw. web crawlerów. Są to aplikacje, używane między innymi przez wyszukiwarki internetowe (jak. Google), które łączą się z publicznie dostępną witryną sklepu internetowego i pobierają zawartość stron, która następnie jest przetwarzana i zapisywana do bazy danych. Główne Crawlery działają w chmurze. Aby optymalizować prędkość pobierania danych, crawlery mogą być uruchamiane z różnych data center, a nawet różnych chmur, stąd za każdym razem połączenie może następować z innego adresu IP.

Sposób pobierania danych

Crawlery łączą się wyłącznie do witryn sklepów internetowych, obsługiwanych protokołem http lub https (SSL), które są publicznie dostępne i nie wymagają podania hasła. Crawler zaczyna pobieranie od strony głównej sklepu, a następnie podąża odnośnikami, tak jak robiłby to użytkownik sklepu, aby dotrzeć do kolejnych podstron. Pobierane są wyłącznie pliki HTML. Crawler pomija pliki CSS, pliki PDF, obrazki i inną zawartość sklepu, dzięki czemu minimalizuje obciążenie serwerów i użycie łącza. Crawler obsługuje kompresję gzip, dzięki czemu przesyłane z serwera plików html używaja mniejszje przepustowości łącza. Crawlery obsługują tzw. cookies, w tym session cookies, dzięki czemu ich działanie nie wpływa na liczbę sesji w serwerze sklepu w większy sposób niż wizyta jednego użytkownika.

Zgodnie z zaleceniami RFC 2616, crawler w jednym momencie nawiązuje nie więcej niż dwa połączenia do jednego sklepu internetowego. W wyjątkowch sytuacjach, może to być zwiększone (zgodnie z propozycją HTTPBIS, jeśli liczba podstron sklepu jest tak duża, że ich pobranie nie byłoby możliwe w ciągu 24 godzin. Crawler posiada mechanizm ograniczający pobieranie danych z każdej strony sklepu nie częściej niż raz na dobę.

Jakie dane są przetwarzane

PricePanorama ze stron sklepów pobiera dane o oferowaych produktach. Składają się na to nazwa, cena w jakiej jest oferowany, informacja o dostępności i czasie dostawy oraz kategoria oferty do jakiej produkt jest w sklepie przypisany. Nie są pobierane żadne dodatkowe informacje, mogące być chronione prawem autorskim, takie jak zdjęcia, opisy produktów, komentarze i rekomendacje klientów.

Jakość danych

Przetwarzanie danych w PricePanorama jest zautomatyzowane. Istniejące mechanizmy pozwalają rozpoznawać informacje takie jak cena czy czas dostawy zapisany w wielu formatach, nawet graficznych. System wspierają operatorzy, którzy codziennie ulepszają reguły pobierania danych i weryfikują, czy podczas przetwarzania danych nie wystąpił błąd.

API

Dostęp do informacji pobieranych przez PricePanorama możliwy jest także przez API. Jeśli chcesz we własnym systemie informatycznym Twój system potrzebuje informacji o ofertach sklepów i nie chcesz samodzielnie Tworzyć crawlerów i mechanizmów wydobywania danych, to rozwiązanie jest dla Ciebie. Korzystając z API oszczędzasz czas i zmniejszasz koszty. Skontaktuj się z nami i opisz jakie są potrzeby Twojego systemu, a przygotujemy dla Ciebie ofertę dostępu do API.

Zacznij korzystać z PricePanorama już teraz!

W naszym Serwisie w celu poprawy jakości i dostępności naszych usług wykorzystujemy pliki cookies. Jeżeli chcesz dowiedzieć się więcej o tych plikach, celu ich używania oraz możliwości zablokowania zapisywania ich na Twoim urządzeniu zapoznaj się z naszą Polityką Prywatności.

©2016 Manubia sp. z o.o.
Mobile Analytics