Chcesz porozmawiać bardziej szczegółowo?

Zadzwoń

603 252 633

Zacznijmy od podsumowania naszej usługi w kilku prostych punktach:

  1. Indeksujemy artykuły z ponad 4 tysięcy różnych stron z Internetu.
  2. Skupiamy się na języku polskim. I tylko na nim, za to porządnie.
  3. Dokładnie analizujemy te artykuły i opisujemy je różnymi parametrami (np. treści polityczne, orientacja neoliberalna).
  4. Tworzymy dla naszych klientów dedykowane serwisy informacyjne o pożądanym profilu treści. Naszą wartością dodaną jest możliwość bardzo precyzyjnego dostrojenia profilu artykułów do potrzeb klienta, np. tylko artykuły ze zdjęciem dobrej jakości i długą, merytoryczną treścią, przedstawiające określone poglądy polityczne.
  5. Dostarczamy też klientom narzędzia do automatycznej transformacji oryginalnych artykułów tak, aby treści w ich serwisach informacyjnych były zawsze unikalne.

Zobacz artykuł demonstracyjny. Ze względów prawnych, na naszych stronach demonstracyjnych:

  • prezentujemy tylko treści udostępniane przez RSS (w docelowym serwisie newsowym możemy prezentować zawsze pełną wersję artykułu)
  • nie ukrywamy źródła oryginalnego artykułu, ani nie usuwamy z jego treści wzmianek o tym źródle (docelowo teksty mogą być przepisywane tak, aby wyglądały na całkowicie oryginalne)

Jak to działa?

1. gromadzenie danych

Sercem naszego systemu jest analizator treści w języku polskim, potrafiący do pewnego stopnia "zrozumieć", czego dotyczy tekst:

  • jakiej dziedziny życia (np. polityka, sport, zdrowie, bezpieczeństwo IT, Islam, gry komputerowe itd.)
  • jakiego kierunku (np. w przypadku wojny, sympatii w kierunku Rosji czy Ukrainy)
  • kogo lub czego konkretnie (np. konkretnych polityków, konkretnych technologii wojskowych, konkretnego filmu o Jamesie Bondzie itd.)

Pobierane z różnych stron treści są więc kategoryzowane w taki sposób, aby można było na późniejszym etapie wykorzystać dokładnie te teksty, które już na wstępie zawierają określony punkt widzenia.

2. docelowa usługa

Na Twojej domenie, na unikalnym adresie IP, wystawiamy do Internetu serwis informacyjny z odpowiednio wyselekcjonowanymi treściami. Zobacz kilka stron demonstracyjnych:

Twój serwis informacyjny może być zbudowany na bazie:

  1. Naszego domyślnego szablonu, który umożliwia bardzo daleko idącą customizację wyglądu (przyjrzyj się różnicom pomiędzy poszczególnym stronom demonstracyjnym).

  2. Dowolnego innego szablonu html (dostosowanie go jest dodatkowo płatne).

  3. Zewnętrznego Wordpressa, Joomli lub dowolnego innego silnika, odpowiedzialnego za budowanie stałych elementów strony, do którego dołączymy kod pobierający odpowiednie dane i przygotowujący je do wyświetlenia w Twoim serwisie.

3. budowanie wiarygodności

Tak uruchomiony serwis, jak każdy inny, wymaga zbudowania wiarygodności, zanim będzie w stanie odgrywać znaczącą rolę. Wspieramy to na kilka sposobów:

  1. Dostarczamy Ci algorytmy i słowniki pozwalające na automatyczne:

    • przepisywanie treści, np. określonych nazw własnych na inne
    • usuwanie wstawek reklamowych i analitycznych
    • usuwanie linków do innych artykułów na źródłowej stronie (albo zastępowanie ich linkami do Twojego serwisu, jeśli linkowane artykuły też już zostały zindeksowane)
    • usuwanie całych bloków niepotrzebnej lub niepożądanej treści (np. związanych z oceną artykułu na źródłowej stronie)
    • wstawianie linków do zdefiniowanych fraz lub słów kluczowych
    • inne przekształcenia wg potrzeb
  2. Mamy zbudowane mechanizmy integracyjne z różnymi usługami, w tym:

    • szybką notyfikację wyszukiwarek Google i Bing o świeżo zindeksowanych artykułach (znamy wiele przypadków, gdzie nasza wersja artykułu została zindeksowana szybciej od oryginału)
    • integrację z Twitterem (podsumowania artykułów mogą być w pełni automatycznie publikowane jako tweety, opcjonalnie z nałożeniem dodatkowych kryteriów filtrowania i z podziałem na wiele różnych kont na Twitterze)
  3. Mamy kontrakty na usługi SEO i SEM w atrakcyjnych cenach - możemy uruchomić takie działania również dla Twojego serwisu.

Architektura techniczna

warstwa aplikacji

Nasz system oparty jest na przebudowanej, komercyjnej aplikacji InBefore. Ulepszeń w stosunku do oryginału jest bardzo dużo, ale:

  • utrzymujemy pełną kompatybilność na poziomie schematu bazy danych
  • utrzymujemy identyczny schemat routingu do poszczególnych typów podstron
  • utrzymujemy identyczną strukturę ścieżek do plików (obrazków, JS, CSS, elementów szablonu i tłumaczeń)
  • nie robimy żadnych zmian w oryginalnych plikach JS i CSS, a oryginalne style CSS nadpisujemy własnymi, podpinanymi w osobnych plikach
  • zmiany w kodzie szablonów są na tyle niewielkie i punktowe

Dzięki temu, jeśli chcesz zacząć eksperymenty z układem strony jeszcze przed nawiązaniem współpracy z nami, możesz zacząć od zakupu oryginalnej wersji InBefore, a potem na swój kod nanieść nasze zmiany, które otrzymasz w postaci tzw. diffa.

warstwa systemowa

Całość działa na standardowym Ubuntu 22.04 LTS (albo starszej wersji, minimalnie 18.04) i używa klasycznych technologii linuxowych:

  • Apache+PHP - jako serwer aplikacji
  • Nginx+certbot - jako proxy terminujące SSL
  • MySQL - jako baza danych (może być dowolna inna wersja: MariaDB, Percona)
  • memcached

architektura sieciowa

Cała instalacja podzielona jest na dwie osobne maszyny:

  1. Nasza maszyna centralna (wspólna dla wszystkich klientów) - tutaj uruchomiony jest importer, strony demonstracyjne, oraz MySQL w trybie master.

  2. Maszyna klienta - tutaj uruchomione są strony klienta, oraz MySQL w trybie slave.

Pomiędzy maszynami uruchomiona jest replikacja zawartości bazy danych, dzięki czemu z maszyny klienta nie wychodzi żaden ruch do stron źródłowych. Klient za pomocą replikacji dostaje gotowy do użytku strumień świeżych artykułów.

Architektura tresci.net

Klienci końcowi, oraz crawlery wyszukiwarek, łączą się wyłącznie do maszyny 2. Maszyny 1 i 2 nie są w żaden sposób powiązane nazwami domen ani adresami IP.

wymagania systemowe

Dzięki bardzo niewielkiej liczbie zmian w raz zindeksowanych treściach, a dzięki temu, bardzo skutecznemu buforowaniu danych, wymagania odnośnie serwera są bardzo niskie. W tej chwili:

  • ponad 20 stron demonstracyjnych
  • działający przez cały czas importer
  • ponad 4000 skonfigurowanych źródeł, ok. 1,5 miliona zindeksowanych artykułów
  • różne integracje zewnętrzne
  • niniejsza strona
  • i jeszcze kilka narzędzi wewnętrznych

bez problemu działają:

  • na 2 vCPU i 4 GB RAM
  • dokładnie na modelu CX21 w Hetzner Cloud (koszt € 6.58 brutto miesięcznie)
  • ze średnim loadem na poziomie 0.3, szczytowym poniżej 0.5 i utylizacją RAM nie przekraczającą 1.2 GB

Po przełączeniu liczników odwiedzin artykułów z trybu online na zliczanie ich z logów Nginx, oraz włączeniu jeszcze frontowego proxy na Nginx, 1 instancja CX41 (4 vCPU, 16 GB RAM, € 21.41 brutto miesięcznie) powinna być w stanie obsłużyć ruch ogólnopolski.