Extragere & publicare automată

Scraper cu AI, pipeline etapizat: URL, PDF → produs, anunț, blog

Construim fluxuri care extrag informație din URL-uri, PDF-uri și alte surse pe care le incluzi în proiect, o structurează în pași clari cu AI și modele clasice, apoi publică automat în magazin (produse), în module de anunțuri sau în blog — cu validare, log și opțiune de aprobare în masă. Integrare tehnică pe măsură, aliniată la obiectivele și sursele tale.

Pagina Importuri se concentrează pe fișiere CSV/Excel și sincronizări de catalog; aici detaliem extragerea din conținut nestructurat și semi-structurat plus legătura cu generarea de conținut și blog.

Descrie sursele & obiectivele Vezi automatizări & AI

Pipeline etapizat (de la sursă la publicare)

Fiecare etapă poate fi activată, simplificată sau întărită în funcție de risc și volum. Etapizarea permite testare incrementală: mai întâi extragere corectă, apoi structurare, apoi scriere în producție.

1
Inventar & scope
Listăm sursele (domenii, foldere PDF, API-uri) și definim clar ce intră în flux: pagini, tipuri de document, limbi, frecvență.
2
Descoperire & colectare
Din URL-uri: crawl ghidat sau listă fixă de linkuri, cu rate limits rezonabile. Din PDF/DOCX/HTML atașamente: descărcare în depozit, versionare fișier.
3
Extragere brută
Parsare structură: tabele din PDF, text din layout-uri complexe, liste din HTML. Opțional OCR pentru scanate. Păstrăm fragmentul sursă pentru audit.
4
Segmentare & chunking inteligent
Împărțim documente lungi în unități logice (produs, capitol, anunț) astfel încât modelul să nu „amestece” entități și să poată reconstrui contextul.
5
Structurare cu AI (schema țintă)
Mapare la JSON strict: produs (titlu, SKU, preț, atribute), anunț (titlu, zonă, preț, contact), articol blog (titlu, lead, corp, taguri). Validăm contra JSON Schema înainte de pasul următor.
6
Reguli de business & deduplicare
Fuziune înregistrări duplicate după cod/EAN/titlu normalizat, filtre de calitate (preț pozitiv, câmpuri obligatorii), transformări (TVA, monedă, slug-uri).
7
Coadă de revizuire (opțional)
Înregistrările cu scor scăzut de încredere sau conflicte merg în admin pentru aprobare în masă sau editare punctuală — fără a opri restul fluxului.
8
Publicare automată
Creăm sau actualizăm înregistrări prin API/CMS: produse în magazin, anunțuri în modulul tău, drafturi sau articole live pe blog, cu log și rollback.
9
Monitorizare & rapoarte
Dashboard: câte extrageri reușite, erori, diferențe față de rularea anterioară, alerte la schimbări majore de structură pe sursă.

Surse: URL, PDF și altele

Combinăm liber surse în același proiect: de exemplu prețuri din feed JSON, descrieri lungi din PDF, imagini din URL-uri de CDN furnizor. Fiecare conexiune primește propriile reguli de autentificare, frecvență și mapare.

URL & pagini web

Listă de linkuri, sitemap sau secțiuni alese din site. Extragem tabele, liste de produse, fișe tehnice, prețuri din HTML structurat sau semi-structurat.

PDF, cataloage, fișe produs

Broșuri furnizor, cataloage sezoniere, fișe cu tabele și imagini. Combinăm parsare clasică cu AI pentru rânduri „întortocheate” sau anteturi inconsistente între pagini.

Office, email, arhive

Excel/CSV atașate la mail, exporturi ERP, fișiere într-un folder SFTP sau cloud partajat — declanșator automat când apare un fișier nou.

API, JSON, XML, RSS

Când există endpoint oficial, preferăm mereu API sau feed în loc de scraping vizual: același pipeline de validare și publicare, sursă mai stabilă.

Ce putem crea automat în platformă

Schema de ieșire este aliniată cu modelele tale de date: nu „forțăm” un format generic. Poți rula același extractor către mai multe ținte (ex.: produs + articol de blog din același fișă tehnică PDF).

Produse & variante

Înregistrări complete în catalog: titlu, descriere scurtă/lungă generată sau extrasă, SKU, categorii, preț, stoc dacă e în sursă, imagini din URL-uri permise, variante (mărime, culoare). Actualizare incrementală la fiecare rulare.

Anunțuri & listări

Pentru marketplace-uri proprii sau portaluri de anunțuri: titlu optimizat, corp, atribute specifice domeniului (mp, an, km, etc.), geolocație dacă există în text, status publicat sau în moderare.

Articole blog & noutăți

Din rapoarte PDF, comunicate sau pagini „Știri”: generăm structură articol (H2/H3), rezumat, taguri, meta title/description, imagine copertă dacă sursa o permite — programare la dată sau publicare imediată.

Taxonomii & SEO auxiliar

Propunere categorii, colecții, taguri consistente; completare câmpuri SEO lipsă; legături interne sugerate între produse și articole pe baza subiectului extras.

AI integrat end-to-end

AI-ul nu este doar „un chat”: este înglobat în pașii de structurare, clasificare și completare text, mereu cu posibilitate de override și cu păstrarea sursei pentru audit.

Modele pentru extragere controlată

Prompturi și funcții cu ieșire structurată (schema fixă), temperatură scăzută unde contează exactitatea, fallback la reguli deterministe când AI-ul bănuiește ambiguitate.

Lanțuri de transformare

Extragere → normalizare limbă/diacritice → conversie unități → generare slug-uri → îmbogățire cu descrieri (modul AI Content) doar unde ai aprobat șabloanele.

Integrare cu automatizări

Notificări Slack/Email, tickete în CRM când o sursă se rupe, sincronizare cu fluxurile de pe pagina de automatizări (webhook-uri, job-uri programate).

Programare, recurență, declanșatoare

Cron zilnic/săptăminal pentru URL-uri și feed-uri care se schimbă des.
Declanșator la fișier nou în folder (PDF, CSV) sau la primirea unui email cu atașament.
Re-rulare manuală din panoul de admin cu parametri (limită, doar o categorie, doar preview).
Mod incremental: hash conținut sau etag HTTP ca să nu rescriem tot catalogul dacă nu s-a schimbat nimic.

Calitate, siguranță operațională

Validare schema + reguli (preț numeric, câmpuri obligatorii, lungime titlu).
Jurnal cu snippet sursă lângă fiecare câmp extras — trasabilitate pentru QA.
Mod „dry-run”: vezi ce s-ar publica fără scriere în producție.
Rate limiting și retry exponențial la surse instabile, pentru rulări stabile.

Module din catalog (orientativ)

Un flux de tip scraper leagă de obicei import/sincronizare catalog, uneori generare conținut AI, secțiune blog și reguli pe categorii. Prețuri în EUR, fără TVA — detalii în configurator.