Indice del libro "I motori di ricerca nel caos della Rete", scritto e distribuito in Rete a cura di Ferry Byte, Claudio Parrini e Mirella Castigli, edito su carta a cura de i tipi della Shake di Milano (già alla 2a edizione dopo che la 1a è andata esaurita in pochi mesi! :-):
smog digitale | il castello dell'informazione | la partecipazione al sapere | ricerca dell'informazione in Rete | accessibilita' dell'informazione in Rete | aspetti linguistici | agenti di ricerca | portali | chaos versus business | prova su campo

Descrizione:

attualita dei motori di ricerca: blog scacco al web

La ricerca dell'informazione in Rete, e l'altra faccia della medaglia - le tecniche per rendere l'informazione piu' visibile nel mare magnum del Web-, sono argomenti emergenti nell' attuale geografia di Internet in plateale ed incontrollabile espansione. L' evoluzione del Web - da frontiera per "fanatici del modem" e cowboys della consolle, alla cybernavigazione di massa - e' ormai sotto gli occhi di tutti. Piu' oscuro rimane invece il tema della gestione dell' informazione e delle risorse dell' informazione in Rete: un tema che, nell' evoluzione commerciale di Internet, si puo' tradurre nel famoso detto baconiano "sapere e' potere". E poiche' i Motori di Ricerca sono indubbiamente una delle principali porte di accesso ai saperi disseminati in Rete, e' di stretta attualita' analizzarne funzionamento e limiti. I motori di ricerca, strumenti a cui noi tutti ricorriamo a volte di fretta, acriticamente, altre volte solo speranzosi o curiosi, per quanto studiati sotto il profilo tecnico da innumerevoli manuali, vengono ancora stigmatizzati come una panacea al diluvio informativo. Raramente pero' vengono messi in discussione, o anche soltanto guardati al microscopio con occhi disincantati. Cosa sono gli spider? Cosa realmente vedono? Cosa cercano i motori di ricerca? Esiste un kit di sopravvivenza per i profani e gli esperti che si affacciano su questo magma fluttuante di informazioni? Esiste un reale pericolo di "censura" dell' informazione, o c' e'parita' di visibilita' per tutti su Internet? L' informazione e' in effetti "universalmente accessibile"? Questi interrogativi sono un esempio delle domande che un artista e un hacktivista di cyber-rights - Claudio Parrini e Ferry Byte con l' indispensabile supporto di Mirella Castigli -si sono posti ormai da anni nel loro approccio sperimentale alla Rete, giungendo a formulare un quadro di ipotesi e suggerimenti su cui tessere la ragnatela delle loro speculazioni. Affinche' non avvenga in Rete quella catastrofe epistemologica e culturale che determino' la fine dell' immmaginario celtico tramandato dalle antiche leggendi irlandesi: dove le divinita' celtiche abbandonarono all' oblio i loro popoli quando i Romani iniziarono a costruire le prime strade seguendo i principi dell' Ordine e della Ratio, sostituendo la geometrica regolarita' del castrum alla casualita' dei sentieri tradizionali. Fu allora che l' immaginifico universo popolato di gnomi, folletti e magiche pozioni, di cui rimane qualche subliminale traccia nella produzione shakespeariana e nella saga di Asterix, decise di sparire per sempre condannando le popolazioni celtiche alla sconfitta contro l' esercito romano: il caotico mondo dei celti, coi loro misteriosi sentieri fra boschi lunari, non poteva subire l' affronto della razionalita' latina che imponeva, col diritto e la potenza, la costruzione di uno squadrato stradario ad angoli retti. Chaos e magia cedettero cosi' il passo a geometria e rigore... La grande capacita' di comunicazione orizzontale della Rete, la sua forte spinta a fare comunita' , il suo innato spirito tecnopagano di ludiche strategie antagoniste contro ogni controllo dell' informazione, riusciranno a resistere ed opporsi all' assalto delle nuove potenze straniere? Piccoli gnomi della Rete provano ogni giorni a respingere i tentativi di imbrigliare e monetizzare la creativita' , realizzando tool-kit di sopravvivenza del Chaos vs. Business. Autostrade a tripla corsia costruite su artigianali e storici sentieri, non decreteranno la fine di paradigmi alternativi al pensiero dominante. La Rete continuera' a proliferare nel suo snodarsi imprevedibile. Invitiamo quindi chi condivide questa visione della Rete ma anche chi la vuole mettere in discussione - magari partecipando alla matrice che l' ha generata: la mailing-list cyber-rights - a sfogliare il documento orginale di partenza su Chaos vs. Business piu' avanti riportato ed anche gli approfondimenti sui seguenti temi che ci siamo dilettati - con l' aiuto di Mirella Castigli, ad affrontare... Claudio Parrini e fERRYbYte

Il suddetto libro deriva da un lavoro di ricerca e riflessione dal nome di:

CHAOS vs. BUSINESS

un' indagine sui motori di ricerca

a cura di Claudio Parrini e Ferry Byte di sTRANOnETWORK

http://strano.net/chaos

si ringrazia per i numerosi segnali di stimolo e di disturbo sull' argomento: shine, oedipa.m, cgabriel, tbazz, raf, la lista cyber-rights...

Dalla Dichiarazione Finale dell' ICATA 89 adottata il 04.08.89: "Ogni informazione e' al contempo deformazione. Il diritto all' informazione e' al contempo insesorabilmente legato al diritto alla deformazione, che appartiene a tutto il mondo. Piu' si produce informazione, e piu' si crea un caos di informazione, sfociante sempre piu' in rumore. La distruzione dell' informazione come del resto la sua produzione, e' il diritto inalienabile di ognuno.

Indice dell'indagine:

trattazione
prima proposta: SCANNERIZZAZIONE CAOTICA DELLA RETE
seconda proposta: RANKING CAOTICO DEI RISULTATI DI RICERCA
URLOGRAFIA
Criteri e operatori logici di ricerca
top ranking
robots.txt
Glossario

Diluvi universali e ombrelli di paglia.

[torna al banner di navigazione]

Tentare una ricognizione per delineare lo stato dell' arte della ricerca delle informazioni in Rete ci sembra doveroso e necessario in un momento in cui lo sviluppo di INTERNET e' veramente impressionante - si pensi che in Cina nel 1997 gli utenti erano 200.000 e nel 2.003 saranno circa 35 milioni ("BDA", Istituto indipendente di ricerca cinese); l' accelerarsi dell' e-commerce, l' incremento del free-net, ed altro ancora.

Tutti elementi che ci inducono a riflettere in maniera critica su quanto sia importante l' organizzazione e la distribuzione dell' informazione, quindi di riflesso la gestione di Internet, ruolo che viene ricoperto in parte determinante dai motori di ricerca.

Scopo di questa trattazione e' analizzare la struttura e la funzione dei principali motori di ricerca, e contemporaneamente individuare alcuni aspetti etici sui quali focalizzare l' attenzione.

Infatti se da un lato il servizio che viene offerto da questi strumenti e' di grande aiuto per chi opera nel cyberspazio, dall' altro lato occorre denunciare come, per certi versi, rappresentino un collo di bottiglia, un ostacolo, un filtro posti fra l' utente finale e il suo diritto di reperibilita' e fruizione dell' informazione in Rete; in altri termini il fatto di quanto sia oneroso il pedaggio di questo servizio.

Sopravvivere e' un' arte.

Per il superamento di tale problematica abbiamo individuato un valido aiuto nella contrapposizione di due principi: i principi del CHAOS e quelli del BUSINESS - da qui il titolo

CHAOS vs. BUSINESS

Che il CHAOS sia sinonimo e fonte di vita non puo' essere certo diretto oggetto di questa modesta trattazione, ma e' risultato essere un assunto di importanti ricerche e decisivi studi sia del passato, nella scienza basti pensare al principio dell' evoluzione di Darwin (cfr. "La rete della vita" di F. Capra), che del presente, quasi tutta la matematica d' avanguardia, in particolare quella applicata allo studio dei fenomeni naturali si basa su principi "caotici"; nell' ultimo decennio perfino la chimica di sintesi ha abbandonato lo stereotipo della chimica ortodossa (e lineare) per un modello di chimica "random" (l' attuale chimica combinatoria, in inglese CombiChem, si fonda proprio su sintesi casuali, non lineari e simultanee, vedi M. Castigli, "Altrove" n. 6, NAUTILUS 1999), cosi' l' arte in molti approcci, stili e movimenti (Dada, Fluxus) ha avuto come riferimento atteggiamenti spontanei e casuali.

Il BUSINESS si incarna e prospera su cio' che e' generato casualmente dagli esseri viventi: ogni strategia commerciale o di marketing prende spunto da cio' che piu' di bizzarro e quindi spesso generato per caso viene prodotto da esperienze artistiche, scientifiche e politiche e circoscrivendo il nostro problema, anche i motori di ricerca e soprattutto i portali non sono altro che appropriazioni e rimaneggiamenti di antiche abitudini e consuetudini di navigatori della prim' ora che costruivano e distribuivano ai propri amici elenchi di bookmarks costruiti con passione e perseveranza in anni di navigazione nel cyberspazio.

Una volta che il chaos viene raccolto ed adottato dal business viene strutturato e sfruttato a scopi commerciali generando dei meccanismi che sono ovviamente fruttuosi per chi li realizza ma diventano poi un peso, una forzatura e un limite per chi li deve utilizzare.

I motori di ricerca e i portali (intendendo chiaramente chi li gestisce) non sono da meno: nascono avvalendosi di una tecnologia sviluppata in ambiti di ricerca (come Internet) spesso frequentati da soggetti quanto meno stravaganti (il "padre" di Fidonet e' un anarchico gay) i quali si preoccupano di mantenere la libera diffusione dei loro "prodotti"; dopodiche' sussungendo alcuni caratteri ed usi di creativi navigatori esperti "avanguardisti" (come nell' esempio citato la composizione della lista dei siti top dedicati ad un argomento specifico) si lanciano nel business di "fare la rete a fette" e venderne il pezzo apparentemente piu' succulento al miglior offerente.

Nel momento in cui scatta il profit avviene il giro di vite, dalla generazione spontanea, comunitaria, caotica e vitale si passa al mortifero irrigidimento di sfruttamento commerciale, simbolo di un rapace e spregiudicato mondo economico.

Vediamo in che modo specificamente, secondo noi, porre rimedio al problema con gli stessi strumenti del chaos, usando cioe' un antidoto della stessa natura.

Nodi finiti per trame infinite.

La RETE e' un insieme di numeri IP (nodi): 195.250.236.58 e' un nodo della rete che corrisponde a www.ecn.org ("Isole nella Rete", portale di movimento), ogni nodo numerico della rete corrisponde principalmente a un nome alfabetico ma puo' ospitare attraverso dei server virtuali tanti altri nomi simbolici, su 195.250.236.58 e' ospitato per esempio anche il dominio www.forteprenestino.net. Ogni dominio alfabetico (detto anche nome simbolico) al suo interno puo' ospitare directory e sub-directories. Come risultato, la Rete e' una quantita' pressoche' infinita ma sicuramente finita di pagine web (oltre che tanti altri importantissimi servizi di posta, newsgroups, IRC, ecc.)

I motori di ricerca prendono in considerazione ovvero riescono a coprire una parte piccolissima della Rete (Altavista il 12 per cento, Northernlight il 16 per cento Lycos il 2,5 per cento ecc.); oltretutto la parte di Internet che indicizzano e' soprattutto di tipo commerciale (dossier di S. Lawrence e C. Lee Giles in NATURE, Vol.400, 8 luglio 1999, www.nature.com).

Questa parte della Rete viene scandagliata periodicamente secondo impostazioni precise e variabili da motore a motore, alcuni motori di ricerca poi, come Yahoo!, hanno alle spalle, piu' che agenti di ricerca software che vanno a caccia di pagine, apposite redazioni composte da personale umano che scelgono sito per sito a seconda dei propri gusti e delle direttive redazionali del motore di ricerca stesso.

Stiamo assistendo, in questo periodo, alla corsa di .t.u.t.t.*. per accaparrarsi un qualsivoglia dominio (esiste/ra'? un “pincopoallino.com”, comunque esiste un “boia.de”: provare per credere con dizionario di dialetto livornese alla mano!) e tutto cio' puo' far ridere o piangere ma sicuramente suscita reazioni forti e le ragioni di questa corsa non si basano solo sulla voglia diffusa di esibisionismo, di presenzialismo.
Certo la Rete, come si e' grossolanamente cercato di spiegare poc' anzi e' un insieme finito di numeri sui quali si puo' poggiare un sistema alfabetico di distribuzione di indirizzi praticamente infinito.
Un indirizzo web puo' essere anche qualcosa del tipo http://195.32.0.47 oppure http://www.firenze.linux.it/~leandro/hacklab.
Indirizzi che non sconvolgono e non mettono in crisi sicuramente l' hackerz, anche se poco scafato, ma che assolutamente non si prestano ad essere utilizzati dalla maggior parte di utenti che oggigiorno pratica Internet; l’uso di massa della Rete non prevede complicazioni e vie traverse.
Allora e' consigliabile, se non necessario, essere identificati e “rintracciabili” attraverso indirizzi che si possano ricordare facilmente o che non inducano a compiere errori di digitazione. Ma anche questa “tattica” non e' del tutto sufficiente per attirare l' attenzione del pubblico telematico e soprattutto non attuabile visto che sono gia' finiti tutti i possibili abbinamenti con tre parole del suffisso primario .com.
Quindi per far si' che la nostra presenza in Rete sia ben funzionale alle esigenze di visibilita' bisogna, nell' ordine: esistere, darsi un nome facile e farsi trovare facilmente.

Essere, quindi apparire.

È in questo meccanismo di volonta' o necessita' di apparire in Rete che i motori di ricerca giocano un ruolo di primo piano.
Un elemento che aiuta ad essere trovat* facilmente e' rappresentato dalla continua attivita' svolta nel tempo con una determinata coerenza su argomenti specifici.
Un esempio emblematico e al tempo stesso clamoroso e' Isole nella Rete http://www.ecn.org: da qualche anno il portale italiano, efficiente ed “autorevole”, rivolto ai soggetti autonomi o antagonisti (come altro si voglia definirli) in Rete.
Seppur non possa contare su qualsiasi apparato o struttura di marketing (nessun banner, nessuno sponsor ecc.) Isole nella Rete registra un numero (decine di migliaia) di visite ogni giorno da far crepare d’invidia i piu' blasonati portali commerciali italiani, inoltre e' linkato da un numero impressionante di siti e pagine da ogni parte del mondo.
Un' altra soluzione tipica per accrescere la propria rilevanza su Internet e' quella di conquistarsi spazi informativi su media tradizionali (radio, tv, giornali, manifesti) ed anche di promuovere convegni, dibattiti, mostre, "fare notizia", dare scandalo ecc. in modo da poter divulgare il proprio nome-prodotto.
Pero' la via piu' veloce ed efficace, prettamente telematica, per risolvere il problema della visibilita' in rete e' quello di apparire nei punti piu' frequentati della Rete, che guarda caso sono i motori di ricerca o i portali (presto non esistera' piu' questa differenza).
Sia sui portali che sui motori di ricerca e' possibile apparire in prima pagina anche solo comunicando la propria esistenza e le proprie coordinate di Rete oppure acquistando spazi appositi di riconoscibilita'.
I motori di ricerca, in ogni modo, rispetto ai portali, sono piu' decisivi e influenti nei confronti dell' indicizzazione e classificazione dell' informazione su Internet, essendo i
motori collegati direttamente alle funzionalita' del browser.
Sono, infatti, loro che entrano in azione quando il sempre piu' frequente poco cosciente e accorto utilizzatore della Rete digita qualcosa nel browser senza nemmeno preoccuparsi che la richiesta corrisponda a un plausibile indirizzo.
Sono, infine, i motori di ricerca i riferimenti primari ai quali ricorre, si appiglia, il novello, talvolta anche il provato, navigatore che si fa prendere dalla disperazione e dal panico davanti al diluvio informativo: ovvero di fronte alla sterminata offerta di informazione che e' la Rete stessa.

È la fetta che non ci tocca quella piu' appetibile

Per una sintetica dissertazione sull' INDICIZZAZIONE bisogna innanzitutto distinguere tra indicizzazione manuale e automatica. In entrambi i casi si tratta di perlustrare il WordWideWeb reperendo materiale e in un secondo tempo archiviare ed aggiornare i database dei motori di ricerca.

La prima avviene nei casi come Yahoo! o LookSmart dove gli editori recensiscono i siti individualmente attraverso apposite redazione seguendo parametri prestabiliti, oppure sulle guide o sui cataloghi come Open Directory nei quali gli utenti stessi si occupano di individuare e segnalare i siti.

La seconda consiste nell' applicazione di agenti software intelligenti definiti robot (il loro nome specifico e' vario: spider, crawler, Web wanderer, ant, worm); questi in base a istruzioni predefinite di coordinate per la caccia "scandagliano" la Rete, analizzano le pagine html e le sintetizzano in poche parole chiave utilizzando dei "metatag" oppure le frequenze delle varie parole in tutto il documento (o nel titolo), inserendo poi il codice HTML delle pagine in un computer remoto che serve da magazzino. Il lavoro dei robot deve essere veloce, utilizzando il minor numero di risorse e nel miglior modo possibile. Terminata questa fase inizia l' indicizzazione che attraverso registrazioni e codifiche classifica i dati che in seguito saranno pronti per essere interrogati.

Il motore di ricerca infine tramite la sua personale interfaccia permette ai navigatori di effettuare le ricerche nelle diverse modalita' e tecniche.

Quando un cosiddetto utente finale interroga un motore di ricerca come Altavista coscientemente oppure anche inavvertitamente (se digita qualcosa nell' indirizzo del browser che non corrisponde ad una URL corretta viene ridiretto come richiesta a un predefinito motore di ricerca dal browser stesso) NON interroga tutta la rete in tempo reale ma solo un pezzetto della rete scelto dai "boss" del motore stesso secondo i loro gusti e soprattutto secondo accordi commerciali presi con le grandi multinazionali.

Motori di ricerca e portali sono quindi FILTRI E COLLI DI BOTTIGLIA DELL' ACCESSO ALL' INFORMAZIONE in quanto vi e' una scelta pilotata consapevole dettata anche da esigenze di puro business nel prendere in considerazione una parte di Rete piuttosto che un' altra.

L' utente quindi interroga un database predefinito ed aggiornato ovviamente non in tempo reale (ecco perche' spesso vengono recensite pagine non piu' esistenti) secondo modalita' semplici o avanzate.

Non esiste un metodo universale per compiere ricerche in Rete, si puo' dire che il processo nasca da un interscambio tra conoscenza tecnica dello strumento che si utilizza, scaltrezza e tanta creativita'.

La scelta del motore di ricerca da usare e' importante perche' ognuno ha una diversa interfaccia grafica che permette di visualizzare svariate opzioni: dall' inserire fra virgolette l' intera frase alla scelta della lingua, del dominio al refine ecc. e soprattutto l' efficace help on line. Esiste sempre una modalita' semplice che consiste nell' inserimento della sola keyword, o effettuare delle varianti come: l' asterisco * a fine parola, che permette di trovare piu' termini con la stessa "radice", la possibilita' di vedere quanti link ho verso il mio sito, di localizzare le immagini con lo stesso nome, ecc. Inoltre c' e' una modalita' avanzata che si basa essenzialmente sull' uso degli operatori logici booleani, la quale offre una maggiore potenzialita' e precisione.

Da aggiungere i METASEARCH ENGINE (detti anche metacrawler) nei quali si puo' attuare una ricerca combinata sui principali motori di ricerca (su questa parte manualistica potete far riferimento con piu' precisione alla nostra appendice).

In seguito al via dato alla ricerca, in che maniera si ottiene il risultato? Tutti in fila, sgomitando educatamente...

L' aspettativa e' perfettamente riassunta nella frase: "Quando fai una domanda non vuoi dieci milioni di risposte; vuoi le migliori dieci...", (Bruno Henry, "Wired" n°7 nov.1999, pag.99).

Il cosiddetto TOP RANKING (il posizionamento dei primi siti nella hit dei risultati) non e' casuale, anch' esso risponde ad esigenze di mercato; se interrogo un motore di ricerca con la stringa MODA e' probabile che ottenga migliaia di risposte ma e' altamente probabile che le prime decine di pagine di risultati (che sono poi quelle che e' piu' probabile mi vada a vedere) corrispondano a pagine che aziende commerciali hanno pagato per farle emergere nelle hit delle risposte del motore di ricerca.

Motori quindi come FILTRI - MECCANSIMI DI CENSURA - dell' informazione telematica in quanto propongono come primi risultati delle ricerche quelli suggeriti da accordi commerciali ed esigenze di business perche' se e' pur vero che la maggior parte dei motori di ricerca offrono l' opportunita' all' utenza di aggiungere tramite i comandi ADD URL ADD PAGE ecc. la propria pagina nell' elenco di indicizzazione, e' altrettanto vero che non si avra' parita' di visibilita' di una ditta che paga per avere un link in evidenza su un portale o per apparire fra i primi dieci URL alla richiesta di ricerca mirata. Cio' tuttavia non toglie che un' attenta analisi di come si indicizzano i motori e quindi un buon utilizzo delle tattiche per apparire in cima al report siano molto importanti e vantaggiosi.

Esistono degli accorgimenti e trucchi per migliorare il proprio ranking anche se e' bene sottolineare che solo un lavoro costante e periodico di Reverse Engineering sulle tecniche di interrogazione e indicizzazione dei motori di ricerca permette di produrre una pagina web (o un sito) che aspira a un buon ranking. Inoltre e' importante tenere presente che una pagina accessibile (vedi http://www.ecn.org/xs2web) risulta essere una pagina facilmente interrogabile e ben indicizzabile dai motori di ricerca !

Comportamenti curiosi e cattivi pensieri.

Il modo in cui gli utenti si rapportano ai motori di ricerca e' divenuta materia di studio e oggetto di lavoro di molti motori . Riportiamo come esempio estremo quello di alcuni motori di ricerca che come fonte d' informazione prendono le richieste ed i risultati delle ricerche svolte dagli stessi utenti sui principali motori di ricerca; i.e. nel caso di risultato di LINUX come stringa di ricerca si offrono le pagine piu' richieste dagli utenti sui tradizionali motori di ricerca. Come lo studio del comportamento degli utenti sui motori di ricerca possa essere sfruttato anche per monitorare aspirazioni o ansie dell' utenza in rete (scoppia una moda o un evento tragico ed e' cosi' possibile, attraverso il tipo e quantita' di richieste degli utenti sui motori di ricerca, studiare la reazione di una parte della popolazione a tale fenomeno) lo lasciamo all' immaginazione e alla PARANOIA di chi legge questo documento... ;-)

Il futuro e' sempre una via di mezzo.

Il FUTURO dei motori di ricerca potrebbe emergere dall' attuale logica di client-server ed avviarsi su strutture di middle-ware in cui il codice di programmazione (interrogazione) non e' piu' residente su client o server ma condiviso (middleware) e nomade su sistemi pronti ad affrontare i relativi, enormi problemi di sicurezza di un codice nomade che interagisce su sistemi diversi. Tutto cio' potrebbe quindi amplificare i problemi trattati di filtro-monitoraggio-pilotaggio dell' informazione in Rete ma anche offrire qualche soluzione agli stessi.

Noi, nel nostro piccolo, a livello per ora teorico (ma non disperiamo di avventurarci con l' aiuto di qualche sistemista-programmatore e di un accorto mecenate in un futuro prossimo in qualche sperimentazione pratica) proviamo a fornire alcune indicazioni che - utilizzando alcuni paradigmi del chaos - potrebbero essere utili per uscire da queste dinamiche, per lo piu' sconosciute alla maggior parte della cittadinanza telematica, ma a nostro parere segnate da evidenti e pesanti manipolazioni dell' informazione e dell' accesso all' informazione.

prima proposta: SCANNERIZZAZIONE CAOTICA DELLA RETE.

[torna al banner di navigazione]

Studiare sistemi che permettano una scelta casuale della parte di rete da indicizzare (qualsiasi motore di ricerca o portale puo' solo indicare-selezionare una parte della rete visto le sue dimensioni e caratteristiche raggiunte negli ultimi anni) e contemporaneamente cercare di privilegiare interessi non solo di business ma anche di cordate di interessi no-profit tentando per esempio di sviluppare motori di ricerca che indicizzino tratti specifici della rete come quello del volontariato, dell' antagonismo ecc. ; privilegiare cioe' meccanismi (tutti da sperimentare) che siano orientati al reperimento di informazione in Internet partendo da indirizzi casuali ma possibili della Rete stessa.

Un' ipotesi sarebbe quella di indicizzare parte della Rete partendo da IP numerici oppure nomi simbolici possibili.

Auspichiamo quindi che per una certa (piccola) parte, i motori di ricerca prendano in considerazione la possibilita' di generare indirizzi simbolici possibili della rete come

www.parola_possibile_in_italiano.it

oppure

www.word_in_english.org.

e assumere l' eventuale sito trovato per caso con i suoi relativi links come parte delle loro basi di conoscenza.

Lo stesso potrebbe essere fatto ipotizzando indirizzi numerici ip della Rete fra quelli potenzialmente destinati ad ospitare server web. Una volta "azzeccato" un indirizzo IP numerico o indirizzo simbolico alfabetico il motore di ricerca esplora i LINKS ospitati arrivando cosi' magari anche ad indirizzi che non si possano permettere di essere rappresentati direttamente da domini alfabetici o indirizzi ip numerici.

Seconda proposta: RANKING CAOTICO DEI RISULTATI DI RICERCA.

[torna al banner di navigazione]

I motori di ricerca dovrebbero fornire risultati delle ricerche conseguite sulla base del semplice caso neutralizzando cosi' eventuali strategie di marketing che vedono risultati di ricerca viziati a favore dei "soliti raccomandati" ;-)

Soprattutto i meta-motori di ricerca che spesso sono gestiti da singoli o enti indipendenti potrebbero soppesare la possibilita' di rimescolare casualmente la graduatoria dei risultati di una ricerca effettuata sui vari motori al fine di non privilegiare nessun* e non penalizzare nessun altr* nella presentazione dei risultati della ricerca effettuata.

Puo' un’opera d’arte essere concepita come ricerca-smistamento d’informazioni?

Entrambe queste proposte si fondano su un' idea artistica, - accostando la pratica della ricerca a quella dell' arte ponendo il ricercatore nel ruolo di artista indagatore meta-diffusore dell' informazione, colui che si preoccupa in maniera laterale e creativa non tanto di limitarsi a produrre qualcosa in Rete, ma di offrire prospettive trasversali per fruire delle esperienze che gia' esistono -, per cui una possibile efficace democrazia e' quella che si basa su una sorta di PREMIO CASUALE ammettendo che ogni entita' ha le stesse probabilita' di successo (amici piu' eruditi di noi ci hanno detto che gli antichi greci in passato applicavano in alcuni casi questa sorta di democrazia casuale).

APPENDICI

URLOGRAFIA (rob da url)

[torna al banner di navigazione]

dibattito:
alt.internet.search-engines: l'indispensabile newsgroup internazionale sui motori di ricerca | mailing-list cyber-rights

approfondimenti:
A veritable gold mine of information focusing on a plethora of topics ranging from search engine positioning issues to cloaking technology, spider scouting, FAQs and more | information foraging | Information Retrieval - A book by - C. J. van RIJSBERGEN | Deep Internet | xs2web: portale sull'accessibilita' | Searching problems, web problems | The art of information searching for the open culture aera | sul cloacking | Faq | ALT.INTERNET.SEARCH-ENGINES: CHARTER & FAQ |

portali:
www.motoricerca.info | www.motoridiricerca.it | www.submission.it/ | www.toptrenta.com/ |

esempi di help on-line:
askjeeves |

esempi di motori sperimentali per fini specifici:
memoria delle vecchie homepages | sistema che ha indicizzato centinaia di programmi radiofonici | applica una serie di algoritmi atti a determinare la qualita' della pagina | gigantesco database basato sul buonsenso: capace in particolare di trattare problemi di ambiguita' e incertezza | il suo algoritmo valuta in maniera statistica la rilevanza di una parola all'interno di un contesto | data una pagina di partenza crea automaticamente link ad altre pagine costruendo una specie di sottoweb | motore di ricerca peer-to-peer | motore di ricerca in lingua inglese su tematiche riguardanti disabilita' ed accessibilita' |

esempi di simulatore:
Search Engine Spider Simulator |

esempi di come applicare un motore di ricerca sul proprio sito:
www.freefind.com/

esempi di meta-motori di ricerca:
ixquick | www.dogpile.com/ | www.copernic.com/ | www.kamus.it/useit.htm |

esempio di studio di keywords:
www.wordtracker.com

Criteri e operatori logici di ricerca (esempi di ricerche)

[torna al banner di navigazione]

corvo AND rosso

+corvo +rosso

cerca "corvo" e "rosso"

corvo AND NOT rosso

+corvo -rosso

cerca "corvo" ma non "corvo rosso"

corvo NEAR rosso

corvo ADJ rosso

cerca "corvo" e "rosso" e che siano vicini nella stessa pagina

"Corvo Rosso"

cerca proprio la stringa "Corvo Rosso"

domain:it

pagine che fanno riferimento al dominio it

link:http://www.ecn.org

verifica quanti links secondo il database di altavista puntano a www.ecn.org

host:ecn.org

pagine che fanno riferimento all'host ecn.org

image:che

pagine che contengono presumibilmente immagini del Che

Glossario

[torna al banner di navigazione]

Clustering

Ad una query alcuni motori di ricerca evitano che la risposta non compaia piu' volte con lo stesso sito. Questo per permettere che si ottenga un ranking omogeneo e chiaro.

De-listing

La cancellazione delle pagine dall' elenco di un motore di ricerca che puo' avvenire per diverse motivazioni tipo l' inaffidabilita' della macchina server del sito o per evitare lo spamdexing.

Keyword Domain Name

Trucco per migliorare il posizionamento nei risultati di ricerca che consiste nell' inserimento delle parole chiave come porzione dell' URL.

Meta search

Trattasi di una ricerca simultanea su piu' motori, una meta-ricerca in cui i risultati doppi non compaiono.

Multiple Domain Names

Tecnica che prevede l' uso di diversi domini in cui inserire le pagine gateway che puntano al sito da promuovere.

Multiple Titles

Tecnica a vantaggio del ranking sconsigliata che consiste nella ripetizione del tag TITLE nell' intestazione della pagina. Molti motori la scoprono.

Query

Per interrogare il motore di ricerca. Si usa una parola, frase, gruppo di parole o combinata con altra sintassi.

Referer

Consiste nell' ottenere l' indirizzo da cui proviene l' utente, tramite il refer log file del server. Se il visitatore viene direttamente dalla pagina dei risultati di un motore di ricerca, la referer URL indica anche la query utilizzata per cercare la pagina.

Siphoning

Alla lettera "travaso". Tutti i trucchi che vanno dalla copiatura completa di certi documenti web alle singole parti, frasi e parole chiave di altri siti, per convogliare il traffico verso il proprio.

Spamdexing

Realizzare un apposito documento per aggirare l' algoritmo di un motore di ricerca.

Stop Word

Quando viene effettuata una ricerca, per evitare che vengano trovati termini troppo comuni tipo: web, computer, the, ec. Con questa tecnica si ottiene che il motore ignori del tutto la parola indicata.

VirtualServer

È un server virtuale che attraverso un proprio dominio e indirizzo IP dei diversi proprietari viene condiviso in maniera autonoma dagli stessi. Rispetto ad un normale server questo offre un maggiore risparmio dei costi in quanto la linea permanente ad Internet viene usata da tutti i componenti. Chiaramente a scapito di una piu' veloce trasmissione dei dati.

Top Ranking - http://www.infoaccessibile.com

[torna al banner di navigazione]

Gli aspetti strategici relativi al Top Ranking si possono cosi' riassumere:

Reverse Engineering - ovvero smontaggio e rimontaggio delle scatole nere costituite dai motori di ricerca attraverso lo studio dei relativi help, l'indicizzazione manuale e lo studio dei siti che gia' godono di un top ranking relativamente a una stringa di richiesta
Terminologia - scelta di parole chiave originali e loro opportuno posizionamento ad esempio nei nomi di dir, file, url, nella parte iniziale del codice, nei tag e attributi title, nei tag h ed alt, nei meta tag description e keywords con le necessarie ed opportune variazioni
Codice - pulito, standard, accessibile: vedi www.ecn.org/xs2web
Net Geography - promozione del proprio url soprattutto in ambiti pertinenti alle parole chiave prescelte monitorando il livello di popolarita' in termini di link cosi' ottenuto
Novita' - seguire le liste di discussione come www.ecn.org/lists/cyber-rights oppure il gruppo di discussione alt.internet.search-engines per tenersi aggiornat* in materia

Robots.txt

[torna al banner di navigazione]

Questo puo' essere possibile mediante la creazione di un file: robots.txt. È un file di testo collocato nella directory di primo livello di un sito per impedire che gli agenti software accedano a certi documenti o sub-directories del sito. Cio' vale solamente con i robot conformi alle disposizioni del Robots Exclusion Standard. I robot leggeranno il file e si atterranno alle istruzioni in modo tale che certe aree del sito o l' intero sito possano non essere visitate dai ragni.

Alcuni esempi di comandi:

User-agent: *

Disallow: /

(evita che l' intero server venga controllato)

Disallow: /indirizzi

Disallow: /privacy

Disallow: /lavori

(evita che le directory descritte vengano controllate)

User-agent: Slurp/2.0

Disallow: /

(esclude un tipo di robot)

Ulteriori informazioni presso: Altavista robots.txt page.

[torna al banner di navigazione]

CHAOS vs. BUSINESS

un' indagine sui motori di ricerca

a cura di Claudio Parrini e Ferry Byte di sTRANOnETWORK

http://strano.net/chaos