dimanche 31 mai 2009

Déménagement du blog

Salut à tous,

Ne pouvant continuer mon blog en français je vous donne l'adresse de mon nouveau blog:

samedi 30 mai 2009

Google Wave

Le monde des moteurs de recherches est en ce moment en ébullition. La sortie de Wolfram Alpha ainsi que de Bing le petit nouveau de chez Microsoft y sont sûrement pour quelque chose.
Une fois de plus les célèbres pronostics sont lancés: Google va t il être détrôné?
Et je crois bien qu'une fois de plus la réponse va être un non catégorique.
La raison s'appelle Google Wave qui est la future application de Google qui redéfinit clairement l'usage que nous faison de la messagerie électronique.
En quelques mots de quoi cela s'agit il?
Et bien l'utilisation de Google Wave est basé sur l'expérience des Wikis et de la messagerie instantanée.
En résumé un simple échange d'email se transforme en véritable conversation instantanée ou chacun peut revenir sur ces propos, échanger des images et travailler ensemble en temps réel. Le tout peut aussi se faire en étant hors ligne. Il est possible d'ajouter d'autres participants à l'échange et de le séparer en plusieurs partie.
Il est aussi possible de lier l'échange à un blog ou tout les messages écrits sont ensuite posté sur le blog en question en temps réel.
En résumé avec un tel produit on est pas prêt de se séparer de Google.
L'application en question n'est pas encore sur le marché mais le sera prochainement vous pouvez en être informé à http://wave.google.com/
Voici la vidéo de démonstration, un peu longue c'est vrai mais croyez moi elle en vaut la peine :

Google et les consommateurs

Je viens de réaliser pour l'un de mes cours intitulés "Consumer Behavior" une courte étude sur le comportements des internautes vis à vis de Google.
En espérant que cela intéresse certains d'entre vous:

mardi 26 mai 2009

Les discours des hommes les plus influents dans le secteur des moteurs de recherches

J'ai retrouvé des vidéos des discours prononcés prononcés par les créateurs de Google, Microsoft et Yahoo lors de remises de cérémonies. Elles sont assez sympas car pleine d'humour et montre des personnalités dont l'on entend beaucoup parler mais que l'on ne voit presque jamais.
Voici le discours de Larry Page, co fondateur de Google:


Voici le discours de Jerry Yang, co fondateur de Yahoo:


Voici le discours de Robin Li, co fondateur de Baidu, si je ne me trompe pas il s'agit bien d'une cérémonie de remise des diplomes, naturellement c'est en chinois mais ça vaut aussi le coup d'oeil ne serait ce que d'un point de vue culturel:
Je n'ai malheureusement pas trouvé la suite du discours.
Et celui de Bill Gates, co fondateur de Microsoft:





J'ai trouvé beaucoup de similitudes entre les discours de Yang, Gates et Page. Tous utilisent l'humour et tous ont quitté leurs doctorat pour se consacrer à leur entreprise.

jeudi 21 mai 2009

NHN: Next Human Network n'est autre que Naver le moteur de recherches coréen

En retravaillant sur ma thèse ce matin la curiosité m'a pris de vérifier le classement des moteurs de recherches au niveau mondial.
Je vous remet le classement de 2007 (il faut savoir que quand les données sont collectées au niveau mondial il n'est pas facile facile de trouver les résultats les plus récents):

Il me semble avoir déjà parlé du fait que Baidu, propriété chinoise avait son importance du fait que ses utilisateurs sont fidèles.
Comme on peut le voir sur cette image NHN Corporation occupe la cinquième place et est au coude à coude avec Microsoft.
Comme mentionné dans le titre NHN signifie "Next Human Network" et est la propriété d'une multinationale coréenne dont l'origine est la fusion entre une entreprise de jeux vidéos en ligne et de Naver le célèbre moteur de recherches coréen.
Il est possible que la présence de cette entreprise en cinquième place ne vous fait ni chaud ni froid mais il faut se dire que Naver est un pur produit coréen c'est à dire quasiment aucune utilisation ne doit en être faite de la part des étrangers(l'interface en anglais y est même inexistante).
La Corée du Sud pour information c'est un peu moins de 50 millions d'habitants et un taux de connexion des plus élevés au monde avec un peu plus de 3 habitants sur 4 ayant accès à Internet.
Donc il est assez impressionnant de voir qu'un pays modeste en terme de population et avec un service à grande partie national peut décrocher une cinquième place.

mardi 19 mai 2009

Wolfram Alpha: Du nouveau dans le monde de la recherche sur Internet?

Quelques petits mots sur le moteur de recherches du moment qui n'est autre que Wolfram Alpha.
Son récent lancement et le fait que les médias en parlent beaucoup en ce moment m'ont poussé à en faire un test.
Et en effet il y a de quoi ne pas être déçu.
Ola pas d'affolement ce n'est pas encore la solution miracle. Cependant on peut en obtenir des résultats intéressants qui vous poussent à lui poser quelques questions supplémentaires.
Tout d'abord commençons par son interface graphique:

home page wolfram alpha

Personnelement elle me plait, les couleurs rosées lui donnent un petit aspect Linux Ubuntu. 
A part cela je dirai qu'en tant qu'utilisateur lambda on a vite fait de ne pas lire les instructions et de commencer à entrer quelques mots clés dans la barre de recherches et commencer à surfer.
A partir de là vont commencer les premières exclamations disant que le moteur n'est pas au point car ne renvoit aucun résultat.
Et oui la vie des moteurs de recherches est très dur au départ d'où le risque quand on lance une application toute jeune sur un marché de masse.
La solution la plus efficace pour obtenir des résultats consiste à y rentrer des mots simples et si possible uniques, utiliser aussi les guillemets "". Suite à quoi vous obtiendrez en effet vos premiers résultats.
Voici un exemple tout bête:



Là en l'occurence j'ai écrit Wikipedia.org en tant que mot clé et on me renvoit des informations concernant le page rank de la page, quand le site à été enregistré etc etc...
Donc ce qui est sympa avec Wolfram c'est l'aspect personnalisé de l'information. Par exemple si vous écrivez le nom d'une ville ou d'une uinversité et bien vous obtenez des informations sur celles ci. Donc je dirai pour le moment Wolfram a des allures d'encyclopédies simplifiées.

samedi 25 avril 2009

Dernier post

Je viens de poster une étude de cas sur les navigateurs Internet qui n'a rien à voir avec les moteurs de recherches alternatifs. Cependant je pense que son contenu peut intéresser plus d'un et qu'il serait donc dommage que je n'en fasse pas profiter tout le monde.

Browser Wars: Internet Explorer versus Netscape

Browser Wars 

Battles of Standards, Microsoft versus Netscape


Browser wars Microsoft versus Netscape

Topic :

One standard that appears to have been effectively monopolized by a single company is the Microsoft PC system software. The class could discuss why this is the case and wether it is likely to continue in the future. It could also ask wether such a monopoly is a good thing (for society as a whole, not just Microsoft) for what it considers, as unfair competition against Netscape. An excellent analysis of the various sides of the debate can be found in The Economist ('At war with Microsoft' and 'Play nicely, or not at all', May 23, 1998; 'Bill Gates replies: compete, don't delete', June 13, 1998; Microsoft - letters, p.10, June 27, 1998).

Context:

The following case study has been submitted for the course of Innovation and Knowledge Management at the university of Léon within the European Master in Business Studies.

Introduction :

Internet explorer versus Netscape Navigator is a classic of case study and this is not the information which are lacking on the subject.

As an example the two books I chose to study within the course of Innovation and Knowledge Management  untitled "Winners Losers & Microsoft" and "Information rules: a strategic guide to network economy" are both refering to the battle between Internet Explorer and Netscape web browsers.

This story and analysis has then already been written more than once and it can then be very easy for me to make a good copy of those works based on the analysis of analysis.

I am personnaly more interested in writing something new and original. I suggest then to take into account new elements such as the current web browser market (2009), the fact that we are analyzing the situation 10 years after the battle and trying to predict the future of the web browser market.

Those changes will brought an original work to the teacher and an exclusive paper to its readers.

I hope you will appreciate it.

Ronan CHARDONNEAU

Personal experience about the study case :

I have been introduced to Netscape Navigator in 1999, my elder brother studying computer sciences he came back one day with a pc including Internet Explorer and Netscape. I personnaly grew up and be trained with Internet Explorer ( as it was by default installed on all computers of my junior High School).

I never used Netscape Navigator to go on Internet and I am an experienced user of Mozilla Firefox and Google Chrome. I also use sometimes the textual web browser Lynx.

Why the web browser standard has been monopolized by Microsoft PC system software ?

First of all let’s define what is a standard :

« A technology is recognized as a standard when it gets more than 50% of the market shares»

Let’s now define a web browser :

« A browser is a software application that is used to locate and display Web pages. »

www.asu.edu/copp/resources/glossary.html

Here is a definition of Microsoft :

« Microsoft Corporation is an American multinational computer technology corporation, which rose to dominate the home computer operating system »

en.wikipedia.org/wiki/Microsoft

And to finish a definition of an operating system :

« The most important program run on a computer because it manages all the other programs. »

www.iscfr21.it/21cfr_glossary.html

So Microsoft owns the Operating System market which is managing web browsers and Microsoft is producing its own web browser : Internet Explorer. Here we can then understand the problematic.

On Microsoft side we can understand the following question « Why should I include a competitor web browser within my own Operating System ? » and obviously understand why they are still not doing it.

In 1999 in order to install Netscape on your PC you needed to take it from the outside (Download on Internet, take it from a CD etc…) and here is the heart of the winning battle.

In order to win and be recognized as a better product people have to know that you exist. We can then understand why at that time computer users did not have Netscape on their computer (today the world Internet penetration rate is at 23,8% in 2000 only 7% of the world population had Internet connection, http://www.internetworldstats.com/stats.htm). Netscape was then for elites or computer educated people, for example my brother had it and I never heard about it.

 

So to sum up this first part :

-      The web browser market has been monopolized by Microsoft because MS owns the software which manage web browsers ;

-      Microsoft has no interest of letting entering competitors into his own market ;

-      Users cannot know that other web browsers exist if they are not informed about their existence and of course cannot install them if they do not know how to ;

 Is it likely to continue in the future ?

 Actually a good question one should ask is « Is the situation of web browsers has changed during the last ten years ? »

As a standard user I can say no but the next decade is going to be very interesting for the web browsers market and this for many reasons.

Raising up of a new competitor: Google

 

The first good reason for changes is the raising up of Google on the market of operating systems. Google  already started on cell phones with a software called « Android ». Google is the most famous brand in the world and has a better reputation than Microsoft which is a good reason for customers to switch or at least give a try to a new operating system. Moreover Google already owns its proper web browser : Google Chrome.

It is not that popular but has however the fourth position in the market of web browser, taking in account that the third one is more or less targeting another kind of computers (Mac) one can say that Google Chrome has an interesting outsider position (cf.page 11).

I would amphisize as well that Google may have the solution for the operating system of tomorrow which could bring a tremendous revolution in the world of operating system.

It is going to be the first time that Microsoft will face a competitor which is as famous and successful as him.


A computer population who is more and more educated 

 

The case of Mozilla Firefox web browser is also a very interesting part of this case study . Mozilla Firefox is a free, open-source, web browser for Windows, Linux and Mac OS X. Firefox is knowing exactly the same story as Netscape (in fact the those two products are more or less the same http://browser.netscape.com/history). « At the time of the acquisition, the Netscape team had begun working on converting their flagship product - the Netscape Communicator web suite - into open source software, under a new name: Mozilla. »

Netscape as Mozilla Firefox both have the reputation to best http://www.consumersearch.com/web-browser-reviews . It is so called better than Internet Explorer but is not yet recognized as the standard. The success of Mozilla is due to the fact that it is a product which is according to me more convenient than Internet Explorer. It is not first in the market because in order to have it on your computer you need to download it and of course to know its existence.

The best example I can find about the recognition of its strengths is its presence at the university.

It is nowadays very hard to find in European universities a computer which does not have Mozilla Firefox on the desktop.

I guess that the presence of Mozilla is due to the fact that higher education recognize its quality.

Let's know think about the future when the current students which are studying right now at the university will be on the market place.

Well good chances that it will install a wave of Mozilla Firefox within businesses and that it will be a trend which will not be reversed until universities recognize the value of another web browser.

So I would attribute the success of Mozilla Firefox and in a certain way Netscape to the fact that people get more and more computer educated.

However this education is not sufficient enough in order to jeopardize Microsoft Internet Explorer on the short term.

 

A new sanction for Microsoft ?

 

Microsoft has been at the center of many polemics since the story of Netscape versus Microsoft, however justice never sanctionned firmely Microsoft for obvious reasons (if Microsoft is seriously condamned what will happen to Microsoft users ?).

Microsoft trial is still a day to day topic in the news : http://www.zdnet.fr/actualites/informatique/0,39040745,39393157,00.htm. Microsoft is under a condamnation by the european commission http://rcpmag.com/news/article.aspx?editorialsid=10780  to let an option on its operating system allowing to remove Internet Explorer and include competitors web browsers.The answer of the verdict is fixed at April the 28th 2009 : http://www.generation-nt.com/internet-explorer-vente-liee-windows-europe-actualite-264581.html

Is such a monopoly a good thing ?

As in all monopoly you have pros and cons :

Good point :

 

I worked for almost one year in computer companies or at least worked in the field of computers and here are some benefits I have seen.

If everybody use the same web browsers then it is less work for website computer programmers because you are sure that all the information you will display will be displayed properly. Exactly like a language if everybody speaks the same language then everybody understand and understand each other

 

Bad point :

 

On the other hand when people are using different web browsers some information are sometimes missing, computer programmers have to test the applications on different web browsers and then tasks come to be more and more complicated.

 

Here are some mere explanations. Some web browsers recognized some parts of codes whereas other don't. One of the most famous one is the HTML tag called which means that a word included between those two tags will blink automatically. Some web browsers are not reading those codes and of course will not display this information properly whereas other will. So here was for the main basic idea.

Another idea we can developped is the different use of web browser for different tasks.

For example Mozilla Firefox is very popular because of all the functions you can add to this browser : applications which will allow you to download videos from the website you are looking at or even thousands of others functionalities to customize your web browser.

 

Google Chrome is is very convenient because it is quickly launched.

 

Lynx is very popular to protect your data and your confidentiality.

 

So to each web browser correspond a certain list of characteristics but of course you have to know that they exist and what are there characteristics.

 

According to the book "Winners, losers and Microsoft" the products which win the battle are always the best. I strongly disagree with this statement. The product which win is the best advertised and at this game Microsoft is leading the game. A quick look at the recent figures of the web browsers market shares show us that Internet Explorer is still the leader and the standard in terms of web browser.


Conclusion :

 

From this analysis we can then understand why Netscape did not win (if your success is in the end of your competitor…well it is hard to win) but also why it is still living under the name of Firefox (when you have strenght that competitors do not have you are still on the race).

We can also see that people are not entirely benefiting from this monopoly because Internet Explorer is not the best product.

For consumers they can take the best part of web browsers only by using each of them for specific purposes but should at least know that they exist.

Microsoft could lose its monopolistic position on the short term but only if a strong event happened such as the presence of Google on the desktop operating system market or a severe condamnation from the European Commission.

What is really strange to see is that the Web Browser market clearly show how computer education is moving and market imperfection, how is it still possible that Microsoft is taking the monopole of web browser since such a long time ?

mercredi 22 avril 2009

Diapositives de conférences

J'ai été il y a quelques semaines invité pour donner une conférence à l'école de commerce Advancia à Paris. La conférence ayant été malheureusement annulée au dernier moment je ne vois pas de raison de ne pas vous faire profiter du travail que j'avais préparé, en espérant que cela vous plaise:


samedi 28 mars 2009

L'imprimante jet d'encre Lego de Larry Page

Je ne sais pas si cet article interessera quelqu'un mais on lit souvent dans les articles sur Larry Page l'un des fondateurs de Google qu'il a mis au point lors de ses études une imprimante à jet d'encre à partir de briques de Lego.
On en entend donc beaucoup parler mais très rarement on en voit des photos.
Je me suis donc mis en quête de quelques photos car personnelement moi ça m'intéresse de savoir à quoi ressemble une telle imprimante.
La seule que j'ai pu trouver jusqu'à présent est celle ci:

et même si je pense que cette imprimante est de Larry Page je n'en suis pas sûr à 100% car la source de l'image n'était pas très bien indiqué.
Je n'ai en revanche pas encore trouvé de guide d'utilisation ni de mode d'emploi pour la construction.

mardi 24 mars 2009

Les parts de marché de Google dans le monde

Zorgloob vient de publier un article très intéressant sur les parts de marché de Google dans le monde.
Je tiens à saluer leur travail que je trouve très complet et intéressant.
C'est marrant car je m'étais lancé exactement dans la même tache il y a quelques mois de cela et n'avait pas publié mes résultats car je me disais qu'il valait mieux vous présenter les marchés les plus intéressants et individuellement plutôt qu'un topo général de la situation.
C'est dommage en tout cas car il semblerait que j'avais exactement la même idée et que pour une fois j'étais très en avance (à la seule différence qu'ils en ont trouvé 3 de plus).
En tout cas voici le tableau que vous obtiendrez à l'adresse suivante:

PaysPdMDateInstitut
Allemagne93,0%mars 2008
Argentine89,0%janv. 2008comScore
Australie87,8%juin 2008Hitwise
Autriche88,0%janv. 2008comScore
Belgique95,0%mars 2009comScore
Brésil89,0%janv. 2008comScore
Bulgarie80,0%déc. 2007Multilingual search
Canada78,0%janv. 2008comScore
Chili93,0%janv. 2008comScore
Chine26,6%oct. 2008iResearch
Colombie91,0%janv. 2008comScore
Corée du Sud3,0%janv. 2009
Danemark92,0%janv. 2008comScore
Espagne93,0%janv. 2008comScore
Estonie53,4%juil. 2008Gemius SA
États-Unis63,3%sept. 2009comScore
États-Unis72,1%sept. 2009Hitwise
Finlande92,0%janv. 2008comScore
France91,2%févr. 2009AT Internet Institute
Hong Kong26,0%janv. 2008comScore
Hongrie96,0%août 2008
Inde81,4%août 2008comScore
Irlande76,0%janv. 2008comScore
Islande51,0%déc. 2007
Israël80,0%janv. 2007
Italie90,0%févr. 2009
Japon38,2%janv. 2009Nielsen/NetRatings
Lettonie98,0%juil. 2008Gemius SA
Lituanie98,2%sept. 2008Gemius SA
Malaisie51,0%janv. 2008comScore
Mexique88,0%janv. 2008comScore
Norvège81,0%janv. 2008comScore
Nouvelle-Zélande72,0%janv. 2008comScore
Pays-Bas95,0%déc. 2008
Pologne89,3%sept. 2007Gemius SA
Porto Rico57,0%janv. 2008comScore
Portugal94,0%janv. 2008comScore
République Tchèque34,5%mars 2009
Roumanie95,2%mars 2009statcounter.com
Royaume-Uni90,4%déc. 2008Hitwise
Russie32,0%janv. 2008Spylog
Singapour57,0%janv. 2008comScore
Slovaquie75,6%déc. 2007
Suède80,0%janv. 2008comScore
Suisse93,0%janv. 2008comScore
Taiwan18,0%janv. 2008comScore
Ukraine72,4%févr. 2009Bigmir-Internet
Vénézuela93,0%janv. 2008comScore
J'aimerais attirer votre attention sur les sources ainsi que les dates des mises à jour qui sont pour moi très très intéressantes.
Je n'ai pas vraiment de surprise en ce qui concerne les résultats qui y sont affichés qui montrent clairement ce que je met en avant depuis le début des mes recherches.
Nous avons dans le monde un bloc Americo-Européen et le reste du monde.
Quand je dis le reste du monde c'est l'Asie qui elle même est divisée en plein de petits mondes.
Alors attention car on prend souvent l'Asie pour un continent, au niveau géographique peut être mais en ce qui concerne ce que j'appelerai le E-world on se retrouve avec des micros continents de part et d'autres. C'est à croire que des pays comme la Corée du Sud vivent en véritable autarcie au niveau des moteurs de recherches.

Revenons au tableau en lui même, comme vous pouvez le voir les pays en rouge ou très proche du rouge (<50%)>
Taiwan, Singapour, la Malaisie, le Japon, Honk Kong, l'Islande, la Corée du Sud, la Chine et la Russie.

Pour ceux qui suivent l'histoire de mon blog ce n'est pas la surprise du siècle de retrouver ces pays n'ayant pas encore adopter la norme Google.

Pour information voici ce que j'ai appris lors de mon dernier cours de Knowledge Management: "un produit ou service devient un standard quand il acquiert plus de 50% de parts de marché."

En résumé à chaque fois que Google franchit la barre des 50% c'est un pays de gagné et la tendence ne peut s'inverser.

Je disais donc que ce n'est pas un hasard de retrouver les groupes suivants:
- Taiwan, Singapour, la Malaisie, le Japon, Honk Kong que j'appelerai pour simplifier les dragons et les tigres, il s'agit pour moi d'un groupe ayant des influences anglo-saxonnes (Yahoo leader du marché des moteurs de recherches dans cette zone) sur leur façon de surfer mais qui ont une culture qui leur est propre que je qualifierai d'asiatique c'est à dire qu'un site Internet doit être esthétique avant tout;

- L'Islande qui est un pays que je trouve impressionnant. Une faible population et une langue que même Google ne traduit pas encore mais 7 personnes sur 10 ont Internet. Ici je dirai que Google a un mal terrible à entrer dans ce marché à cause de la langue;

- La Coréee du Sud qui est le pays le plus fermé aux moteurs de recherches étrangers;

- La Chine dont j'ai déjà parlé précedemment;

- La Russie dont j'ai aussi parlé précedemment;

La Malaisie et Taiwan sont deux marchés que j'aurais grand plaisir à étudier quand j'aurais un peu plus de temps.

dimanche 1 février 2009

Rapport intermédiaire de thèse

Salut à tous,

Comme promis je vous publie mon rapport intermédiaire de thèse.
Pour le télécharger cliquez sur le lien suivant (mais il vous faudra un compte gratuit sur slideshares):
Lien pour la thèse
Le rapport final est prévu pour juin.
Bonne lecture.

Risks of search engine dependency and its influence on data quality

Thesis intermediate report submitted for the European Master in Business Studies
(EMBS)
by Ronan CHARDONNEAU
Institut de Management de l'Université de Savoie d'Annecy (FR)
Università degli studi di Trento (IT)
Universität Kassel (GER)
Universidad de León (SP)
Date of submission: 26th January, 2009
Master Thesis

Contents

Foreword.......................................................................................................................6
Chapter 1: Introduction of the topic background..........................................................8
1.1 Relevance of the subject...................................................................................10
1.2 Major terms......................................................................................................11
1.3 Focus, goals and structure of the report...........................................................11
Chapter 2: Concept of data quality.............................................................................13
2.1 Data quality definition......................................................................................14
2.2 The importance of data quality.........................................................................15
Chapter 3: Search engines dependency.......................................................................16
3.1 Search engine market configuration.................................................................17
3.1.1 Search engine categories..........................................................................17
3.1.2 Search engine market...............................................................................19
3.1.3 The search engines in the world...............................................................19
3.1.4 The search engine market shares per country...........................................22
3.1.5 The search engines competition...............................................................23
3.1.6 The semantic web.....................................................................................24
3.2 Search engines dependency aspect...................................................................25
3.2.1 Search engines dependency proves..........................................................25
3.2.2 Search engines dependency aspect...........................................................27
3.3 Search engines dependency problems..............................................................28
3.3.1 Privacy issues...........................................................................................29
3.3.2 Looking for other search engines.............................................................30
3.3.3 Search engine awareness..........................................................................30
3.3.4 Other search engines existence awareness...............................................32
3.3.5 Less confident regarding other search engines.........................................33
3.3.5 Less confident regarding other search engines.........................................33
3.3.6 Even the best cannot provide you everything...........................................34
Chapter 4: Risks of search engines dependency and its influence on data quality.....35
4.1 The information has been found but is poor....................................................36
4.2 What the search engines do not tell you...........................................................36
4.3 The best way to get data quality.......................................................................37
4.3.1 The sub-search engines.............................................................................37
4.3.2 The size of the Internet.............................................................................38
4.3.3 Single search engine Internet coverage....................................................39
4.3.4 Multiple search engine Internet coverage.................................................42
4.3.5 Others search engine Internet coverage....................................................44
4.3.6 A concrete representation of the World Wide Web...................................46
4.4 The gap between search engine dependency and data quality.........................47
Chapter 5: The Google example.................................................................................50
5.1 Google..............................................................................................................51
5.2 Google's success...............................................................................................51
5.3 Google dependency state..................................................................................52
5.4 Google functions..............................................................................................52
5.5 Google added functionalities............................................................................53
5.6 Google success is his weakness.......................................................................53
5.7 Google's disappearance hypothesis..................................................................54
Conclusion..................................................................................................................55
Declaration..................................................................................................................56
List of literature...........................................................................................................57
Afterword....................................................................................................................61

Foreword

As most of the students who has a computer one of my first move when I
wake up is to switch on the computer and to spend my first twenty minutes of the day
on the Internet.
From there I have a look at the last news, I check my e-mails and eventually
exchange some few words with a couple of friends by using online chat applications.
I also check my other email account as well as my blogs and analyze the traffic I got
during the last few days, to finish this process I consult my advertisement account to
see if I got some revenues. I often use as well search engine to look for information
which just came up into my mind during the night.
In the paragraph you just read was the description of my morning routine on
Internet. There is nothing special except that most of the moves I described above are
in fact done on two to three major search engines: Google, Yahoo and Microsoft.
I hardly ever use Yahoo or Microsoft for search purpose but Google is for
sure the website I visit the most to crawl the web but... is Google the Internet?
I got the idea to write about: « Risks of search engine dependency and its
influence on data quality » not because I was using all those Google applications
everyday and was scared about what will happen if I get in troubles with Google
such as privacy issues or if Google just closed. I just write about it because one day I
found Google results not accurate enough.
And from this observation a lot of questions came to my mind:
· Is it me who is not good enough at performing research on the Internet?
· Is it because no one wrote about the information I am looking for?
· Is it because the information is not on the first pages in Google that I have to
browse all the pages in order to find it?
· Is it because Google is not good enough?
· Is it because the information is hidden in some other documents such as PDF,
pictures, videos?
· Is it because I have to use another way to crawl the web and if yes how?
You see here how a simple observation can raise a lot of questions.
I hesitated a lot about writing on this topic, the main problem I got was that I
was not convinced that there is a potential risk of being search engine dependent. The
reason is that companies such as Google are working hard in order to fit Internet
users expectations and the vision we get is that they are doing a wonderful work. The
problem is that there could be a difference between perception and real facts and this
is exactly what I am eager to discover here.
Can we measure how huge is the gap between the information we were
looking for and the one of search engines as Google are providing us?
Search engines are set up to find information on the Internet, information
being the basis of any good decisions making we can then understand how important
and interesting it is to write on this topic.
I hope you will appreciate this reading as much as I did when making my
research.

Chapter 1: Introduction of the topic background

I will not surprise you if I say that Internet has been created to share
information and to communicate with each others.
It is hard to evaluate how big is the Internet, estimations among companies
are very different, it varies from 15 to some 30 billion Web pages1. The number of
websites is increasing everyday and estimated at 185,167,8972 with a constant
augmentation since the creation of the world wide web.


Illustration 1: Total Sites Across All Domains August 1995 - January 2009

Habits have changed since the creation of the Internet and websites are used now in
diverse manners if it comes to be a standard for companies (recognized as a mark of
trust, seriousness and quality) it is also a space for many individuals (blog
phenomenon). As an example regarding France, in June 2008 14% of French people
above 12 year-old which means 22% of French Internet users are authors of a blog or
a website3.
The banalization of the Internet and the fact that anyone can create his own
website for free increase the feeling we have regarding the Internet: a true jungle of
information and even sometimes real “dump” regarding information accuracy.
Websites can be accessible through three channels:
· Direct access (for example you know the website address by heart, you put it
in your favorites or you find a website on a business card and you are typing
it in the address bar);
· External links (you access to a website which has the link of another
website, this is the case in most of websites, catalogs, advertisement);
· Through Search Engines (you use a dedicated application by typing in some
keywords in order to get suggestions of what you are looking for);
As you can see from this list if you use only the first two ways to crawl the
web it comes to be too rigid and not wide enough. It has been said as well that the
first way is disappearing more and more in profit of search engines4.
So one could say that there is currently two main ways to crawl the web, from
link to link and by using search engine.
This last one being indispensable in order to crawl the web properly.
More and more information are put on the Internet which makes it
come a true jungle. The only way to crawl those information properly
is to use search engines.