
<opml version="2.0">
<body>
<outline post_id="2163" post_title="Contact" post_pubdate="1210845000" post_pudate="1210845115" categories="contact/," tags="" post_source="&lt;p&gt;&lt;b&gt;Email : &lt;a href=&quot;mailto:madspam@madspam.org?subject=[MADSPAM]&quot;&gt;madspam@madspam.org&lt;/a&gt;&lt;/b&gt;&lt;/p&gt; &lt;p&gt;&lt;b&gt;Coordinateur du projet :&lt;/b&gt; Tanguy Urvoy&lt;/p&gt; &lt;p&gt;FT R&amp;amp;D - Orange Labs&lt;br /&gt;&lt;/p&gt; &lt;p&gt;2, avenue Pierre Marzin&lt;br /&gt; 22307 Lannion Cedex&lt;/p&gt; &lt;p&gt;Tél&amp;nbsp;: 02 96 05 11 11&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt;" post_text_more="" />
<outline post_id="2126" post_title="Comment" post_pubdate="1210687800" post_pudate="1210687420" categories="madspam/," tags="" post_source="&lt;p&gt;&lt;b&gt;Verrous technologiques&lt;/b&gt;&lt;/p&gt; &lt;p&gt;Le projet nécessite de résoudre une série de verrous scientifiques et technologiques essentiellement liés à la nouveauté des problèmes abordés, à la volumétrie des données, à la rapidité de réaction nécessaires pour répondre aux nouvelles formes de spam et aux nouveaux outils des spammeurs, et à la multiplicité des formes de spam sur les différents média du web.&lt;/p&gt; &lt;p&gt;&lt;b&gt;Verrous scientifiques&lt;/b&gt;&lt;/p&gt; &lt;ul&gt; &lt;li&gt;Extraction de caractéristiques&amp;nbsp;: Quels sont les éléments caractéristiques qui permettent la détection du Spam&amp;nbsp;? Cela inclut aussi bien l’extraction de caractéristiques de contenu que l’extraction de caractéristiques de structure. Tout est ouvert aujourd’hui et les caractéristiques utiles ne sont pas les mêmes sur les différents média.&lt;/li&gt; &lt;li&gt;Agrégation de caractéristiques&amp;nbsp;: Etudier comment agréger les caractéristiques locales pour dégager des caractéristiques plus discriminantes du Spam. Par exemple, comment agréger les caractéristiques de pages Web pour classifier un site Web comme Spam ou non Spam&lt;/li&gt; &lt;li&gt;Propagation de caractéristiques&amp;nbsp;: Etudier comment utiliser la structure de graphe, non pas uniquement pour calculer des caractéristiques structurelles, mais aussi pour guider le processus d’étiquetage (spam ou non spam) dans le graphe du Web.&lt;/li&gt; &lt;li&gt;Scalabilité/Volumétrie&amp;nbsp;: Le système proposé doit être capable de traiter une grande masse de données rapidement. Le compromis performance/complexité doit donc être étudié sérieusement au niveau algorithmique.&lt;/li&gt; &lt;li&gt;Apprentissage avec des variables interdépendantes, par exemple les nœuds du graphe du Web&amp;nbsp;: les méthodes d’apprentissage automatiques doivent prendre en compte les relations entre documents. De plus les méthodes doivent pouvoir envisager conjointement des dépendances à court terme et des dépendances à long terme.&lt;/li&gt; &lt;li&gt;Apprentissage avec peu d’exemples&amp;nbsp;: dans un moteur grande échelle, ou dans un site de blog, il est nécessaire d’apprendre à détecter le spam tout en réduisant la quantité de spam à étiqueter manuellement.&lt;/li&gt; &lt;li&gt;Détection de plagiat à grain fin&amp;nbsp;: les faux contenus générés par les spammeurs sont bien souvent construits en mélangeant des morceaux de texte récupérés sur d'autres sites web ou à partir de flux RSS&amp;nbsp;: la détection à grand échelle de cette forme de plagiat est un problème difficile.&lt;/li&gt; &lt;li&gt;Dynamique du spam&amp;nbsp;: quelles sont les stratégies des spammeurs pour infecter un réseau social&amp;nbsp;? Quels sont les points d’entrée dans les réseaux&amp;nbsp;: sont-ils les individus (ou les communautés) les plus influents&amp;nbsp;? Ou bien le spam inonde-t-il massivement le réseau&amp;nbsp;? Quelles sont les caractéristiques de la diffusion, en termes de profondeur et de vitesse par exemple&amp;nbsp;?&lt;/li&gt; &lt;/ul&gt; &lt;p&gt;&lt;b&gt;Verrous technologiques&lt;/b&gt;&lt;/p&gt; &lt;ul&gt; &lt;li&gt;Volumétrie&amp;nbsp;: les volumes de données traitées qui peuvent représenter des terra-octets de données conservées sur les serveurs mais également un flux journalier extrêmement important nécessite d’adapter les infrastructures et les solutions logicielles développées (par exemple sur des systèmes répartis).&lt;/li&gt; &lt;li&gt;Aspect algorithmique&amp;nbsp;: il constitue au-delà même de la conception d’algorithmes bien adaptés un enjeu essentiel en ce qui concerne la mise en œuvre sur les infrastructures matérielles.&lt;/li&gt; &lt;li&gt;Consensus entre rappel et la précision&amp;nbsp;: La classification de Spam n’est pas dénuée d’erreurs et le système proposé doit pouvoir éviter d’être trop strict pour éviter de perdre trop de documents non spam, et éviter aussi d’être trop «&amp;nbsp;laxiste&amp;nbsp;» car il laisserait passer trop d’informations truquées. Le scénario idéal est de fournir un système paramétrable qui permette d’adapter la frontière entre spam et non spam&lt;/li&gt; &lt;li&gt;La fiabilité&amp;nbsp;: assurer la fiabilité et l’adaptation des méthodes développées pour faire face à l’évolution permanente des formes de spam est un enjeu technologique de premier plan pour maintenir la qualité des solutions développées et de l’offre des différents partenaires.&lt;/li&gt; &lt;/ul&gt; &lt;p&gt;&lt;b&gt;Verrous éthiques&lt;/b&gt;&lt;/p&gt; &lt;ul&gt; &lt;li&gt;Comment différencier une action commerciale ou un effet de rumeur d’une action malveillante ou de spam. Le spam utilise-t-il les mêmes stratégies que le marketing&amp;nbsp;?&lt;/li&gt; &lt;/ul&gt;" post_text_more="" />
<outline post_id="2122" post_title="Accueil" post_pubdate="1210687200" post_pudate="1210687268" categories="accueil/," tags="" post_source="&lt;p&gt;&lt;b&gt;Titre complet du projet&lt;/b&gt;&amp;nbsp;: &lt;b&gt;Méthodes Automatiques pour la Détection de SPAMdexing sur les Grands Réseaux d’Information&lt;/b&gt;&lt;/p&gt; &lt;p&gt;&lt;b&gt;Type de projet&lt;/b&gt;&amp;nbsp;: Pré-concurrentiel RNTL&lt;br /&gt;&lt;/p&gt; &lt;p&gt;&lt;b&gt;Porteur du projet&lt;/b&gt;&amp;nbsp;: France Telecom R&amp;amp;D&lt;br /&gt;&lt;/p&gt; &lt;p&gt;&lt;b&gt;Partenaires&lt;/b&gt;&amp;nbsp;: &lt;a href=&quot;http://www.agence-nationale-recherche.fr&quot;&gt;ANR&lt;/a&gt;, &lt;a href=&quot;http://www.orange.fr/&quot; class=&quot;external text&quot; title=&quot;http://www.orange.fr&quot; rel=&quot;nofollow&quot;&gt;Orange (FTR&amp;amp;D et Portail Orange)&lt;/a&gt;, &lt;a href=&quot;http://corporate.blogspirit.com/&quot; class=&quot;external text&quot; title=&quot;http://corporate.blogspirit.com&quot; rel=&quot;nofollow&quot;&gt;blogSpirit&lt;/a&gt;, &lt;a href=&quot;http://kartoo.net/&quot; class=&quot;external text&quot; title=&quot;http://kartoo.net&quot; rel=&quot;nofollow&quot;&gt;KartOO&lt;/a&gt;, &lt;a href=&quot;http://www.lip6.fr/&quot; class=&quot;external text&quot; title=&quot;http://www.lip6.fr&quot; rel=&quot;nofollow&quot;&gt;Laboratoire d’informatique de Paris 6&lt;/a&gt;&lt;/p&gt; &lt;p&gt;&lt;b&gt;Fin du projet&lt;/b&gt;&amp;nbsp;: Novembre 2010&lt;br /&gt;&lt;/p&gt; &lt;p&gt;&lt;b&gt;Mots clés&lt;/b&gt;&amp;nbsp;:&lt;/p&gt; &lt;p&gt;&lt;i&gt;Axe 2&lt;/i&gt;&amp;nbsp;: Nouvelles applications collectives et coopératives; Architectures Web et Web sémantique; architectures de médiation; portails d’information; P2P; moteurs de recherche intelligents; architectures coopératives; gestion de la connaissance; classification de ressources.&lt;/p&gt; &lt;p&gt;&lt;i&gt;Axe 3&lt;/i&gt;&amp;nbsp;: Systèmes collaboratifs; Visualisation interactive de données; visualisation de données hautement multidimensionnelles; visualisation de grands graphes.&lt;/p&gt; &lt;p&gt;&lt;b&gt;Autres mots clés&lt;/b&gt;&lt;/p&gt; &lt;ul&gt; &lt;li&gt;Web 2.0;&lt;/li&gt; &lt;li&gt;Détection d’intrusion;&lt;/li&gt; &lt;li&gt;Spam sur le Web et les outils participatifs (blogs, forums, Wiki);&lt;/li&gt; &lt;li&gt;Réseaux sociaux, diffusion d’information dans les réseaux sociaux.;&lt;/li&gt; &lt;li&gt;Classification automatique.&lt;/li&gt; &lt;/ul&gt; &lt;br /&gt; &lt;div style=&quot;text-align: center&quot;&gt;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/thumb_ANR07-240.gif&quot; alt=&quot;medium_ANR07-240.gif&quot; style=&quot;border-width: 0pt; margin: 0.7em 0pt&quot; /&gt;&lt;/div&gt;" post_text_more="" />
<outline post_id="2125" post_title="Madspam" post_pubdate="1210687200" post_pudate="1210687362" categories="madspam/," tags="" post_source="&lt;p&gt;Le projet vise à développer une bibliothèque d’outils génériques permettant de s’adapter aux différentes sources et manifestations du spam, non seulement dans les deux applications cibles du projet (moteurs de recherche, blogs et forums) mais aussi dans les applications proches comme les wiki et des domaines émergents comme les réseaux sociaux. Pour ces différentes applications, l’interactivité et l’adaptabilité seront privilégiés. D’autre part le projet permettra à travers des campagnes de test à large échelle de mieux caractériser et analyser ces phénomènes de spamdexing qui parce qu’ils sont plus récents que le spam sur les courriers électroniques n’ont pas fait l’objet d’études systématiques ni de tentatives de législation.&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/medium_400px-BWgraph40.png&quot; alt=&quot;medium_400px-BWgraph40.png&quot; style=&quot;border-width: 0pt; margin: 0.7em 0pt&quot; height=&quot;301&quot; width=&quot;332&quot; /&gt;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/medium_400px-BHSSgraph40.png&quot; alt=&quot;medium_400px-BHSSgraph40.png&quot; style=&quot;border-width: 0pt; margin: 0.7em 0pt&quot; height=&quot;334&quot; width=&quot;329&quot; /&gt;&lt;/p&gt; Il s’appuie sur des acteurs du Web (France télécom - Orange pour les moteurs de recherche), BlogSpirit pour les blogs, KartOO pour les applications d’extraction d’information et pour la visualisation de grands graphes permettant la construction d’outils interactifs de navigation. Ces outils seront déployés en situation réelle par les partenaires du projet et intégrés dans les outils et services qu'ils proposent. Le portail Orange déploiera les solutions développées dans son moteur de recherche grand public et dans les solutions de services proposées à ses clients, principalement des grands comptes. Orange est également hébergeur de sites et de portails et pourra proposer à ses clients l’offre anti spamdexing issue du projet. BlogSpirit intégrera les technologies antispam dans ses progiciels. Compte tenu de l’ampleur du phénomène spam sur les blogs, cette offre est un enjeu de tout premier ordre pour les développeurs de plateforme comme BlogSpirit. Kartoo développera des outils de visualisation de grands graphes. Ces outils serviront initialement dans le projet pour visualiser des grands réseaux et analyser les phénomènes de spams comme par exemple les relations entre objets spammés. Ils serviront également d’interfaces de navigation pour l’analyse de la propagation d’information et le suivi de spam. Ils seront déployés pour compléter l’offre de Kartoo par des outils d’analyse du spamdexing. &lt;p&gt;Le modèle économique visé est d’une part un modèle traditionnel avec l’intégration des outils développés dans le projet dans les plateformes et progiciels des partenaires dans le but de leur assurer une avance technologique sur la concurrence. Il sera d’autre part un modèle «&amp;nbsp;Web-publicitaire&amp;nbsp;» dans le cas de la partie grand public du moteur Orange.&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;div style=&quot;text-align: center&quot;&gt; &lt;div style=&quot;text-align: center&quot;&gt;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/small_rezo.png&quot; alt=&quot;medium_rezo.2.png&quot; style=&quot;border-width: 0pt; margin: 0.7em 0pt&quot; align=&quot;left&quot; height=&quot;354&quot; width=&quot;666&quot; /&gt;&lt;/div&gt; &lt;/div&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;Les outils produits intégreront des algorithmes développés par les partenaires recherche du projet (FTR&amp;amp;D et LIP6). Deux grandes familles d’outils seront déployées. Tout d’abord l’analyse par des méthodes combinatoire et des techniques de diffusion dans les grands graphes. Ces méthodes analysent la topologie des connexions dans les grands réseaux afin de propager l’information, de catégoriser les nœuds des graphes et d’identifier des communautés. La seconde famille de techniques s’appuie sur des méthodes d’apprentissage statistique pour effectuer des tâches de classification ou d’ordonnancement. Les méthodes déployées sont capables de prendre en compte à la fois des informations de contenu dans les nœuds et la topologie des connexions.&lt;/p&gt; &lt;p&gt;Concernant l’échéancier, nous prévoyons une première mise en œuvre d’une bibliothèque de base, correspondant à l’état de l’art, de ces outils automatique à court terme (12 à 18 mois). Cette échéance est motivée par la rapidité d’évolution du marché et par les besoins actuels des acteurs industriels. Une seconde phase conduira à la mise en œuvre d’outils plus génériques et plus performants à échéance de 30 mois. Ces outils doteront les partenaires d’une véritable bibliothèque antispam, permettant de couvrir une très large gamme d’attaques.&lt;/p&gt; &lt;p&gt;Au-delà de l’utilisation directe par les partenaires, le projet prévoit une phase de valorisation auprès d’autres partenaires qui doit permettre de démontrer l’efficacité des approches proposées sur une gamme très complète de problèmes.&lt;/p&gt; &lt;div style=&quot;text-align: left&quot;&gt;&lt;br /&gt; &lt;div style=&quot;text-align: left&quot;&gt;&lt;br /&gt;&lt;/div&gt; &lt;/div&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt;" post_text_more="" />
<outline post_id="2127" post_title="Pourquoi" post_pubdate="1210687200" post_pudate="1210687441" categories="madspam/," tags="" post_source="&lt;p&gt;Les motivations des spammeurs du web sont principalement de deux ordres&amp;nbsp;:&lt;br /&gt; - la création de fausses pages ou faux blogs qui attirent les internautes et offrent des séries de publicités ou d’accès vers différents sites.&lt;br /&gt; - L’accroissement du score dans les moteurs de recherche Web, blog ou autres, des sites affiliés.&lt;/p&gt; &lt;p&gt;Tout site qui offre des services ou des produits en ligne va être affecté par les différentes formes de spam. L’enjeu du référencement et de la non pollution du contenu est très clair pour les sites eux même. En ce qui concerne le marché publicitaire des moteurs de recherche, l'enjeu est de conserver la qualité du service et donc l'audience. Pour les blogs, la quantité de spam blogs actuels (ce qu’on appelle les splogs) les rend tout inutilisables si la plateforme qui les héberge ne fait pas un filtrage très efficace (pour un blog créé, il y a actuellement 3 splogs). Le client et l’hébergeur sont tous deux affectés.&lt;/p&gt; &lt;p&gt;Au niveau de la «&amp;nbsp;web-économie&amp;nbsp;», les enjeux concernent les ventes en ligne pour les sites clients et les services pour les sites hébergeurs et les moteurs de recherche (Orange). Au niveau des sociétés plutôt basées sur un modèle B2B (comme BlogSpirit ou KartOO), les enjeux concernent la crédibilité des outils qu’ils proposent qui impacte directement sur leur marché.&lt;/p&gt; &lt;br /&gt;" post_text_more="" />
<outline post_id="2123" post_title="Introduction" post_pubdate="1210686900" post_pudate="1210687329" categories="madspam/," tags="" post_source="&lt;p&gt;La pollution par le spam des contenus sur les environnements ouverts comme le Web, les forums, les blogs, et tous les sites collaboratifs ouverts du Web, se déploie à très grande vitesse et attaque aujourd’hui tous les média du Web. Le succès du Web est directement lié à son ouverture, la contrepartie en est que toute source d’information ouverte peut être manipulée de façon malicieuse pour être détournée de son but initial. Le phénomène est déjà extrêmement important pour tous les acteurs de l’Internet et constitue une menace de premier ordre pour cette économie.&lt;/p&gt; &lt;p&gt;&amp;nbsp;&lt;/p&gt; &lt;p&gt;Le spam dans le cas du Web est aujourd’hui connu sous le nom de spamdexing. Dans le milieu des années 90, il a largement participé au déclin de nombreux moteurs de recherche alors que Google montait en puissance grâce à des algorithmes de référencement plus robustes au spamdexing. Google a rapidement été rattrapé par le phénomène. Tous les acteurs du Web2.0 sont directement menacés par la généralisation et la croissance des différents phénomènes de spam/spamdexing. La pollution du Web est devenue tellement importante que tous les moteurs de recherche commerciaux doivent aujourd’hui consacrer une partie importante de leurs ressources à la lutte antispam.&lt;/p&gt; &lt;p&gt;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/medium_300px-OrangeLR.png&quot; alt=&quot;medium_300px-OrangeLR.png&quot; style=&quot;border-width: 0pt; margin: 0.2em 1.4em 0.7em 0pt&quot; /&gt;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/medium_300px-Spam-example.png&quot; alt=&quot;medium_300px-Spam-example.png&quot; style=&quot;border-width: 0pt; margin: 0.2em 1.4em 0.7em 0pt&quot; /&gt;&lt;br /&gt; &lt;br /&gt; &lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/medium_300px-Poulet.png&quot; alt=&quot;medium_300px-Poulet.png&quot; style=&quot;border-width: 0pt; margin: 0.2em 1.4em 0.7em 0pt&quot; /&gt;&lt;br /&gt; &lt;br /&gt; Bien au-delà des sites Web, le spam attaque aujourd’hui toutes les sources d’information ouvertes comme les blogs, les wiki, les forums, les sites collaboratifs, les réseaux sociaux et plus généralement tous les réseaux d’interaction basés sur le partage ou l’échange de contenu. Les enjeux économiques et sociaux sont devenus extrêmement importants pour les différents acteurs du Web et pour les utilisateurs: les moteurs de recherche, les blogs et tous les sites pollués meurent très rapidement.&lt;/p&gt; &lt;p&gt;&lt;img src=&quot;http://madspam.blog.blogspirit-business.com/images/medium_500px-Wikispam.png&quot; alt=&quot;medium_500px-Wikispam.png&quot; style=&quot;border-width: 0pt; margin: 0.2em 1.4em 0.7em 0pt&quot; /&gt;&lt;br /&gt; &lt;br /&gt; Alors que le spam sur les e-mails (90% du trafic des e-mails) a fait l’objet de nombreuses mesures aussi bien techniques que légales, très peu a été fait pour toutes les formes de spamdexing adressées dans ce projet. Il n’y a pas aujourd’hui de parade pour ces formes récentes de spam et les entreprises qui commercialisent des environnements de développement pour les blogs, wiki, etc ainsi que les utilisateurs sont à la merci des spammeurs. Le phénomène de spam est très diversifié. Une caractéristique essentielle est qu’il s’adapte rapidement à toutes les parades et qu’il s’agit d’une bataille permanente entre spammeurs et acteurs du web. Il faut que les parades soient suffisamment génériques pour s’adapter elles même en permanence aux nouvelles sources de spam et pour pouvoir être déployées rapidement par les différents acteurs du Web. C’est l’objet du projet de développer des outils permettant de contrer le spamdexing sous ses différentes formes et de les déployer à grande échelle en situation réelle.&lt;/p&gt; &lt;br /&gt;" post_text_more="" />
</body>
</opml>
