La détection de la fraude avec Hadoop

Le volume des transactions rend plus difficile de déceler la fraude en raison du volume des données, ironiquement, ce même défi peut aider à créer des modèles prédictifs mieux de fraude - un domaine où brille Hadoop.

Dans le monde interconnecté d'aujourd'hui, le volume et la complexité des opérations, il est plus difficile que jamais de trouver la fraude. Qu'est-ce que l'on appelait autrefois “ trouver une aiguille dans une botte de foin ” est devenue la tâche de “ trouver une aiguille spécifique dans des piles de aiguilles n ° 148.

Les approches traditionnelles de prévention de la fraude ne sont pas particulièrement efficace. Par exemple, la gestion des paiements irréguliers est souvent gérée par les analystes qui vérifient ce qui équivaut à un très petit échantillon des revendications jumelé avec demande de documentation médicale de soumissionnaires ciblées. Le terme de l'industrie pour ce modèle est payante et Chase: Les revendications sont acceptées et payées et de processus cherchent des trop-payés, intentionnels ou non par voie de contrôle post-paiement de ces revendications.

Alors, comment est la détection des fraudes fait maintenant? En raison des limites des technologies traditionnelles, les modèles de fraude sont construites par échantillonnage des données et l'utilisation de l'échantillon de construire un ensemble de modèles de prévision fraude et de détection. Lorsque vous opposez ce modèle avec un département Hadoop ancrée fraude qui utilise le jeu de données complet - aucun échantillonnage - pour construire les modèles, vous pouvez voir la différence.

Le thème récurrent le plus commun que vous voyez dans la plupart des cas d'utilisation Hadoop est qu'il aide les entreprises à percer le plafond de verre sur le volume et la variété des données qui peuvent être incorporés dans l'analyse de décision. Le plus de données que vous avez (et plus l'histoire que vous stockez), meilleures sont vos modèles peuvent être.

Mélange formes non traditionnelles de données avec votre ensemble de transactions historiques peut rendre vos modèles de fraude encore plus robuste. Par exemple, si un travailleur fait la demande d'indemnisation d'un travailleur pour un dos d'un incident de glissement et de chute mauvais, avoir une piscine de millions de cas de résultats pour les patients que le traitement de détails et la durée de la récupération contribue à créer un modèle de détection de fraude.

Comme un exemple de la façon dont ce modèle peut fonctionner, imaginez essayer de savoir si les patients dans les zones rurales récupèrent plus lentement que ceux des zones urbaines. Vous pouvez commencer par l'examen de la proximité des services de physiothérapie. Y at-il une corrélation de modèle entre les temps de récupération et la situation géographique?




Si votre service des fraudes détermine qu'un certain blessures prend trois semaines de récupération, mais qu'un agriculteur avec le même diagnostic vit à une heure de physiothérapeute et le travailleur de bureau a un praticien dans son bureau, qui est une autre variable à ajouter à la configuration de détection des fraudes .

Lorsque vous récoltez des données de réseau social pour les demandeurs et de trouver un patient qui prétend subir un coup de fouet cervical est vanter complétant la série robuste des épreuves d'endurance appelés Mudder difficiles, il est un exemple de mélange de nouveaux types de données avec les formes traditionnelles de données pour repérer la fraude .

Si vous souhaitez vous détendre vos efforts de détection des fraudes à la vitesse supérieure, votre organisation peut travailler à se déplacer loin de la modélisation de segment de marché et de progresser vers la modélisation au-opération ou à personne niveau.

Tout simplement, faire une prévision basée sur un segment est utile, mais de prendre une décision sur la base notamment des informations sur une transaction individuelle est (évidemment) mieux. Pour ce faire, vous travaillez en place un ensemble plus large de données que ce qui est classiquement possible dans l'approche traditionnelle. Seul (un maximum de) 30 pour cent de l'information disponible qui peut être utile pour la modélisation de la fraude est utilisé.

Pour la création de modèles de détection des fraudes, Hadoop est bien adapté à

  • Poignée volume: Cela signifie que le traitement de l'ensemble de données complet - aucun échantillonnage de données.

  • Gérer de nouvelles variétés de données: Les exemples sont l'inclusion de la proximité-à-soins-services et les cercles sociaux pour décorer le modèle de la fraude.

  • Maintenir un environnement agile: Activer différents types d'analyse et les modifications aux modèles existants.

Modeleurs de fraude peuvent ajouter et tester de nouvelles variables pour le modèle sans avoir à faire une proposition à votre équipe de l'administrateur de base de données, puis attendre quelques semaines pour approuver un changement de schéma et le placer dans leur environnement.

Ce processus est essentiel à la détection de la fraude en raison des environnements dynamiques ont généralement des modèles de fraude cycliques qui vont et viennent en heures, jours ou semaines. Si les données utilisées pour identifier ou renforcer de nouveaux modèles de détection des fraudes ne sont pas disponibles à la notification d'un moment, le temps que vous découvrez ces nouveaux modèles, il pourrait être trop tard pour prévenir les dommages.

Évaluer les avantages pour votre entreprise non seulement de construire des modèles plus complets avec plusieurs types de données, mais aussi être en mesure d'actualiser et d'améliorer ces modèles plus rapidement que jamais. La société qui peuvent se rafraîchir et améliorer les modèles quotidienne sortent mieux que ceux qui le font trimestriellement.

Vous pouvez croire que ce problème a une réponse simple - il suffit de demander votre CIO pour les dépenses opérationnelles (OPEX) et les dépenses en capital (CAPEX) approbations pour accueillir plus de données pour faire de meilleurs modèles et de charger l'autre 70 pour cent des données dans vos modèles de décision.

Vous pouvez même croire que cet investissement va payer pour lui-même avec une meilleure Détection de la fraude, le problème avec cette approche est les coûts élevés initiaux qui doivent être sombré dans inconnu données, où vous ne savez pas si elle contient un aperçu vraiment précieux.

Bien sûr, triplant la taille de votre entrepôt de données, par exemple, vous donnera plus accès aux données historiques structurées pour affiner vos modèles, mais ils ne peuvent pas accueillir des salves de médias sociaux. Les technologies traditionnelles ne sont pas aussi agile, soit. Hadoop, il est facile d'introduire de nouvelles variables dans le modèle, et si elles se révèlent ne pas conduire à des améliorations au modèle, vous pouvez tout simplement ignorer les données et de progresser.


» » » » La détection de la fraude avec Hadoop