La détection de la fraude avec Hadoop

Le volume des transactions rend plus difficile de déceler la fraude en raison du volume des données, ironiquement, ce même défi peut aider à créer des modèles prédictifs mieux de fraude - un domaine où brille Hadoop.

Dans le monde interconnecté d'aujourd'hui, le volume et la complexité des opérations, il est plus difficile que jamais de trouver la fraude. Qu'est-ce que l'on appelait autrefois “ trouver une aiguille dans une botte de foin ” est devenue la tâche de “ trouver une aiguille spécifique dans des piles de aiguilles n ° 148.

Les approches traditionnelles de prévention de la fraude ne sont pas particulièrement efficace. Par exemple, la gestion des paiements irréguliers est souvent gérée par les analystes qui vérifient ce qui équivaut à un très petit échantillon des revendications jumelé avec demande de documentation médicale de soumissionnaires ciblées. Le terme de l'industrie pour ce modèle est payante et Chase: Les revendications sont acceptées et payées et de processus cherchent des trop-payés, intentionnels ou non par voie de contrôle post-paiement de ces revendications.

Alors, comment est la détection des fraudes fait maintenant? En raison des limites des technologies traditionnelles, les modèles de fraude sont construites par échantillonnage des données et l'utilisation de l'échantillon de construire un ensemble de modèles de prévision fraude et de détection. Lorsque vous opposez ce modèle avec un département Hadoop ancrée fraude qui utilise le jeu de données complet - aucun échantillonnage - pour construire les modèles, vous pouvez voir la différence.

Le thème récurrent le plus commun que vous voyez dans la plupart des cas d'utilisation Hadoop est qu'il aide les entreprises à percer le plafond de verre sur le volume et la variété des données qui peuvent être incorporés dans l'analyse de décision. Le plus de données que vous avez (et plus l'histoire que vous stockez), meilleures sont vos modèles peuvent être.

Mélange formes non traditionnelles de données avec votre ensemble de transactions historiques peut rendre vos modèles de fraude encore plus robuste. Par exemple, si un travailleur fait la demande d'indemnisation d'un travailleur pour un dos d'un incident de glissement et de chute mauvais, avoir une piscine de millions de cas de résultats pour les patients que le traitement de détails et la durée de la récupération contribue à créer un modèle de détection de fraude.

Comme un exemple de la façon dont ce modèle peut fonctionner, imaginez essayer de savoir si les patients dans les zones rurales récupèrent plus lentement que ceux des zones urbaines. Vous pouvez commencer par l'examen de la proximité des services de physiothérapie. Y at-il une corrélation de modèle entre les temps de récupération et la situation géographique?

Si votre service des fraudes détermine qu'un certain blessures prend trois semaines de récupération, mais qu'un agriculteur avec le même diagnostic vit à une heure de physiothérapeute et le travailleur de bureau a un praticien dans son bureau, qui est une autre variable à ajouter à la configuration de détection des fraudes .

Lorsque vous récoltez des données de réseau social pour les demandeurs et de trouver un patient qui prétend subir un coup de fouet cervical est vanter complétant la série robuste des épreuves d'endurance appelés Mudder difficiles, il est un exemple de mélange de nouveaux types de données avec les formes traditionnelles de données pour repérer la fraude .

Si vous souhaitez vous détendre vos efforts de détection des fraudes à la vitesse supérieure, votre organisation peut travailler à se déplacer loin de la modélisation de segment de marché et de progresser vers la modélisation au-opération ou à personne niveau.

Tout simplement, faire une prévision basée sur un segment est utile, mais de prendre une décision sur la base notamment des informations sur une transaction individuelle est (évidemment) mieux. Pour ce faire, vous travaillez en place un ensemble plus large de données que ce qui est classiquement possible dans l'approche traditionnelle. Seul (un maximum de) 30 pour cent de l'information disponible qui peut être utile pour la modélisation de la fraude est utilisé.

Pour la création de modèles de détection des fraudes, Hadoop est bien adapté à

Poignée volume: Cela signifie que le traitement de l'ensemble de données complet - aucun échantillonnage de données.
Gérer de nouvelles variétés de données: Les exemples sont l'inclusion de la proximité-à-soins-services et les cercles sociaux pour décorer le modèle de la fraude.
Maintenir un environnement agile: Activer différents types d'analyse et les modifications aux modèles existants.

Modeleurs de fraude peuvent ajouter et tester de nouvelles variables pour le modèle sans avoir à faire une proposition à votre équipe de l'administrateur de base de données, puis attendre quelques semaines pour approuver un changement de schéma et le placer dans leur environnement.

Ce processus est essentiel à la détection de la fraude en raison des environnements dynamiques ont généralement des modèles de fraude cycliques qui vont et viennent en heures, jours ou semaines. Si les données utilisées pour identifier ou renforcer de nouveaux modèles de détection des fraudes ne sont pas disponibles à la notification d'un moment, le temps que vous découvrez ces nouveaux modèles, il pourrait être trop tard pour prévenir les dommages.

Évaluer les avantages pour votre entreprise non seulement de construire des modèles plus complets avec plusieurs types de données, mais aussi être en mesure d'actualiser et d'améliorer ces modèles plus rapidement que jamais. La société qui peuvent se rafraîchir et améliorer les modèles quotidienne sortent mieux que ceux qui le font trimestriellement.

Vous pouvez croire que ce problème a une réponse simple - il suffit de demander votre CIO pour les dépenses opérationnelles (OPEX) et les dépenses en capital (CAPEX) approbations pour accueillir plus de données pour faire de meilleurs modèles et de charger l'autre 70 pour cent des données dans vos modèles de décision.

Vous pouvez même croire que cet investissement va payer pour lui-même avec une meilleure Détection de la fraude, le problème avec cette approche est les coûts élevés initiaux qui doivent être sombré dans inconnu données, où vous ne savez pas si elle contient un aperçu vraiment précieux.

Bien sûr, triplant la taille de votre entrepôt de données, par exemple, vous donnera plus accès aux données historiques structurées pour affiner vos modèles, mais ils ne peuvent pas accueillir des salves de médias sociaux. Les technologies traditionnelles ne sont pas aussi agile, soit. Hadoop, il est facile d'introduire de nouvelles variables dans le modèle, et si elles se révèlent ne pas conduire à des améliorations au modèle, vous pouvez tout simplement ignorer les données et de progresser.

A propos Auteur

Bases de données statiques et écoutés dans analyics prédictifs

Les données dans l'analyse prédictive peuvent être identifiés comme streaming, statique, ou un mélange des deux. Données en streaming changements de les exemples incluent le flux constant de mises à jour Facebook, tweets sur Twitter, et le…

Quelle analyse de données peuvent prévenir la fraude

Un des avantages de vos grandes analyses de données peut être prévention de la fraude. En de nombreuses estimations, au moins 10 pour cent des paiements des sociétés d'assurance sont les demandes frauduleuses, et la somme globale de ces…

Comment résoudre les problèmes dans l'analyse prédictive

La modélisation prédictive est gagne en popularité comme un outil pour gérer de nombreux aspects de l'entreprise. Veiller à ce que l'analyse des données se fait à droite renforcera la confiance dans les modèles utilisés - qui, à son tour,…

Comment choisir un algorithme pour un modèle d'analyse prédictive

Divers data-mining, et de la machine-apprentissage des algorithmes statistiques, sont disponibles pour une utilisation dans votre modèle d'analyse prédictive. Vous êtes dans une meilleure position pour sélectionner un algorithme après que vous…

Comment Ensemble méthodes visant à accroître la précision analytique prévision

Comme dans le monde réel, donc avec la multiplicité des modèles d'analyse prédictive: Là où il ya l'unité, il ya la force. Plusieurs modèles peuvent être combinés de différentes manières pour faire des prédictions. Vous pouvez ensuite…

Comment garder prédictive des données d'analyse à jour

Après l'étape de chargement de Extract Transform Load, après que vous obtenez vos données dans cette base de données séparée, data mart, ou d'un entrepôt pour l'analyse, vous aurez besoin de conserver les données de sorte que les frais…

Comment utiliser l'analyse supervisées pour former des modèles prédictifs

Dans Analytics supervisées, l'entrée et la sortie préférée font partie des données de formation. Le modèle d'analyse prédictive est présenté avec les résultats corrects dans le cadre de son processus d'apprentissage. Un tel apprentissage…

Identifier les données dont vous avez besoin pour votre Big Data

Faites l'inventaire du type de données que vous traitez avec votre grand projet de données. De nombreuses organisations reconnaissent que beaucoup de données générées en interne n'a pas été utilisé à son plein potentiel dans le passé.En…

L'évolution des modèles de déploiement dans l'ère Big Data

Avec l'avènement de grands volumes de données, les modèles de déploiement pour la gestion des données sont en train de changer. L'entrepôt de données traditionnelle est généralement mis en œuvre sur un seul grand système au sein du centre…

Fraude comptable commise par une entreprise

Fraude vient sous deux formes: la fraude contre une entreprise et la fraude par un business. Le premier type de fraude peut être classé par qui le fait, et malheureusement, une entreprise est vulnérable à toutes sortes d'attaques de fraude de…

Bases d'audit: comment faire la distinction entre les erreurs et les fraudes

Lorsque vous trouvez des anomalies que vous effectuez une vérification, vous êtes chargé de faire une évaluation. Vous seul devez déterminer si l'anomalie représente une erreur ou d'une fraude. Erreurs ne sont pas délibérée. Fraude a lieu…

Comment les contrôleurs découvrent une fraude, ou non

Comptes ont du mal à découvrir la fraude pour plusieurs raisons. La raison la plus importante est que les gestionnaires qui sont prêts à commettre des fraudes à comprendre ce qu'ils doivent faire un bon travail de dissimuler.Gestionnaires plié…

Comment distinguer les erreurs dues à la fraude

Lorsque vous trouvez des anomalies, vous êtes chargé de faire une évaluation de fraude contre l'erreur. Erreurs ne sont pas deliberate- fraude est. Plus précisément, fraude est défini comme une intention délibérée de tromper.Gardez à…

Prévenir la perte des contrôles internes

Les procédures et les processus que l'entreprise utilise pour prévenir les pertes de trésorerie provenant de détournement de fonds, la fraude et d'autres types de malhonnêteté passer sous le terme général contrôles internes. Interne…

godiches.com » Ordinateurs et logiciels » Big Data » Gestion des données » La détection de la fraude avec Hadoop