AI.Why?
Video
Název projektu / produktu: AI.Why?
Team leader: Matyáš Boháček
Výzva: č. 1: Fakenews & generování textu
Problém: Čím dál tím výraznějším problémem v naší společnosti je absentující mediální gramotnost nemalé části populace. Vyřešit tuto situaci se snaží mnoho fake news detektorů, ty jsou ale často netransparentní, a uživatel tedy neví, co se děje uvnitř algoritmu. To posléze podněcuje nedůvěru v tyto systémy a přispívá tak nechtěně k efektu, kterému se snažily zabránit. Tyto platformy navíc žádným způsobem uživatele nevzdělávají, takže se na nich stávají závislí a jsou bezradní v jiných situacích.
Řešení: AI.Why dokáže detekovat potenciálně nedůvěryhodné zprávy pomocí transparentních algoritmů a navíc vzdělává své uživatele. Naš algoritmus je založen nejen na analýze vlastností daného článku, ale také na vyhledávání podobných textů či sledování interakcí s ním od botů a uživatelů na soc. sítích. U článku poté i za pomocí našeho modelu strojového učení určí skóre od 0 do 100 a odůvodní své rozhodnutí. Součástí je i vzdělávací platforma, z nichž získané data jsou využívána k optimalizaci algoritmu.
Dopad: Náš přístup je unikátní v tom, že kromě standardních lingvistických parametrů článků a metadat analyzujeme i data, ke kterým uživatel nemá přístup (interakce na sociálních sítích, …). Cílem naší platformy tedy není jen varovat před zavádějícími články, ale zároveň v oblasti mediálního vzdělávání edukovat a učit různé varovné signály. Toto řešení lze také implementovat mezijazyčně a naše vzdělávací platforma nám umožňuje cílit i na mladší generaci, která je na dezinformace obzvlášť náchylná.
Proveditelnost: Základ a back-end aplikace je ve své podstatě hotový. Pro komerční použití bude jednoznačně potřebovat vyladit model AI a scraping dat, který má při režimu zadarmo své chyby. Nicméně projekt i v současné podobě funguje a s finanční podporou grantů či výhry v hackathonu jsme schopni ho spustit. Udělat následné simulace pro výuku mediální gramotnosti je velmi krátký a finančně nenáročný proces, jelikož stavíme na funkcionalitě kontrolní části programu. Po dokončení je projekt zajímavý i pro B2B.
Co jste udělali během hackathonu - popište textově + uveřejněte kód (např. GitHub link): Náš algoritmus jsme už plně implementovali, kdy jsme schopni k danému článků získat veškeré informace, vytvořit jeho sentiment analýzu, vytáhnout z něho jednotlivé osoby a místa, najít podobné zprávy, zjistit relevantní aktivitu na Twitteru či detekovat boty. Jako pipeline jsme ho poté přidali do Django a spustili ho ve formě REST API na AWS. Vytvořili jsme UX a UI celé aplikace a část už jsme převedli do funkčního frontendu.
https://github.com/matyasbohacek/robothon-2021
Co jste měli před hackathonem? Použili jste open source?: Ke scrapování článků využíváme API od Apify. Model na sentiment analýzu jsme natrénovali na korpusu od Západočeské univerzity v Plzni. K získávání osob či míst z textu jsme použili knihovnu publikovanou UFALem. Při doporučovaní podobných článků získáváme zpravodajské texty z databáze od jednoho člena našeho týmu a náš Tfidf model jsme na nich také natrénovali.
Co následuje? Jaká je vize a čeho konkrétního byste rádi dosáhli?: Vizi máme jednoznačnou – esenciální je pro nás více času pro lepší natrénování modelu AI. To by nám umožnilo lépe detekovat vzorce sdílení příspěvků boty a lépe tak odhalovat konspirační články. Chceme se více zaměřit i na získávání dat z edukační části programu, jelikož nám to dává nahlédnout do mysli uživatele a vidět, kde on či ona spatřuje znaky fake news. Obecně tak chceme rozvinout jak ochrannou, tak edukační část, tak aby se doplňovaly a tvořily pro uživatele fungující bezpečnostní síť.