se pleaca de la posturile de pe planet.cs.pub.ro, urmand ca sursele sa se diversifice
se identifica subiectul principal din fiecare post si apropierea lui de facultatea de calculatoare (algoritm de machine learning)
se masoara gradul de simpatie/apatie (algoritm de machine learning)
se identifica cele mai iubite subiecte si cele mai urate subiecte legate de facultatea de calculatoare
identificarea automata a participantilor potentiali in initiativele din facultate / in proiectele open source
se identifica cuvinte cheie pentru proiect si cuvinte cheie pentru requirements-urile fiecarui rol din proiect
se cauta pe motoarele de cautare bloguri care contin grupuri din cuvinte cheie de mai sus
se agrega datele obtinute (information retrieval)
si se calculeaza scoruri pentru fiecare candidat (algoritmi de scoring, machine learning)
se extrag datele de contact ale candidatilor si se prezinta intr-o interfata
feature: incercarea stabilirii unor relatii de “cunoaste pe” si alegerea setului de candidati pe baza apropierii dintre ei (ca sa se formeze o echipa inchegata) (information retrieval)
feature: scoring al activitatilor persoanei (daca are multe posturi pe blog/multe commit-uri pe github/multe posturi pe forumuri) (information retrieval)
search engine care sa identifice persoanelor care te pot indruma cand ai o problema cu un soft open source
am o problema cu softul open-source X, pe cine intreb - si search engine-ul sa-ti returneze persoana pe care ar trebui s-o intrebi si sa ai sanse maxime sa-ti raspunda. Unul dintre smoke tests e ca pentru “linux kernel” trebuie sa raspunda “Linux Torvalds” si sa-ti dea adresa lkml :))
mult crawling peste proiectele open-source existente, agregare de date si mult information retrieval
projects/hadoop.txt · Last modified: 2020/07/20 09:16 (external edit)