Naukowcy z MIT poszukiwali metody na szybsze przeszukiwanie baz danych, używając uczenia maszynowego. Czy taka metoda zawsze jest skuteczna?
Haszowanie metodą odnajdywania danych
Dodawanie znaczka hash jest uznawane za jedną z podstawowych form komunikowania się w internetowych bazach danych, która pozwala w łatwy sposób odnaleźć właśnie to, czego szukamy. Jednak taka metoda nie zawsze jest skuteczna, szczególnie w obszernych bazach, gdyż pozwala na wyszukanie wszystkich skrótów w sposób losowy, co znacząco wydłuża czas poszukiwań. Zdarza się jednak, że funkcje skrótu można uściślić poprzez skonstruowanie ich w sposób zapobiegający powtórzeniom, jednak takie rozwiązanie również jest czasochłonne.
Z pomocą przychodzą naukowcy z MIT oraz uczenie maszynowe, będące formą języka, który pozwala na komunikowanie się z maszynami, programowaniem ich oraz zautomatyzowaniem licznych systemów. Badacze zdecydowali się na utworzenie algorytmów uczenia maszynowego, wykorzystujących doskonałe funkcje skrótu, które pozwolą na zmniejszenie liczby błędnych wyszukiwań o połowę.
Czy uczenie maszynowe zawsze ułatwia wyszukiwanie?
Do stworzenia systemu naukowcy wykorzystali dystrybucję danych, dzięki której możliwe jest poznanie wszystkich możliwych wartości, uzyskiwanych w zbiorach danych. To z kolei pozwala na oszacowanie prawdopodobieństwa, czy konkretna wartość ulokowana jest w danej próbce danych. Następnie, na podstawie małej próbki, badacze zweryfikowali rozkład danych oraz wyuczyli model, aby odnaleźć lokalizację klucza.
Przeprowadzone testy pozwoliły ocenić, że uczenie maszynowe jest skuteczniejszym, szybszym i łatwiejszym sposobem na wyszukiwanie danych w porównaniu do tradycyjnie stosowanych funkcji skrótu, ale w przypadku przewidywalnego i równomiernego rozmieszczenia danych. Natomiast, gdy w danych występują duże braki, uczenie maszynowe może powodować więcej błędnych wyszukiwań.
Opracowany system w przyszłości może pozwolić na przyspieszenie wyszukiwania w ogromnych bazach danych, również w zakresie inżynierii i biotechnologii, gdzie naukowcy wykorzystują liczne bazy wiedzy na temat DNA, aminokwasów czy innych informacji biologicznych.
W prace zaangażowały się firmy takie, jak Google, Intel, Microsoft, National Science Foundation, US Air Force Research Laboratory oraz US Air Force Artificial Intelligence Accelerator.